Статья опубликована в рамках: CXII Международной научно-практической конференции «Экспериментальные и теоретические исследования в современной науке» (Россия, г. Новосибирск, 30 апреля 2025 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Белова Т.Э., Яремова Е.В. УЛУЧШЕНИЕ ТОЧНОСТИ РАСПОЗНАВАНИЯ РЕЧИ ПОЛЬЗОВАТЕЛЬСКИМИ ЯЗЫКОВЫМИ МОДЕЛЯМИ VOSK // Экспериментальные и теоретические исследования в современной науке: сб. ст. по матер. CXII междунар. науч.-практ. конф. № 4(104). – Новосибирск: СибАК, 2025. – С. 12-23.

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов

УЛУЧШЕНИЕ ТОЧНОСТИ РАСПОЗНАВАНИЯ РЕЧИ ПОЛЬЗОВАТЕЛЬСКИМИ ЯЗЫКОВЫМИ МОДЕЛЯМИ VOSK

Белова Татьяна Эдуардовна

студент, Институт Кибербезопасности и Цифровых Технологий, РТУ МИРЭА,

РФ, г. Москва

Яремова Елизавета Васильевна

студент, Институт Кибербезопасности и Цифровых Технологий, РТУ МИРЭА,

РФ, г. Москва

IMPROVING SPEECH RECOGNITION ACCURACY WITH CUSTOM VOSK LANGUAGE MODELS

Tatyana Belova

student, Institute of Cybersecurity and Digital Technologies, Russian Technological University MIREA,

Russia, Moscow

Elizaveta Yaremova

student, Institute of Cybersecurity and Digital Technologies, Russian Technological University MIREA,

Russia, Moscow

АННОТАЦИЯ

Несмотря на активное развитие алгоритмов распознавания речи, обеспечение высокой точности транскрипции в условиях разнообразия аудиоформатов и акустических сред остаётся актуальной задачей. В исследовании рассматривается интеграция пользовательских языковых моделей в инструментарий с открытым исходным кодом Vosk Toolkit [1], что позволяет повысить точность распознавания речи в различных условиях. В отличие от традиционных решений, подход поддерживает множество аудиоформатов, включая WAV, MP3, FLAC и OGG. Для предварительной обработки и конвертации используется функциональность Python.

Реализован транскрипционный конвейер на базе Python с использованием KaldiRecognizer из Vosk [2] и возможностью экспорта результатов в формат .docx. Проведённый анализ показал снижение количества ошибок распознавания, особенно в случае специализированной лексики, акцентов и фонового шума. Решение представляет собой автономную и экономически эффективную систему для высокоточной транскрипции с возможностью автоматизации и обработки в реальном времени.

ABSTRACT

Despite the rapid development of speech recognition algorithms, achieving high transcription accuracy across various audio formats and acoustic environments remains a relevant challenge. This study explores the integration of custom language models into the open-source Vosk Toolkit [1], which enhances speech recognition accuracy under diverse conditions. Unlike traditional systems, this approach supports multiple audio formats, including WAV, MP3, FLAC, and OGG. Python functionality is employed for preprocessing and format conversion.

A Python-based transcription pipeline was implemented using KaldiRecognizer from Vosk [2], with support for exporting results to .docx format. Analysis demonstrated a reduction in recognition errors, particularly in the context of specialized terminology, accents, and background noise. The proposed solution represents an autonomous and cost-effective system for high-accuracy transcription, enabling automation and real-time processing.

Ключевые слова: распознавание речи, vosk toolkit, пользовательская языковая модель, точность транскрипции, обработка аудиофайлов

Keywords: speech recognition, vosk toolkit, custom language model, transcription accuracy, audio file processing.

1 Введение

1.1 Краткий обзор

Автоматическое распознавание речи (ASR) превращает речь в текст и является ключевым компонентом голосовых помощников (Siri, Alexa), систем субтитрирования и юридической транскрипции, повышая доступность информации и автоматизацию коммуникаций.

Для людей с ограниченными возможностями ASR обеспечивает управление устройствами голосом и преобразование устных лекций в субтитры, что расширяет возможности взаимодействия с цифровыми сервисами. В бизнесе оно позволяет работать без рук, оптимизировать записи совещаний и улучшать чат-боты для обслуживания клиентов. По мере распространения голосовых интерфейсов в «умных» домах, автомобилях и системах IoT значительно вырос спрос на высокоточные, учитывающие контекст и адаптируемые к конкретной области решения для транскрипции.

1.2 Существующие данные

На сегодняшний день существует несколько хорошо зарекомендовавших себя систем распознавания речи, каждая из которых обладает различной степенью производительности и адаптивности. Облачные платформы, такие как Google Speech-toText [3], обеспечивают впечатляющую точность транскрипции на наборах данных общего назначения благодаря огромным обучающим корпорациям и постоянным обновлениям. Аналогичным образом, Mozilla DeepSpeech [4] использует архитектуры глубокого обучения для улучшения распознавания, особенно в англоязычных приложениях. Среди Open‑Source‑систем можно выделить CMU Sphinx, предлагающий лёгкую автономную транскрипцию [5].

При этом во многих решениях точность существенно падает при фоновых шумовых помехах, региональных акцентах, одновременной речи нескольких говорящих или узкоспециализированной лексике. Облачные сервисы, такие как Google Speech‑to‑Text, демонстрируют высокую точность, но вызывают опасения по поводу конфиденциальности, задержек и зависимости от стабильного Интернет-соединения.

1.3 Неизученные аспекты

Исследования интеграции настраиваемых языковых моделей в автономные инструменты ASR (например, Vosk [1]) остаются ограниченными. Большинство коммерческих систем допускают лишь частичную адаптацию словарей, в то время как создание полностью настраиваемых моделей для таких доменов, как судебная лексика, медицина или технические лекции, реализовано мало. Редко рассматривается влияние подобных адаптаций на точность распознавания в разных форматах аудио и при сложных акустических условиях.

1.4 Цель

Цель исследования - разработать и оценить автономную систему транскрипции на базе Vosk Toolkit, эффективно функционирующую в разнообразных практических сценариях. Задачи включают:

- построение конвейера для автоматической обработки форматов WAV, MP3, FLAC и OGG без ручной конвертации;

- интеграцию доменных языковых моделей для повышения точности в узкоспециализированных областях;

- обеспечение полностью автономного режима работы для защиты данных и работы в офлайн‑условиях;

- экспорт результатов в формате .docx для удобства редактирования и обмена.

Оценка будет базироваться на метрике частоты ошибок в словах (WER), согласованности транскрипции и адаптивности к различным областям и акустическим условиям.

1.5 Практическое применение

Исследование ограничено следующим:

- автономный режим - отсутствие зависимости от облачных API;

- язык: английский с американским и нейтральным акцентом (опционально возможна многоязычная поддержка Vosk);

- тип аудио: одноголосые, заранее записанные файлы без перекрытий;

- предварительная обработка опирается на встроенные механизмы Vosk (нормализация частоты дискретизации), без явного шумоподавления или разделения дикторов;

- метрики фокусируются на точности (WER), совместимости с форматами и влиянии доменных языковых моделей.

Ограничения обеспечивают целенаправленный анализ потенциала автономных моделей Vosk в практических задачах ASR с возможностью дальнейшего расширения на многоязычные, многодикторные и стриминговые решения.

2 Материалы и методы

2.1 Использованные материалы

Инструментарий Vosk и языковые модели. Система построена на Vosk Toolkit, основанном на Kaldi ASR [2], с возможностью использования как стандартных, так и пользовательских языковых моделей в автономном режиме. Конвейер реализован на Python 3.x с применением библиотек: vosk для распознавания речи, python-docx для генерации документов .docx и pydub для конвертации аудио. Входные форматы, поддерживаемые и проверенные в эксперименте: WAV, MP3, FLAC и OGG.

2.2 Процесс транскрибирования

Модульная архитектура обеспечивает поэтапную обработку аудиофайлов (см. рис. 1):

1. Загрузка модели и валидация входа. Выбирается локальная модель Vosk (стандартная или доменная). Форматы и параметры файла (частота дискретизации, моно/стерео) проверяются на соответствие поддерживаемым спецификациям.

2. Преобразование аудио. С помощью pydub выполняется конвертация во входной моно WAV 16 кГц, что снижает влияние вариативности аудиоисточников.

3. Распознавание речи. Обработанный файл передаётся в KaldiRecognizer Vosk по фреймам, где происходит вероятностное декодирование и последовательный сбор частичных и окончательных результатов.

4. Экспорт результатов в формате DOCX. После завершения транскрипции полный текст экспортируется в файл .docx с помощью библиотеки python-docx.

Рисунок 1. Рабочий процесс транскрибирования речи в текст с помощью Vosk

2.3 Надежность и валидация

Система гарантирует высокую производительность благодаря нескольким уровням проверки надежности. На этапе инициализации проверяются наличие модели и корректность аудио. Во время работы ошибки ввода‑вывода, неподдерживаемые форматы и сбои декодирования обрабатываются структурированными блоками исключений. Качество распознавания оценено на вручную размеченных аудиозаписях, что подтвердило высокую долю корректно транскрибированных фрагментов, особенно при использовании доменных языковых моделей.

Более того, модульный характер системы позволяет легко интегрировать дополнительные постобработки, такие как восстановление пунктуации или распознавание именованных сущностей в будущих разработках.

Рисунок 2. Диаграмма распределения форматов

На рисунке 2 представлено соотношение форматов в тестовой коллекции: WAV (без потерь, профессиональный стандарт), MP3/OGG (сжатые кодеки, характерные для подкастов и конференций) и FLAC (сжатие без потерь для архивации). Такой подбор позволил проверить способность конвейера корректно нормализовать и обрабатывать разнородные аудиофайлы.

3 Результаты и обсуждение

3.1 Сравнение производительности и тенденции точности

На рисунке 3 приведены значения WER в четырёх предметных областях: технической, образовательной, бизнес и медиа. Во всех доменах применение настраиваемых языковых моделей приводит к снижению WER по сравнению со стандартными решениями.

Рисунок 3. Сравнение WER

Как видно из рисунка 4, в тестовых наборах пользовательская модель последовательно превосходит модель по умолчанию. Это связано с адаптацией к специфической лексике, акцентам и контекстным оборотам каждой области, что уменьшает число ошибок: неправильных слов, пропусков и некорректных замен. Наибольший эффект достигается при распознавании технического жаргона, в условиях низкого качества записи и при региональных акцентах, где обобщающие модели обычно теряют точность. Постепенный рост показателей точности при разных наборах данных свидетельствует не только о повышении производительности, но и об улучшении способности модели к обобщению.

Рисунок 4. График точности распознавания

Как показано на рисунке 4, при тестировании 10 образцов, пользовательские языковые модели продемонстрировали более стабильные и высокие результаты по сравнению с моделями по умолчанию.

3.2 Анализ поведения модели и визуализация обработки

Для детального изучения работы системы на основе Vosk разработан набор визуальных диагностик, позволяющих оценить обработку входного аудиосигнала, процесс распознавания фонем и распределение уровней уверенности. На рисунке 5 спектрограмма иллюстрирует распределение энергии и частотных характеристик речевого сигнала.

Рисунок 5. Спектограмма

Рисунок 6. Тепловая карта

На рисунке 6 представлена тепловая карта, показывающая распределение вероятности различных фонем по временным интервалам в образце аудиоклипа. Каждая строка соответствует определенной фонеме, а каждый столбец представляет собой дискретный временной шаг в процессе распознавания. Цветовая интенсивность отображает уровень уверенности модели при идентификации конкретной фонемы в определённый момент времени. Такая визуализация позволяет отследить переходы между фонемами и реакцию модели на неоднозначные аудиофрагменты. Ярко выраженные, непрерывные полосы указывают на высокую достоверность распознавания, тогда как размытые или слабовыраженные области сигнализируют о сниженной уверенности, обусловленной шумом, акцентами или наложением звуков. Это может помочь в анализе того, где и почему происходят ошибки в распознавании, предлагая диагностику.

На рисунке 7 свечной график показывает доверительные интервалы на уровне слов.

Рисунок 7. Свечной график

Внутренние визуализации позволяют подтвердить функциональную целостность модели, а также служат инструментом для анализа её ограничений и сильных сторон в различных акустических условиях.

3.3 Сравнительный анализ моделей

Для оценки эффективности системы на базе Vosk проведено сравнение с другими популярными решениями в области распознавания речи по таким критериям, как автономность работы и поддержка пользовательских языковых моделей и производительности в конкретной области. В таблице 1 приведены результаты этого сравнения.

4 Заключение

Проведённое исследование подтверждает целесообразность использования пользовательских языковых моделей в связке с системой распознавания речи Vosk [1] с целью повышения точности транскрипции в специализированных сценариях. Благодаря поддержке различных аудиоформатов и функционированию в полностью автономном режиме, система решает ключевые задачи, связанные с обеспечением конфиденциальности, ограничениями пропускной способности и совместимостью с различными форматами. Применение отраслевых языковых моделей способствует значительному снижению уровня ошибок распознавания (WER), особенно в условиях использования профессиональной терминологии, региональных акцентов и нестабильных акустических параметров.

Помимо высокой точности распознавания, система характеризуется адаптивной архитектурой, обеспечивающей гибкость и возможность масштабирования. Модульный конвейер на базе Python позволяет легко расширять систему, например, настраивать формат вывода или интегрировать с другими инструментами обработки. В целом проект подтверждает гипотезу о том, что автономные системы ASR, такие как Vosk, дополненные целевым языковым моделированием, могут предложить производительность, конкурентоспособную с основными облачными сервисами, сохраняя над пользователем контроль и конфиденциальность данных.

4.1 Перспективы

Хотя текущая архитектура демонстрирует устойчивую работу при транскрипции речи одного диктора, существует ряд возможных усовершенствований, способных существенно расширить её функциональные возможности:

- Потоковая транскрипция в реальном времени. Расширение системы для поддержки ввода живого звука и декодирования в реальном времени позволит использовать ее в конференциях, субтитрах и приложениях голосовых помощников;

- Идентификация диктора и дирижирование. Включение модулей распознавания дикторов позволит системе сегментировать и маркировать аудиозаписи с участием нескольких дикторов, что особенно полезно для расшифровки совещаний и судебных разбирательств;

- Интеграция с рабочими процессами, управляемыми голосом. Встраивание механизма транскрипции в более широкие системы автоматизации задач (например, интеллектуальные помощники, системы управления и контроля) может открыть новые возможности использования в области доступности и взаимодействия человека и компьютера.

Указанные направления создают значительный потенциал для расширения областей применения автономных и адаптируемых систем автоматического распознавания речи в образовательной и промышленной среде.

Список литературы:

Alphacephei, “Vosk Speech Recognition Toolkit,” 2023. [Online]. Available: https: //alphacephei.com/vosk/ (дата обращения: 10.04.2025)
D. Povey et al., “The Kaldi Speech Recognition Toolkit,” in IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU), 2011.
Google Cloud, “Speech-to-Text API,” 2023. [Online]. Available: https://cloud. google.com/speech-to-text (дата обращения: 10.04.2025)
Mozilla Foundation, “Mozilla DeepSpeech,” 2020. [Online]. Available: https:// github.com/mozilla/DeepSpeech (дата обращения: 10.04.2025)
CMU Sphinx, “Open Source Toolkit for Speech Recognition,” 2022. [Online]. Available: https://cmusphinx.github.io/ (дата обращения: 10.04.2025)
OpenAI, “Whisper: Robust Speech Recognition via Large-Scale Weak Supervision,” 2022. [Online]. Available: https://github.com/openai/whisper 10 (дата обращения: 13.04.2025)
Graves, A., Fern´andez, S., Gomez, F., & Schmidhuber, J. (2006). Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. In Proceedings of the 23rd International Conference on Machine Learning (pp. 369–376). ACM. (дата обращения: 13.04.2025)
Hinton, G., Deng, L., Yu, D., Dahl, G. E., Mohamed, A., Jaitly, N., ... & Kingsbury, B. (2012). Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. IEEE Signal Processing Magazine, 29(6), 82–97. (дата обращения: 13.04.2025)
Amodei, D., Ananthanarayanan, S., Anubhai, R., Bai, J., Battenberg, E., Case, C., ... & Zhu, Z. (2016). Deep Speech 2: End-to-end speech recognition in English and Mandarin. In International Conference on Machine Learning (pp. 173–182). (дата обращения: 15.04.2025)
Chan, W., Jaitly, N., Le, Q. V., & Vinyals, O. (2016). Listen, attend and spell: A neural network for large vocabulary conversational speech recognition. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 4960–4964). (дата обращения: 15.04.2025)
Schneider, S., Baevski, A., Collobert, R., & Auli, M. (2019). wav2vec: Unsupervised pre-training for speech recognition. arXiv preprint arXiv:1904.05862. (дата обращения: 15.04.2025)
Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2023). Robust Speech Recognition via Large-Scale Weak Supervision. arXiv preprint arXiv:2212.04356. (дата обращения: 15.04.2025)

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов

УЛУЧШЕНИЕ ТОЧНОСТИ РАСПОЗНАВАНИЯ РЕЧИ ПОЛЬЗОВАТЕЛЬСКИМИ ЯЗЫКОВЫМИ МОДЕЛЯМИ VOSK

Оставить комментарий