Статья опубликована в рамках: CXXI Международной научно-практической конференции «Экспериментальные и теоретические исследования в современной науке» (Россия, г. Новосибирск, 28 января 2026 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
СРАВНИТЕЛЬНЫЙ АНАЛИЗ МОДЕЛЕЙ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ ДЛЯ ДЕТЕКЦИИ РЕЧЕВЫХ НАРУШЕНИЙ
COMPARATIVE ANALYSIS OF AUTOMATIC SPEECH RECOGNITION MODELS FOR MISPRONUNCIATION DISORDERS DETECTION
Kurushin Fedor Ivanovich
PhD student at NRNU MEPhI, Machine Learning Engineer at WB Tech LLC
Russia, Moscow
Sorokina Dina Vladimirovna
Speech Therapist at Dobroe Slovo LLC
Russia, Moscow
АННОТАЦИЯ
Целью данной работы является оценка моделей автоматического распознавания речи (ASR) для решения задачи автоматического обнаружения речевых нарушений. Основное внимание уделяется выявлению фонетических ошибок.
Исследование основано на сравнительной экспериментальной оценке нескольких моделей ASR, включая модели на базе CTC, обученные на графемном и фонемном уровнях, а также готовую систему ASR. Был создан специально отобранный набор данных из 2800 отдельных слов, содержащий правильно и неправильно произнесенные слова. Набор данных был стратифицирован по наличию ошибок. Эффективность модели оценивалась с использованием показателей точности и полноты определения ошибки.
Результаты эксперимента показывают, что графемные модели на базе архитектуры Wav2Vec2 с CTC-слоем без дообучения позволяют достичь полноты обнаружения ошибок 88% при точности 67% при F1-Score 76%.
ABSTRACT
This study aims to evaluate automatic speech recognition (ASR) models for solving the problem of automatic detection of speech disorders. The focus of the work is on finding phonetic errors.
The study is based on a comparative experimental evaluation of several ASR models, including CTC-based models trained at grapheme and phoneme levels, as well as a ready-made ASR system. A specially selected dataset of 2,800 individual words was created, containing correctly and incorrectly pronounced words. The data set was stratified by the presence of errors. The effectiveness of the model was assessed using indicators of accuracy and completeness of error detection.
The experimental results show that grapheme models based on the Wav2Vec2 architecture with a CTC layer without additional training can achieve error detection completeness of 88% with an accuracy of 67% and an F1 score of 76%.
Ключевые слова: автоматическое распознавание и диагностика ошибок; компьютерное обучение произношению (CAPT); автоматическое распознавание речи (ASR); логопедия; CTC-модели.
Keywords: mispronunciation detection and diagnosis (MDD); computer-assisted pronunciation training (CAPT); automatic speech recognition (ASR); Connectionist Temporal Classification (CTC); phoneme recognition; speech therapy.
Введение
Основная проблема применения стандартных алгоритмов автоматического распознавания речи (ASR) для задач автоматической детекции речевых ошибок заключается в том, что их главная цель — восстановить сказанное пользователем независимо от качества аудиозаписи или особенностей произношения. Иными словами, ASR модели стремятся корректно распознать речь даже при дефектах, акцентах или нарушениях дикции. В отличие от этого, задача авторов работы — создать систему, которая умеет отличать правильное произношение от ошибок и корректно подкреплять правильные ответы. В случае ошибки мы хотим указать на конкретные нарушения и предоставить учебные примеры, чтобы помочь пользователю скорректировать произношение.
Разработка специализированного алгоритма детекции речевых ошибок — задача для последующих исследований. На текущем этапе работы авторы сосредоточились на анализе существующих методов и оценке их применимости к задаче автоматической детекции речевых ошибок.
Обзор литературы
В основном подходы к детекции ошибок в человеческой речи можно разделить на 2 группы: статистический GOP Mel-Spectrogram, нейросетевой. Также в зарубежной литературе нередко упоминаются размеченные датасеты, которых для русского языка нет. Часть работ также нацелена на изучение CAPT для обучения не носителей новым языкам, обучению произношения. Разработка датасетов в машинном обучении – критическая задача.
В работе Automatic Pronunciation Assessment - A Review [1] авторы приводят тот факт, что до сих пор нет формализованного ответа на вопрос что является правильно произнесенным, а что нет. Авторы систематизируют типы ошибок выделяя среди них, как основные: ошибки произношения (Phonetic Error), просодические ошибки (Prosodic: стресс, ритм, интонация).
Подход Goodness of Pronunciation (GOP) — статистический метод оценки качества произношения [2] – является классическим статистическим методом оценки используемый в системах компьютерного обучения произношению для автоматического обнаружения ошибок на уровне фонем в речи изучающих язык (L2 Learners). GOP количественно оценивает, насколько произнесённый звук соответствует целевому звуку. Алгоритм вычисляет отношение правдоподобия: насколько вероятно, что данный сегмент речи соответствует целевой фонеме, по сравнению с другими фонемами. Полученная оценка сравнивается с заранее определенным пороговым значением, чтобы решить, была ли фонема произнесена правильно или ошибочно. Такой алгоритм обладает невысокой точностью [1] и низкой производительностью так как требует этапа выравнивания [3], однако сами авторы [2] приводят оценку f1 меры на уровне 76-86% (в зависимости от тестовых данных), хотя обладает высоким потенциалом интерпретируемости. Следующим шагом развития технологии GOP является Context [4].
Авторы [5] предлагают новый фреймворк для оценки произношения на уровне фонем, который полностью отказывается от этапа выравнивания, используя модель, обученную с CTC-функцией потерь. Эксперименты проведены на детской речи и речи неносителей.
Несмотря на активное развитие методов оценки произношения для изучающих иностранные языки (L2 learners), их перенос на задачу диагностики речевых нарушений у детей остается нетривиальной проблемой вследствие иной природы ошибок и ограниченности данных.
Несмотря на то, что большинство работ сосредоточенно на изучении проблем компьютерной оценки произношения речи людей, изучающих новый язык (L2 Learners) [1], также есть работы, которые ориентированы на клинические приложения — автоматическую диагностику речевых нарушений у детей. В этой области ASR-модели рассматриваются как инструмент для автоматизации процесса транскрипции и анализа речи, выполняемого логопедами.
Как показано в исследовании [6], современные модели (типа Wav2Vec2 [7]), дообученные на ограниченных наборах детской речи с нарушениями, демонстрируют высокую корреляцию – 97% с экспертными оценками по глобальным метрикам, таким как процент правильных согласных. Это подтверждает их потенциал в качестве вспомогательного инструмента для объективной и быстрой количественной оценки. Несмотря на полученные высокие результаты, исследователи подчеркивают и ограничения моделей: чувствительность модели к контексту, систематические ошибки на определённых классах звуков и принципиальная трудность распознавания некоторых типов ошибок.
Данные
Для проведения сравнительного анализа моделей был разработан программный комплекс для разметки данных (рис. 1).

Рисунок 1. Скриншот программы для разметки данных
В него были загружены все слова, которые используются профессиональными логопедами для обучения детей, каждое слово было сказано правильно и с ошибкой. Соответственно проблема дисбаланса классов правильно/неправильно была решена благодаря методике сбора данных.
Было размечено 2831 слово, все слова можно разделить на 10 классов, где каждый класс отвечает определенной проблемной согласной букве: Ж, З, Л, Ль, Р, Рь, С, Ч, Ш, Щ. Каждая согласный звук в свою очередь мог быть разделен на одну или несколько следующих групп: двойной, конец, начало, середина, стечение. Таким образом, каждый пример относится одновременно к классу звука и классу позиционного правила. Распределение количества записей по правилам представлено на гистограмме (рисунок 2).

Рисунок 2. Распределение количества правил в наборе данных
Таким образом был получен набор данных для оценки ASR моделей, в терминах задачи бинарной классификации, дополнительно сгруппированный по фонетическим правилам.
Методика
В рамках исследования была проведена оценка 13 моделей автоматического распознавания речи, включающих в себя графемные и фонемные модели. Графемные модели в качестве распознавания имеют текстовый выход, в то время как фонемные модели – фонемы. Пример отличия выхода текстовой и фонемной модели представлены в таблице ниже.
Таблица 1.
Примеры фонемных моделей и графем
|
Модель |
Пример |
|
Графемная |
лилипут |
|
Фонемная модель Espeak (IPA) |
ɭʲ i ɭʲ i p u t |
|
Фонемная модель на основе Russian G2P [8] |
l0 i l0 I p u0 t |
Графемные модели включали в себя систему распознавания речи VOSK, и модели типа Wav2Vec2 [7] и Wav2Vec2-BERT [9] натренированные на больших корпусах русской речи. Фонемные модели также в себя включали аналогичные архитектуры, за исключением VOSK.
В ходе работы также были дообучены как и фонемные, так и графемные модели, в качестве основы были взяты модели [7], [8], [9], [10]. В рамках данного исследования авторы опустят подробности дообучения своих моделей, за исключением только того, что сформулируют гипотезу, которая может лечь в основу следующих работ: Если дообучить базовую модель [10] на эталонной русской речи, например дикторы радио или аудиокниги, то CTC модели не будут понимать неправильно сказанные звуки, благодаря чему можно будет находить и детектировать ошибки.
Эффективность моделей оценивалась с использованием стандартных показателей бинарной классификации:
- Precision = TP / (TP + FP)
- Recall = TP / (TP + FN)
- F1 = 2 * Precision * Recall / (Precision + Recall)
В рамках данной работы положительным классом считается наличие ошибки произношения, что соответствует True Rejection в терминологии работ по MDD [1]. Более подробно с элементами матрицы ошибок можно ознакомиться в таблице 2.
Таблица 2.
Элементы матрицы ошибок
|
|
Количество правильно обнаруженных ошибочных произношений |
|
TN |
Количество правильно распознанных правильных произношений |
|
FP |
правильные произношения, ошибочно классифицированные как ошибки |
|
FN |
Количество пропущенных ошибочных произношений |
Кроме того, для оценки качества распознавания на уровне последовательности было вычислено расстояние Левенштейна между эталонной и прогнозируемой транскрипциями.
Эксперименты
Результаты экспериментов представлены в таблице 3 (в таблице 3, в столице Тип Ф. – фонемная модель, Гр, – графемная)
Модели, основанные на фонемах, являются очень чувствительными и благодаря этому демонстрируют высокую полноту, при этом качественный анализ выхода моделей демонстрирует, что они часто детектируют ошибки там, где их на самом деле не было, использовать фонемные модели для автоматического детектирования ошибок на том уровне, на которым они находятся сейчас – может привести к тому, что даже когда пользователь научится говорить правильно модель не всегда сможет его правильно понять.
Графемные модели показывают более высокую точность, это также может быть связано с тем, что словарь графем в полтора раза меньше, чем словарь фонем русского языка.
При выборе модели нужно ориентироваться на баланс между точностью и полнотой. Среди всех оцененных моделей модель Wav2Vec2-Golos получила наивысший F1 - 0,764, продемонстрировав баланс между точностью 0,673 и полнотой 0,883.
Таблица 3.
Результаты экспериментов
|
Модель |
Тип |
Precision |
Recall |
F1-Score |
Levenshtein |
|
lv60 [11] |
Ф. |
0.508 |
0.997 |
0.673 |
3.97 |
|
xlsr53 [10] |
Ф. |
0.506 |
0.995 |
0.670 |
3.86 |
|
xlsr53g2p (данная работа) |
Ф. |
0.549 |
0.971 |
0.702 |
4.60 |
|
xlsr53 (данная работа) |
Гр. |
0.608 |
0.929 |
0.735 |
1.95 |
|
W2V-Golos (данная работа) |
Гр. |
0.623 |
0.920 |
0.743 |
1.86 |
|
W2V-Bert (данная работа) |
Гр. |
0.582 |
0.903 |
0.708 |
2.10 |
|
W2V2-XLSR-1b [12] |
Гр. |
0.652 |
0.893 |
0.754 |
1.60 |
|
W2V-Golos [13] |
Гр. |
0.673 |
0.883 |
0.764 |
1.63 |
|
W2V-Bert-Adapter (данная работа) |
Гр. |
0.625 |
0.876 |
0.730 |
1.81 |
|
Vosk |
Гр. |
0.693 |
0.775 |
0.732 |
1.62 |
Дискуссия
Результаты показывают, что ни одна модель ASR не является оптимальной для всех типов ошибок произношения. В связи с чем необходимо продолжать дальнейшую работу в этой области. Необходимо развивать подходы распознавания ошибок на русском языке, собирать и публиковать наборы данных.
Заключение
В ходе данной работы было продемонстрировано, что современные модели ASR, в частности архитектуры на основе CTC, могут эффективно применяться для обнаружения неправильного произношения отдельных слов. Модели на уровне фонем обеспечивают почти идеальную полноту, в то время как модели на основе графем обеспечивают лучший баланс между точностью и полнотой обнаружения ошибок.
Полученные результаты формируют практическую основу для разработки автоматизированных систем оценки речи и указывают на перспективные направления будущих исследований, включая расширение набора данных и адаптацию моделей к нарушенной речи.
Список литературы:
- Kheir Y. E., Ali A., Chowdhury S. A. Automatic Pronunciation Assessment--A Review //arXiv preprint arXiv:2310.13974. – 2023.
- Kanters S., Cucchiarini C., Strik H. The goodness of pronunciation algorithm: a detailed performance study. – 2009.
- McAuliffe M. et al. Montreal forced aligner: Trainable text-speech alignment using kaldi //Interspeech. – 2017. – Т. 2017. – С. 498-502.
- Shi J., Huo N., Jin Q. Context-aware goodness of pronunciation for computer-assisted pronunciation training //arXiv preprint arXiv:2008.08647. – 2020.
- Cao X. et al. A framework for phoneme-level pronunciation assessment using ctc //Proc. Interspeech. – 2024.
- Kim D. H. et al. Usefulness of Automatic Speech Recognition Assessment of Children With Speech Sound Disorders: Validation Study //Journal of medical Internet research. – 2025. – Т. 27. – С. e60520.
- Baevski A. et al. wav2vec 2.0: A framework for self-supervised learning of speech representations //Advances in neural information processing systems. – 2020. – Т. 33. – С. 12449-12460.
- Yakovenko O. et al. Algorithms for automatic accentuation and transcription of russian texts in speech recognition systems //International Conference on Speech and Computer. – Cham : Springer International Publishing, 2018. – С. 768-777.
- Chung Y. A. et al. W2v-bert: Combining contrastive learning and masked language modeling for self-supervised speech pre-training //2021 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). – IEEE, 2021. – С. 244-250.
- Babu A. et al. XLS-R: Self-supervised cross-lingual speech representation learning at scale //arXiv preprint arXiv:2111.09296. – 2021.
- Xu Q., Baevski A., Auli M. Simple and effective zero-shot cross-lingual phoneme recognition //arXiv preprint arXiv:2109.11680. – 2021.
- Grosman J. Fine-tuned XLS-R 1B model for speech recognition in Russian [Электронный ресурс] // Hugging Face Hub. 2022. URL: https://huggingface.co/jonatasgrosman/wav2vec2-xls-r-1b-russian (дата обращения: 23.01.2026).
- Bondarenko I. XLSR Wav2Vec2 Russian by Ivan Bondarenko [Электронный ресурс] // Hugging Face Hub. 2022. URL: https://huggingface.co/bond005/wav2vec2-large-ru-golos (дата обращения: 23.01.2026).
дипломов


Оставить комментарий