Статья опубликована в рамках: Научного журнала «Студенческий» № 28(282)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3
ОБЗОР СОВРЕМЕННЫХ OPEN SOURCE МОДЕЛЕЙ ДЛЯ РАСПОЗНАВАНИЯ РЕЧИ
AN OVERVIEW OF MODERN OPEN-SOURCE MODELS FOR SPEECH RECOGNITION
Roman Matyushin
student, Institute of Advanced Information Technologies, Tula State Pedagogical University,
Russia, Tula
АННОТАЦИЯ
В статье был проведен обзор современных моделей для распознавания речи, были описаны их архитектуры, на каких данных были обучены и обозначены показатели эффективности.
ABSTRACT
The article reviewed modern models for speech recognition, described their architectures, on which data they were trained and indicated performance indicators.
Ключевые слова: модель, распознавание речи, архитектура, точность, датасет, речь, обучение.
Keywords: model, speech recognition, architecture, accuracy, dataset, speech, learning.
Распознавание и обработка речи являются ключевыми технологиями в области искусственного интеллекта, значительно влияющими на взаимодействие человека с машинами. В последние годы наблюдается значительный рост числа открытых моделей и библиотек, доступных для разработчиков. Эти модели обеспечивают высокую точность и производительность при относительно низких затратах, что делает их привлекательными для широкого круга приложений. В данной статье представлен обзор современных open-source моделей для распознавания и обработки речи, включая их преимущества, недостатки.
SeamlessM4T V2
Данная модель была представлена компанией Meta (организация Meta, признана экстремистской и запрещена на территории Российской Федерации – прим.ред.) в 2023 году. Она является развитием идей первой версии с использованием новой архитектуры UnitY2 [11].
Подробности архитектуры представлены на рисунке 1.
Рисунок 1. Архитектура SeamlessM4T V2
Стоит отметить широкие возможности неограниченные только распознаванием речи в текст, но также речи в речь, текст в речь, а также текста в текст.
SeamlessM4T V2 имеет архитектуру, которая включает в себя две модели последовательности-последовательности (seq2seq). Первая модель переводит модальность ввода в переведенный текст, а вторая модель генерирует речевые токены, известные как «токены единиц», из переведенного текста [14].
Данная модель представляет собой формат энкодер-декодер, где архитектура декодера очень похожа на архитектуру энкодера, и в обоих случаях используются схожие слои, главной особенностью которых является самовнимание. Однако декодер выполняет иную задачу, чем энкодер (см. рисунок 2) [1].
Рисунок 2. Архитектура seq2seq
Для обучения модели использовались датасеты из 101 языка в том числе и русского, а суммарное время обучения для перевода речи в текст составляет порядка 145562 часов.
Результаты модели также не могут не впечатлить, в среднем показатель WER (World Error Rate или же процент ошибок распознавания) составляет от 23 до 13% в зависимости от размерности датасета [10].
Большим преимуществом данной модели является возможность распознавания нескольких языков в пределах одной записи, это означает что при использовании человеком сразу нескольких языков в речи.
Однако данная модель очень сложна в своей сути и это создает проблемы для развертки и интеграции в существующие системы в отличии от своих аналогов, которые зачастую имеют довольно простую интеграцию вплоть до простой установки библиотеки [12].
Суммируя вышеизложенное, мы можем сказать что данная модель имеет широчайшие возможности и является одним из лучших решений для решения задач распознавания речи.
DeepSpeech 2
Модель распознавания речи DeepSpeech 2 основана на глубоком обучении, конкретно на рекуррентных нейронных сетях (RNN), таких как LSTM (Long Short-Term Memory) и GRU (Gated Recurrent Unit) [2]. Эти типы нейронных сетей позволяют модели DeepSpeech адаптироваться к последовательным входным данным, таким как последовательность звуковых фреймов, которые поступают на вход при распознавании речи [5].
Рисунок 3. Архитектура DeepSpeech2
В отличие от традиционных методов распознавания речи, которые часто используют скрытые модели Маркова (HMM), DeepSpeech использует end-to-end подход, где модель напрямую преобразует входные звуковые данные в последовательность слов или символов, что позволяет добиться высокой скорости модели.
Рисунок 4. Архитектура End-to-end
Недостатком такого подхода является то, что для качественного распознавания и обучения нейронных сетей модели требуется большой объем разнородных данных, передаваемых в реальных условиях разными голосами и при наличии естественного шума, а также высокие вычислительные мощности [8].
Для обучения модели задействовался датасет CommonVoice, который включает 1469 часов на английском, 692 часа на немецком, 554 часа на французском, 105 часов на русском и 22 часа на украинском языках [4].
Касательно точности распознавания если смотреть по характеристике WER то она составляет 16%.
Как итог мы можем сказать, что данная модель представляет собой хоть и отличное решение, но не для массового пользователя.
Whisper
Модель для распознавания речи Whisper была разработана OpenAi в 2022 году.
Данная модель представляет из себя модель энкодера-декодера на основе трансформатора или же Sequence-to-sequence модель.
Более подробная архитектура модели представлена на рисунке 2.
Рисунок 2. Архитектура модели Whisper
Обучение модели составляло 681,07 тыс. часов. В данную величину входят: распознавание английской речи, распознавание мультиязычной речи, включающей в себя 97 языков в том числе и русский, а также распознавание переводов. Подробности представлены на рисунке 3 [9].
Рисунок 3. Суммарный датасет модели Whisper
В результате обучения на таком большом объеме данных были получены следующие показатели точности в зависимости от размера датасета (см. таблицу 1).
Таблица 1
Показатели точности модели Whisper в зависимости от размера датасета
Размер датасета, час. |
WER – Английский, % |
WER – Мультиязычный, % |
3405 |
30,5 |
92,4 |
6811 |
19,6 |
72,7 |
13621 |
14,4 |
56,6 |
27243 |
12,3 |
45 |
54486 |
10,9 |
36,4 |
681070 |
9,9 |
29,2 |
Однако, ввиду особенностей архитектуры, а также в зависимости от размера датасета данная модель медленно работает в сравнении с аналогами, из чего вытекают высокие аппаратные требования для эффективной работы [14]. Также стоит отметить более высокую эффективность при работе на GPU по сравнению с CPU.
Делая вывод, мы можем сказать, что данная модель является одним из лучших open-source моделей для распознавания речи.
GigaAM-CTC
Данная модель распознавания речи была представлена компанией «Сбер» в 2024 году наряду с другими продуктами семейства GigaAM [6].
Модель основана на End-to-End подходе Connectionist Temporal Classification или же CTC и обучена с помощью фреймворка Nemo.
СТС – функция потерь, предложенная в 2006 году Алексом Грейвсом для обучения распознаванию последовательностей нейронной сетью. Основное применение данной функции, это распознавание речи [3].
Она предназначена для измерения расхождения между прогнозируемой последовательностью символов (например, транскрипцией произнесенного слова) и целевой последовательностью символов (действительной транскрипцией).
Принцип работы CTC Loss заключается в следующем:
- Входные данные: Алгоритм получает два набора данных:
- Входная последовательность: последовательность акустических характеристик, извлеченных из аудиосигнала.
- Целевая последовательность: транскрипция произнесенного слова (например, "привет").
- Кодирование: нейронная сеть (обычно RNN, такая как LSTM) кодирует входную последовательность в последовательность вероятностей для каждого символа в словаре.
- Выравнивание: алгоритм CTC Loss находит выравнивание между входной и целевой последовательностями, которое максимизирует вероятность целевой последовательности.
- Расчет ошибки: вычисляется ошибка между вероятностью выровненной последовательности и единицей.
Суммарное обучение модели составляло порядка 1896 часов, для этого использовалось 4 датасета:
1. Golos Sberdevices – 1227 часов [7];
2. SOVA – 369 часов;
3. CommonVoice – 207 часов;
4. LibriSpeech – 93 часа.
В этих датасетах наибольшей степени наиболее представлен Русский язык из чего вытекает основное назначение этой модели – распознавание русской речи, что однако является и её недостатком.
В данном контексте данная модель намного лучше справляется с задачей распознавания русской речи по сравнению с конкурентами, подробности представлены в таблице 2, для сравнения использовался параметр WER.
Таблица 2
Показатели точности модели GigaAM-CTC по нескольким датасетам
Модель |
Golos Crowd |
Golos Farfield |
OpenSTT Youtube |
OpenSTT Phone Calls |
OpenSTT Audiobooks |
MCV |
RuLS |
Whisper‑large‑v3 |
17.4 |
14.5 |
21.1 |
31.2 |
17.0 |
5.3 |
9.0 |
NeMo Conformer‑RNNT |
2.6 |
7.2 |
24.0 |
33.8 |
17.0 |
2.8 |
13.5 |
GigaAM‑CTC |
3.1 |
5.7 |
18.4 |
25.6 |
15.1 |
1.7 |
8.1 |
Стоит отметить, что для оценки также были использованы датасеты OpenSTT неиспользовавшиеся в обучении.
Исходя из выше представленных данных можно сделать вывод о больших перспективах данной модели, учитывая её новизну и отличные результаты выполнения своей задачи.
Подводя суммарные итоги, в статье были рассмотрены четыре модели распознавания речи, как результат выявлены перспективные решения в этой области. У каждой модели имеется свой ряд преимуществ и недостатков, это означает что выбор той или иной модели в первую очередь определяется поставленной задачей и техническими возможностями и в соответствии с ней подбирать подходящую модель.
Список литературы:
- Архитектуры Seq2Seq / [Электронный ресурс] // Hugging Face : [сайт]. — URL: https://huggingface.co/learn/audio-course/ru/chapter3/seq2seq (дата обращения: 24.05.2024).
- A.I. based Embedded Speech to Text Using Deepspeech / [Электронный ресурс] // Arxiv : [сайт]. — URL: https://arxiv.org/abs/2002.12830 (дата обращения: 24.05.2024).
- Advancing Connectionist Temporal Classification With Attention Modeling / [Электронный ресурс] // Arxiv : [сайт]. — URL: https://arxiv.org/abs/1803.05563v1 (дата обращения: 24.05.2024).
- Common Voice: A Massively-Multilingual Speech Corpus / [Электронный ресурс] // Arxiv : [сайт]. — URL: https://arxiv.org/abs/1912.06670 (дата обращения: 24.05.2024).
- Deep Speech: Scaling up end-to-end speech recognition / [Электронный ресурс] // Arxiv : [сайт]. — URL: https://arxiv.org/abs/1412.5567 (дата обращения: 24.05.2024).
- GigaAM: the family of open-source acoustic models for speech processing / [Электронный ресурс] // GitHub : [сайт]. — URL: https://github.com/salute-developers/GigaAM (дата обращения: 24.05.2024).
- Golos: Russian Dataset for Speech Research / [Электронный ресурс] // Arxiv : [сайт]. — URL: https://arxiv.org/abs/2106.10161 (дата обращения: 24.05.2024).
- Mozilla Introduces DeepSpeech 0.9 Speech Recognition Engine / [Электронный ресурс] // DesdeLinux : [сайт]. — URL: https://blog.desdelinux.net/en/mozilla-introduces-deepspeech-0-9-speech-recognition-engine/#:~:text=Disadvantages%20of%20DeepSpeech%20include%20poor,the%20presence%20of%20natural%20noises (дата обращения: 24.05.2024).
- Robust Speech Recognition via Large-Scale Weak Supervision / [Электронный ресурс] // Arxiv : [сайт]. — URL: https://arxiv.org/abs/2212.04356 (дата обращения: 24.05.2024).
- Seamless: Multilingual Expressive and Streaming Speech Translation / [Электронный ресурс] // Arxiv : [сайт]. — URL: https://arxiv.org/abs/2312.05187 (дата обращения: 24.05.2024).
- SeamlessM4T v2 / [Электронный ресурс] // Hugging Face : [сайт]. — URL: https://huggingface.co/meta/seamless-m4t-v2-large (дата обращения: 24.05.2024) (социальная сеть, запрещенная на территории РФ, как продукт организации Meta, признанной экстремистской – прим.ред.).
- SeamlessM4T v2 Model Guide / [Электронный ресурс] // Modelbit : [сайт]. — URL: https://www.modelbit.com/model-hub/SeamlessM4T-v2-model-guide#:~:text=%E2%80%8B-,Limitations,that%20are%20not%20fully%20captured. (дата обращения: 24.05.2024).
- SeamlessM4T-v2 / [Электронный ресурс] // Hugging Face : [сайт]. — URL: https://huggingface.co/docs/transformers/main/en/model_doc/seamless_m4t_v2#transformers.SeamlessM4Tv2Model (дата обращения: 24.05.2024).
- Whisper / [Электронный ресурс] // Hugging Face : [сайт]. — URL: https://huggingface.co/openai/whisper-large-v3 (дата обращения: 24.05.2024).
Оставить комментарий