Статья опубликована в рамках: Научного журнала «Студенческий» № 28(282)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3

Библиографическое описание:

Матюшин Р.А. ОБЗОР СОВРЕМЕННЫХ OPEN SOURCE МОДЕЛЕЙ ДЛЯ РАСПОЗНАВАНИЯ РЕЧИ // Студенческий: электрон. научн. журн. 2024. № 28(282). URL: https://sibac.info/journal/student/282/341297 (дата обращения: 11.08.2025).

ОБЗОР СОВРЕМЕННЫХ OPEN SOURCE МОДЕЛЕЙ ДЛЯ РАСПОЗНАВАНИЯ РЕЧИ

Матюшин Роман Андреевич

студент, Институт передовых информационных технологий, Тульский государственный педагогический университет,

РФ, г. Тула

AN OVERVIEW OF MODERN OPEN-SOURCE MODELS FOR SPEECH RECOGNITION

Roman Matyushin

student, Institute of Advanced Information Technologies, Tula State Pedagogical University,

Russia, Tula

АННОТАЦИЯ

В статье был проведен обзор современных моделей для распознавания речи, были описаны их архитектуры, на каких данных были обучены и обозначены показатели эффективности.

ABSTRACT

The article reviewed modern models for speech recognition, described their architectures, on which data they were trained and indicated performance indicators.

Ключевые слова: модель, распознавание речи, архитектура, точность, датасет, речь, обучение.

Keywords: model, speech recognition, architecture, accuracy, dataset, speech, learning.

Распознавание и обработка речи являются ключевыми технологиями в области искусственного интеллекта, значительно влияющими на взаимодействие человека с машинами. В последние годы наблюдается значительный рост числа открытых моделей и библиотек, доступных для разработчиков. Эти модели обеспечивают высокую точность и производительность при относительно низких затратах, что делает их привлекательными для широкого круга приложений. В данной статье представлен обзор современных open-source моделей для распознавания и обработки речи, включая их преимущества, недостатки.

SeamlessM4T V2

Данная модель была представлена компанией Meta (организация Meta, признана экстремистской и запрещена на территории Российской Федерации – прим.ред.) в 2023 году. Она является развитием идей первой версии с использованием новой архитектуры UnitY2 [11].

Подробности архитектуры представлены на рисунке 1.

Рисунок 1. Архитектура SeamlessM4T V2

Стоит отметить широкие возможности неограниченные только распознаванием речи в текст, но также речи в речь, текст в речь, а также текста в текст.

SeamlessM4T V2 имеет архитектуру, которая включает в себя две модели последовательности-последовательности (seq2seq). Первая модель переводит модальность ввода в переведенный текст, а вторая модель генерирует речевые токены, известные как «токены единиц», из переведенного текста [14].

Данная модель представляет собой формат энкодер-декодер, где архитектура декодера очень похожа на архитектуру энкодера, и в обоих случаях используются схожие слои, главной особенностью которых является самовнимание. Однако декодер выполняет иную задачу, чем энкодер (см. рисунок 2) [1].

Рисунок 2. Архитектура seq2seq

Для обучения модели использовались датасеты из 101 языка в том числе и русского, а суммарное время обучения для перевода речи в текст составляет порядка 145562 часов.

Результаты модели также не могут не впечатлить, в среднем показатель WER (World Error Rate или же процент ошибок распознавания) составляет от 23 до 13% в зависимости от размерности датасета [10].

Большим преимуществом данной модели является возможность распознавания нескольких языков в пределах одной записи, это означает что при использовании человеком сразу нескольких языков в речи.

Однако данная модель очень сложна в своей сути и это создает проблемы для развертки и интеграции в существующие системы в отличии от своих аналогов, которые зачастую имеют довольно простую интеграцию вплоть до простой установки библиотеки [12].

Суммируя вышеизложенное, мы можем сказать что данная модель имеет широчайшие возможности и является одним из лучших решений для решения задач распознавания речи.

DeepSpeech 2

Модель распознавания речи DeepSpeech 2 основана на глубоком обучении, конкретно на рекуррентных нейронных сетях (RNN), таких как LSTM (Long Short-Term Memory) и GRU (Gated Recurrent Unit) [2]. Эти типы нейронных сетей позволяют модели DeepSpeech адаптироваться к последовательным входным данным, таким как последовательность звуковых фреймов, которые поступают на вход при распознавании речи [5].

Рисунок 3. Архитектура DeepSpeech2

В отличие от традиционных методов распознавания речи, которые часто используют скрытые модели Маркова (HMM), DeepSpeech использует end-to-end подход, где модель напрямую преобразует входные звуковые данные в последовательность слов или символов, что позволяет добиться высокой скорости модели.

Рисунок 4. Архитектура End-to-end

Недостатком такого подхода является то, что для качественного распознавания и обучения нейронных сетей модели требуется большой объем разнородных данных, передаваемых в реальных условиях разными голосами и при наличии естественного шума, а также высокие вычислительные мощности [8].

Для обучения модели задействовался датасет CommonVoice, который включает 1469 часов на английском, 692 часа на немецком, 554 часа на французском, 105 часов на русском и 22 часа на украинском языках [4].

Касательно точности распознавания если смотреть по характеристике WER то она составляет 16%.

Как итог мы можем сказать, что данная модель представляет собой хоть и отличное решение, но не для массового пользователя.

Whisper

Модель для распознавания речи Whisper была разработана OpenAi в 2022 году.

Данная модель представляет из себя модель энкодера-декодера на основе трансформатора или же Sequence-to-sequence модель.

Более подробная архитектура модели представлена на рисунке 2.

Рисунок 2. Архитектура модели Whisper

Обучение модели составляло 681,07 тыс. часов. В данную величину входят: распознавание английской речи, распознавание мультиязычной речи, включающей в себя 97 языков в том числе и русский, а также распознавание переводов. Подробности представлены на рисунке 3 [9].

Рисунок 3. Суммарный датасет модели Whisper

В результате обучения на таком большом объеме данных были получены следующие показатели точности в зависимости от размера датасета (см. таблицу 1).

Таблица 1

Показатели точности модели Whisper в зависимости от размера датасета

Размер датасета, час.	WER – Английский, %	WER – Мультиязычный, %
3405	30,5	92,4
6811	19,6	72,7
13621	14,4	56,6
27243	12,3	45
54486	10,9	36,4
681070	9,9	29,2

Однако, ввиду особенностей архитектуры, а также в зависимости от размера датасета данная модель медленно работает в сравнении с аналогами, из чего вытекают высокие аппаратные требования для эффективной работы [14]. Также стоит отметить более высокую эффективность при работе на GPU по сравнению с CPU.

Делая вывод, мы можем сказать, что данная модель является одним из лучших open-source моделей для распознавания речи.

GigaAM-CTC

Данная модель распознавания речи была представлена компанией «Сбер» в 2024 году наряду с другими продуктами семейства GigaAM [6].

Модель основана на End-to-End подходе Connectionist Temporal Classification или же CTC и обучена с помощью фреймворка Nemo.

СТС – функция потерь, предложенная в 2006 году Алексом Грейвсом для обучения распознаванию последовательностей нейронной сетью. Основное применение данной функции, это распознавание речи [3].

Она предназначена для измерения расхождения между прогнозируемой последовательностью символов (например, транскрипцией произнесенного слова) и целевой последовательностью символов (действительной транскрипцией).

Принцип работы CTC Loss заключается в следующем:

Входные данные: Алгоритм получает два набора данных:
1. Входная последовательность: последовательность акустических характеристик, извлеченных из аудиосигнала.
2. Целевая последовательность: транскрипция произнесенного слова (например, "привет").
Кодирование: нейронная сеть (обычно RNN, такая как LSTM) кодирует входную последовательность в последовательность вероятностей для каждого символа в словаре.
Выравнивание: алгоритм CTC Loss находит выравнивание между входной и целевой последовательностями, которое максимизирует вероятность целевой последовательности.
Расчет ошибки: вычисляется ошибка между вероятностью выровненной последовательности и единицей.

Суммарное обучение модели составляло порядка 1896 часов, для этого использовалось 4 датасета:

1. Golos Sberdevices – 1227 часов [7];

2. SOVA – 369 часов;

3. CommonVoice – 207 часов;

4. LibriSpeech – 93 часа.

В этих датасетах наибольшей степени наиболее представлен Русский язык из чего вытекает основное назначение этой модели – распознавание русской речи, что однако является и её недостатком.

В данном контексте данная модель намного лучше справляется с задачей распознавания русской речи по сравнению с конкурентами, подробности представлены в таблице 2, для сравнения использовался параметр WER.

Таблица 2

Показатели точности модели GigaAM-CTC по нескольким датасетам

Модель	Golos Crowd	Golos Farfield	OpenSTT Youtube	OpenSTT Phone Calls	OpenSTT Audiobooks	MCV	RuLS
Whisper‑large‑v3	17.4	14.5	21.1	31.2	17.0	5.3	9.0
NeMo Conformer‑RNNT	2.6	7.2	24.0	33.8	17.0	2.8	13.5
GigaAM‑CTC	3.1	5.7	18.4	25.6	15.1	1.7	8.1

Стоит отметить, что для оценки также были использованы датасеты OpenSTT неиспользовавшиеся в обучении.

Исходя из выше представленных данных можно сделать вывод о больших перспективах данной модели, учитывая её новизну и отличные результаты выполнения своей задачи.

Подводя суммарные итоги, в статье были рассмотрены четыре модели распознавания речи, как результат выявлены перспективные решения в этой области. У каждой модели имеется свой ряд преимуществ и недостатков, это означает что выбор той или иной модели в первую очередь определяется поставленной задачей и техническими возможностями и в соответствии с ней подбирать подходящую модель.

Список литературы:

Архитектуры Seq2Seq / [Электронный ресурс] // Hugging Face : [сайт]. — URL: https://huggingface.co/learn/audio-course/ru/chapter3/seq2seq (дата обращения: 24.05.2024).
A.I. based Embedded Speech to Text Using Deepspeech / [Электронный ресурс] // Arxiv : [сайт]. — URL: https://arxiv.org/abs/2002.12830 (дата обращения: 24.05.2024).
Advancing Connectionist Temporal Classification With Attention Modeling / [Электронный ресурс] // Arxiv : [сайт]. — URL: https://arxiv.org/abs/1803.05563v1 (дата обращения: 24.05.2024).
Common Voice: A Massively-Multilingual Speech Corpus / [Электронный ресурс] // Arxiv : [сайт]. — URL: https://arxiv.org/abs/1912.06670 (дата обращения: 24.05.2024).
Deep Speech: Scaling up end-to-end speech recognition / [Электронный ресурс] // Arxiv : [сайт]. — URL: https://arxiv.org/abs/1412.5567 (дата обращения: 24.05.2024).
GigaAM: the family of open-source acoustic models for speech processing / [Электронный ресурс] // GitHub : [сайт]. — URL: https://github.com/salute-developers/GigaAM (дата обращения: 24.05.2024).
Golos: Russian Dataset for Speech Research / [Электронный ресурс] // Arxiv : [сайт]. — URL: https://arxiv.org/abs/2106.10161 (дата обращения: 24.05.2024).
Mozilla Introduces DeepSpeech 0.9 Speech Recognition Engine / [Электронный ресурс] // DesdeLinux : [сайт]. — URL: https://blog.desdelinux.net/en/mozilla-introduces-deepspeech-0-9-speech-recognition-engine/#:~:text=Disadvantages%20of%20DeepSpeech%20include%20poor,the%20presence%20of%20natural%20noises (дата обращения: 24.05.2024).
Robust Speech Recognition via Large-Scale Weak Supervision / [Электронный ресурс] // Arxiv : [сайт]. — URL: https://arxiv.org/abs/2212.04356 (дата обращения: 24.05.2024).
Seamless: Multilingual Expressive and Streaming Speech Translation / [Электронный ресурс] // Arxiv : [сайт]. — URL: https://arxiv.org/abs/2312.05187 (дата обращения: 24.05.2024).
SeamlessM4T v2 / [Электронный ресурс] // Hugging Face : [сайт]. — URL: https://huggingface.co/meta/seamless-m4t-v2-large (дата обращения: 24.05.2024) (социальная сеть, запрещенная на территории РФ, как продукт организации Meta, признанной экстремистской – прим.ред.).
SeamlessM4T v2 Model Guide / [Электронный ресурс] // Modelbit : [сайт]. — URL: https://www.modelbit.com/model-hub/SeamlessM4T-v2-model-guide#:~:text=%E2%80%8B-,Limitations,that%20are%20not%20fully%20captured. (дата обращения: 24.05.2024).
SeamlessM4T-v2 / [Электронный ресурс] // Hugging Face : [сайт]. — URL: https://huggingface.co/docs/transformers/main/en/model_doc/seamless_m4t_v2#transformers.SeamlessM4Tv2Model (дата обращения: 24.05.2024).
Whisper / [Электронный ресурс] // Hugging Face : [сайт]. — URL: https://huggingface.co/openai/whisper-large-v3 (дата обращения: 24.05.2024).

ОБЗОР СОВРЕМЕННЫХ OPEN SOURCE МОДЕЛЕЙ ДЛЯ РАСПОЗНАВАНИЯ РЕЧИ

Оставить комментарий