Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: Научного журнала «Студенческий» № 23(67)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4

Библиографическое описание:
Романов Г.Р., Ревякина Е.А. К ВОПРОСАМ РАСПОЗНАВАНИЯ РЕЧИ // Студенческий: электрон. научн. журн. 2019. № 23(67). URL: https://sibac.info/journal/student/67/146447 (дата обращения: 23.11.2024).

К ВОПРОСАМ РАСПОЗНАВАНИЯ РЕЧИ

Романов Геннадий Романович

магистрант, кафедра «Кибербезопасность информационных систем» Донской государственный технический университет

РФ, г. Ростов – на – Дону

Ревякина Елена Александровна

канд. тех. наук, доцент, кафедра «Кибербезопасность информационных систем» Донской государственный технический университет,

РФ, г. Ростов – на – Дону

TO THE ISSUES OF SPEECH RECOGNITION

 

Romanov Gennady Romanovich,

master's degree student, Department «Сyber Security information systems» Don State Technical University

Russia, г. Rostov-on-Don

Revyakina Elena Aleksandrovna

candidate of technical Sciences, associate Professor, Department «Сyber Security information systems» Don State Technical University

Russia, г. Rostov-on-Don

 

Аннотация. В данной статье приведена терминология в распознавании речи. Проведен анализ алгоритмов распознавания речи.

Abstract. This article describes the terminology in speech recognition. The analysis of speech recognition algorithms is carried out.

 

Ключевые слова: речь, распознавание речи, скрытые маркосовские модели, нейронные сети, динамическое программирование.

Keywords: speech, speech recognition, hidden Markov models, neural networks, dynamic programming.

 

Основой распознавания речи является звуковой сигнал, передающийся от распознаваемого объекта к распознающему субъекту. Звуковой сигнал в теории распознавания является речью в простом понимании этого слова.

Речь – исторически сложившаяся форма передачи сообщения от одного объекта к другому. Для передачи информации от одного объекта к другому используется воздушная среда, принимающая и передающая колебания звука, которые имеют амплитуду и частоту. Данные колебания передают нужную информацию и по своей сути являются сигналом.

Процесс распознавания речи можно упрощенно представить, как алгоритм, состоящий из получения сигнала, цифровой обработки, отчистки, подавления шумов или с их использованием при обучении некоторой модели для получения достоверных результатов и сравнения с эталонами.

При преобразовании некоторого входного голосового сигнала пользуются разбиением речи на большое количество фреймов одинаковой длины с последующим преобразованием в частотную область с использованием дискретного преобразования Фурье.

Распознавание речи – задача преобразования речевого сигнала в орфографическое представление, а в данном случае цифровое, для ее дальнейшего использования.

На рисунке 1 приведена схема распознавания речи на верхних уровнях.

 

Рисунок 1. Процесс распознавания речи

 

Существует множество алгоритмов и методов распознавания речи. Они могут быть разделены на следующие большие классы:

1. Динамическое программирование - временные динамические

алгоритмы (Dynamic Time Warping).

2. Скрытые Марковские модели.

3. Нейронные сети.

Выбор метода, в основном, основывается на том, какой тип системы распознавания речи выбран.

Одним из самых ранних алгоритмов является алгоритм распознавания речи на основе (DTW – Dynamic Time Warping). В анализе временных рядов динамическое временное деформирование является одним из алгоритмов для измерения сходства между двумя временными последовательностями. В общем случае, DTW - это метод, который вычисляет оптимальное соответствие между двумя заданными последовательностями с определенными ограничениями и правилами

Альтернативный метод для DTW основан на функциональном анализе данных, в котором временные ряды рассматриваются как дискретизация гладких (дифференцируемых) функций времени и, следовательно, применяется непрерывная математика.

Другим связанным подходом являются скрытые модели Маркова (HMM), и было показано, что алгоритм Витерби эквивалентен стохастическому DTW.

Достоинства DTW:

  • быстродействие алгоритма;
  • простота обучения;
  • существуют эффективные аппаратные реализации

Недостатки DTW:

  • не подходит для непрерывного распознавания речи;
  • нет очевидного выравнивания двух рядов, если точки не совпали.

Скрытая марковская модель (HMM) - это статистическая марковская модель, в которой моделируемая система считается марковским процессом с скрытыми состояниями.

Для оптимизации алгоритма HMM часто используют нейронные сети, которые предварительно обрабатывают речевой сигнала, например, преобразование объектов или уменьшение размерности.

В настоящее время разработаны эффективные алгоритмы СММ, которые имеют потенциал к распараллеливанию, чем пользуются специалисты при аппаратной реализации.

Преимуществом Скрытых Марковских Моделей перед остальными методами является естественное встраивание времени в модель λ, что позволяет учесть вариативность произнесений по длине и скорости, а также перейти к распознаванию слитной речи. Еще одним преимуществом является способность сегментировать распознаваемый объект.

Недостатком СММ является отсутствие различающей способности, т.е. алгоритм обучения только максимизирует отклик каждой модели на свои классы, но не минимизирует отклик на другие классы.

Самым распространенным методом в теории распознавания и машинного обучения является распознавание с помощью нейронных сетей. Нейронная сеть – это совокупность соединенных и взаимосвязанных между собой искусственных нейронов, аккумулирующих входные значения и генерирующих выходной сигнал при помощи функции активации. Нейронную сеть часто ассоциируют с головным мозгом, сети нервных клеток живого организма.

В последнее время в системах распознавания речи все чаще используются искусственные нейронные сети (ИНС), которые позволяют повысить точность распознавания речи по сравнению с базовыми моделями (скрытые Марковские модели— в качестве акустических моделей; и n-граммы — в качестве моделей языка).

Преимущества нейронных сетей:

  • устойчивость к шумам входных данных;
  • адаптация к изменениям;
  • отказоустойчивость;
  • сверхвысокое быстродействие.

Недостатки нейронных сетей:

  • ответ всегда приблизительный.;
  • принятие решений в несколько этапов.

Вывод: в данной статье были рассмотрены теоретические основы и алгоритмы распознавания речи.

 

Список литературы:

  1. Авсентьев А.О., Лукьянов А.С. Применение скрытых Марковских моделей для распознавания речи диктора / Труды Воронежского института МВД России – 7 c.
  2. Динамическое программирование в алгоритмах распознавания речи [Электронный ресурс]. URL: https://habr.com/ru/post/135087/ (дата обращения 19.02.2019)
  3. Немного о технологиях распознавания речи [Электронный ресурс]. URL: http://blogs.it-claim.ru/arogachev/2011/11/20/nemnogo-o-tehnologiyah-raspoznavaniya-rechi/ (дата обращения 12.12.2018)

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.