Статья опубликована в рамках: Научного журнала «Студенческий» № 41(211)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6, скачать журнал часть 7

Библиографическое описание:

Быкова С.К. РАБОТА СОВРЕМЕННЫХ СИСТЕМ ГОЛОСОВОГО УПРАВЛЕНИЯ // Студенческий: электрон. научн. журн. 2022. № 41(211). URL: https://sibac.info/journal/student/211/274311 (дата обращения: 01.08.2026).

РАБОТА СОВРЕМЕННЫХ СИСТЕМ ГОЛОСОВОГО УПРАВЛЕНИЯ

Быкова Софья Константиновна

1 курс, группа ИЭ-61м-22, Национальный исследовательский университет «МЭИ»,

РФ, г. Москва

Крепков Игорь Михайлович

научный руководитель,

канд. техн. наук, доц. кафедры безопасности и информационных технологий, Национальный исследовательский университет «МЭИ»,

РФ, г. Москва

АННОТАЦИЯ

В статье рассматривается состав и сценарии работы современной системы голосового управления, предназначенной для управления техническими устройствами с учетом условий окружающей среды.

ABSTRACT

The article discusses the composition and scenarios of the modern voice control system designed to control technical devices taking into account environmental conditions.

Ключевые слова: дикторонезависимость, система голосового управления, система распознавания речи, сценарий.

Keywords: voice independence, voice control system, speech recognition system, script.

Систему распознавания речи можно условно разделить на декодер и модель речи. Декодер загружает в память модель речи (МР), принимает на вход аудиоинформацию, обрабатывает ее и выдает текст. Модель речи является объединением акустической, фонетической и языковой моделей. Все вместе эти три модели объединяются в МР, информацию из которой декодер обрабатывает для каждого нового участка входного аудиопотока, постепенно получая текст.

Дикторонезависимость системы распознавания речи может складываться из всех трех моделей. В общем случае языковая модель (ЯМ) должна строиться по репрезентативной обучающей выборке, которая будет описывать язык в целом, а не особенности формулировок и словарный запас конкретного человека. Фонетическая модель должна учитывать возможные варианты произнесения различных слов в разном контексте, а не индивидуальные артикуляционные особенности или говор конкретного человека. Акустическая модель (АМ) должна обеспечивать стабильные распределения вероятности для каждой фонемы, произнесенной разными дикторами. Достигается это за счет большого объема обучающей выборки [1].

Поступающий на вход аудиопоток обрабатывается блоком вычисления акустических признаков, которые поступают на декодер. Декодер с использованием заранее подготовленной МР осуществляет трансформацию аудио в текст и выдает обратно в основную библиотеку сервера результат декодирования. Работа библиотеки декодера невозможна без предварительно построенной МР.

Важной частью схемы построения АМ является блок вычисления признаков. Нужно, чтобы он работал аналогично блоку вычисления признаков в онлайн-декодере. Особенность онлайн-вычисления признаков заключается в том, что данные на вход поступают постепенно, а признаки необходимо нормализовывать. В случае офлайн-декодирования на вход декодера поступает целый аудиофайл, существует возможность вычисления среднего значения и среднеквадратичного отклонение признаков акустического сигнала. Однако такую процедуру нельзя применить в онлайн-декодере. Поэтому в современных система голосового управления применяется подход оконной нормализации, когда блок вычисления признаков копит аудиоинформацию определенной длины, затем проводит нормализацию, сохраняя среднее значение для дальнейшего использования.

Самый простой сценарий работы системы голосового управления будет таким: произнесение команды – формирование управляющей команды и ее передача – произнесение новой команды. При таком алгоритме микрофон постоянно находится в ожидании начала произнесения команды. Как только оператор произносит команду из заранее определенного списка, формируется управляющая команда.

В случае постоянной записи всех аудиособытий необходимо решить проблему борьбы с ошибками второго рода, когда рядом с оператором находятся другие разговаривающие люди, воспроизводящая аудиоаппаратура и другие источники речи или шума. Также кто-то из окружения может произнести команду или часть команды, что приведет к передаче незапланированной управляющей команды. Для решения данной проблемы можно ввести голосовое обращение, которое, по сути, будет обозначать инициацию голосового ввода команды. В качестве обращения можно использовать, например, позывной. Тогда сценарий составляют пункты: произнесение обращения – произнесение команды, формирование управляющей команды и ее передача – произнесение новой команды.

При таком алгоритме управляющая команда будет формироваться только в случае инициации голосового управления. Но при таком сценарии при ожидании голосового обращения будет постоянно работать программный модуль распознавания речи, а значит, будет постоянно загружено вычислительное устройство (ВУ), что потребует нерациональных энергетических затрат и постоянных затрат центрального процессора (ЦП) [2].

Чтобы избежать всех технических сложностей, связанных с постоянным мониторингом звука, предлагается ввести механическую или программную инициацию начала записи команды. Это может быть кнопка или тангента. В таком случае ВУ большее время будет находиться в режиме покоя. Дополнительно ликвидируется возможность случайной активации записи команды.

Сценарий может содержать следующие пункты: активация начала записи команды – произнесение команды – формирование управляющей команды и ее передача – произнесение новой команды. В этом случае анализ речевого потока будет включаться только в те моменты, когда оператор действительно будет произносить команду.

Список литературы:

Voice Activity Detection. Fundamentals and Speech Recognition System Robustness / J. Ramirez, J.M. Gorriz and J.S. Segura – University of Granada, 2007.
Методология оценивания работы систем автоматического распознавания речи / А.А. Карпов, И.С. Кипяткова, Санкт-Петербург, 2012.