Телефон: +7 (383)-202-16-86

Статья опубликована в рамках: XX Международной научно-практической конференции «Естественные и математические науки в современном мире» (Россия, г. Новосибирск, 02 июля 2014 г.)

Наука: Информационные технологии

Секция: Математическое моделирование, численные методы и комплексы программ

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Сутула Н.А., Парамонов П.А. ФОРМИРОВАНИЕ РЕЧЕВОЙ БАЗЫ СИСТЕМЫ ГОЛОСОВОГО УПРАВЛЕНИЯ // Естественные и математические науки в современном мире: сб. ст. по матер. XX междунар. науч.-практ. конф. № 7(19). – Новосибирск: СибАК, 2014.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

ФОРМИРОВАНИЕ  РЕЧЕВОЙ  БАЗЫ  СИСТЕМЫ  ГОЛОСОВОГО  УПРАВЛЕНИЯ

Сутула  Надежда  Андреевна

канд.  техн.  наук,  Федеральное  государственное  бюджетное  образовательное  учреждение  высшего  профессионально  образования  «Национальный  исследовательский  университет  "МЭИ"»,  РФ,  г.  Москва

E -mailsagebrush@yandex.ru

Парамонов  Павел  Александрович

инженер,  Федеральное  государственное  бюджетное  образовательное  учреждение  высшего  профессионально  образования  «Национальный  исследовательский  университет  "МЭИ"»,  РФ,  г.  Москва

E-mail: 

 

SPEECH  CORPUS  DEVELOPMENT  FOR  VOICE  CONTROL  SYSTEM

Nadezda  Sutula

candidate  of  Science,  National  Research  University  “Moscow  Power  Engineering  Institute”,  Russia,  Moscow

Pavel  Paramonov

engineer,  National  Research  University  “Moscow  Power  Engineering  Institute”,  Russia,  Moscow

 

АННОТАЦИЯ

При  разработке  системы  автоматического  распознавания  речи  (САРР)  необходимо  подготовить  исходные  данные  для  организации  ее  всеобъемлющего  тестирования.  Эти  исходные  данные  представляют  собой  речевую  базу,  включающую  в  себя  достаточное  количество  обучающих  и  тестовых  примеров.  В  работе  сформирована  речевая  база  русских  слов,  которая  может  быть  использована  для  обучения  и  тестирования  системы  автоматического  распознавания  речи.

ABSTRACT

When  designing  a  system  of  automatic  speech  recognition,  it  is  necessary  to  prepare  input  data  for  the  organization  of  its  comprehensive  testing.  These  raw  data  is  speech  corpus  that  includes  a  sufficient  number  of  training  and  testing  examples.  In  this  work  the  speech  corpus  of  Russian  words  is  developed,  which  can  be  used  for  training  and  testing  of  the  automatic  speech  recognition  system.

 

Ключевые  слова:  системы  автоматического  распознавания  речи;  речевая  база.

Keywords:  automatic  speech  recognition  systems;  speech  corpus.

 

При  разработке  систем  распознавания  очень  важную  роль  играет  экспериментальный  материал,  на  котором  проверяются  и  исследуются  предложенные  идеи.  В  области  распознавания  речи  этот  материал  называется  речевым  корпусом  (speech  corpus)  или  речевой  базой.  Примерами  таких  корпусов  для  английского  языка  являются  базы  TIMIT  и  ATIS  [1,  2].  Среди  русских  баз  стоит  отметить  БОКР.

К  сожалению,  не  существует  универсальных  речевых  баз,  которые  подошли  бы  для  любой  задачи  в  области  распознавания  речи  или  фонетических  исследований.  Структура  и  состав  речевого  корпуса  определяются  задачами,  которые  ставятся  перед  системой  распознавания,  использующей  этот  корпус.  Примером  диаметрально  противоположных  по  назначению  САРР  могут  служить  системы  с  автоматической  верификацией  диктора  и  дикторонезависимые  системы  распознавания.  Первые  предполагают  жесткую  привязку  к  акустическим  параметрам  речи  конкретных  дикторов,  поэтому  речевой  корпус  для  такой  системы  обычно  содержит  многократное  произнесение  фраз  небольшим  количеством  целевых  дикторов  (не  более  100).  Для  систем  второго  типа  лучше  подходят  корпусы,  содержащие  однократное  произнесение  фраз  и  текстов  большим  количеством  дикторов  [1,  2].

Как  указано  в  [1],  при  создании  речевого  корпуса  необходимо  решить  четыре  группы  вопросов:  технические,  содержательные,  структурные  и  инструментальные  (исполнительские).  Технические  вопросы  связаны  с  выбором  программно-аппаратных  средств  записи  речевого  материала,  а  также  с  организацией  необходимых  условий  записи,  например,  исключение  фонового  шума.  Содержательные  вопросы  включают  выбор  дикторов  (их  количество,  пол,  и  т.  д.),  подбор  текстового  материала  (специализированный  /  репрезентативный,  тип  произносимых  речевых  образцов  —  слова,  отдельные  предложения,  тексты,  образцы  спонтанной  речи,  и  т.  п.),  распределение  текстового  материала  по  дикторам,  распределение  речевого  материала  на  тренировочную  и  тестовую  части,  выбор  типов  информации,  ассоциированной  с  каждым  звуковым  файлом  (орфографическая  запись,  фонемная  запись  и  т.  д.)  [1,  2].  Структурные  вопросы  определяют  способ  организации  информации,  содержащейся  в  корпусе  (структура  директорий  и  файлов,  создание  протоколов  и  т.  д.).  К  инструментальным  относятся  вопросы,  возникающие  в  связи  с  автоматизацией  и  стандартизацией  разных  этапов  создания  речевого  корпуса.  Необходимо  предусмотреть  инструменты,  облегчающие  процессы  транскрибирования  и  структурирования  записанного  материала,  которые,  как  правило,  невозможно  полностью  автоматизировать.

Как  было  отмечено  выше,  структуру  и  состав  речевой  базы  определят  круг  задач,  решаемый  разрабатываемой  системой  распознавания  речи.  В  данной  работе  описана  речевая  база,  созданная  для  обучения  и  тестирования  системы  распознавания  голосовых  команд.  Это  было  необходимо  по  следующим  причинам.  Во-первых,  вследствие  специфики  разрабатываемой  САРР  и  задач,  которые  она  решает,  найти  идеально  подходящую  по  структуре  и  составу  базу  невозможно;  наиболее  распространены  корпуса  с  высокой  вариативностью  звуков  речи,  что  подошло  бы  для  обучения  и  тестирования  систем  распознавания  спонтанной  речи.  Во-вторых,  бесплатных  корпусов  просто  не  существует.  Наконец,  для  наглядности  и  устранения  возможных  лингвистических  сложностей,  наиболее  предпочтителен  был  бы  корпус  именно  русского  языка.

Структура  составленной  базы  изображена  на  рисунке  1.  Каждый  класс  в  базе  —  это  одно  слово  из  словаря  распознавания.  Словарь  составлялся  из  наиболее  употребительных  слов  русского  языка,  при  этом  предлоги,  союзы,  частицы  опускались,  чтобы  сделать  его  сбалансированным  и  избежать  повторов.  Экземпляром  класса  является  пример  произнесения  слова.  При  этом  нужно  учесть,  что  каждое  слово  может  быть  произнесено  несколькими  дикторами. 

 

Рисунок  1.  Структура  экспериментальной  речевой  базы

 

Созданная  речевая  база  имеет  следующие  параметры:

·     количество  классов  ;

·     количество  дикторов  ;

·     количество  обучающих  экземпляров  одного  класса  ;

·     количество  тестовых  экземпляров  одного  класса  ;

·     общее  количество  обучающих  примеров  ;

·     общее  количество  тестовых  примеров  ;

·     формат  хранения  звуковых  данных:  несжатый  звук  в  импульсно-кодовой  модуляции  (Pulse  Code  Modulation  —  PCM),  сохраненный  в  wav-файле.

Для  формирования  речевой  базы  были  разработаны  программы,  выполняющие  нормализацию,  очистку  спектра  и  разделение  набора  примеров  произнесения  на  отдельные  файлы.  Для  очистки  спектра  применяется  простая  процедура  спектрального  вычитания,  позволяющая  подавить  микрофонный  шум  (вообще  говоря,  любые  аддитивные  шумы,  спектр  которых  не  меняется  во  времени).  Исходный  сигнал  сканируется  кратковременным  окном,  в  пределах  которого  находится  модуль  ДПФ.  Из  полученного  спектра  вычитается  модуль  ДПФ  шумового  сигнала.  Над  результирующим  Фурье-образом  выполняется  ОДПФ.  Автоматическое  выделение  примеров  произнесения  должно  корректно  учитывать  следующие  факторы:  слова  могут  содержать  кратковременные  паузы,  а  во  время  паузы  между  словами  возможны  кратковременные  посторонние  звуки.  Для  решения  задачи  разделения  была  разработана  программа,  принимающая  на  вход  исходный  дискретный  сигнал  ,  в  котором  записанные  примеры  произнесения  отделены  друг  от  друга  паузами.  Номера  отсчетов  с  началом  паузы    и  началом  слова    принимаются  равными  1.  Алгоритм  разделения  (рис.  2)  просматривает  все  отсчеты  ;  как  только  встречается  отсчет  со  значением  меньше  порогового  ,  его  номер  запоминается  в    —  это  предположительное  место  начала  паузы  между  словами.  Далее  пропускаются  все  отсчеты,  значение  которых  меньше  порогового  .  Если  количество  таких  отсчетов    не  меньше,  чем  минимальная  длительность  паузы  ,  то  интервал    содержит  паузу  между  словами;  иначе  это  кратковременная  пауза  внутри  произнесения.  Если  количество  отсчетов  между    и    не  меньше  минимальной  длительности  слова  ,  то  на  интервале    находится  пример  произнесения,  который  необходимо  выделить  в  отдельный  файл;  иначе  это  кратковременный  шум,  например,  стук  или  дыхание.  Алгоритм  имеет  следующие  настраиваемые  параметры:  минимальная  длительность  произнесения  слова  ;  минимальная  длительность  пауз  между  словами  ;  порог  громкости  участков  с  паузой  между  словами  .

 

Рисунок  2.  Блок-схема  алгоритма  выделения  примеров  произнесения  из  пачки

 

Процесс  построения  базы  был  автоматизирован  с  помощью  разработанных  программных  средств  предварительной  обработки  и  разделения  пачки  примеров  произнесения  на  отдельные  файлы  (рис.  3).  Для  «склейки»  отдельных  этапов  использовался  скриптовый  язык  командной  оболочки  bash  операционной  системы  Linux:

1.  запись  произнесения  диктором  цепочки    длиной  K  экземпляров  одного  класса;

2.  нормализация    и  получение  цепочки  ;

3.  спектральная  очистка    и  получение  ;

4.  После  очистки  набор  произнесенных  примеров  слова  разделяется  на  отдельные  участки,  содержащие  только  пример  произнесения  слова.  Каждый  участок  помещается  в  отдельный  файл:  производится  нарезание  цепочки    на  отдельные  экземпляры    (каждый  помещается  в  отельный  файл),  .

5.  нормализация    и  получение  ,  для  .

 

Рисунок  3.  Процесс  добавления  одного  класса  в  речевую  базу

 

Разработанная  речевая  база  была  использована  для  обучения  и  тестирования  предложенной  в  работе  [3]  системы  автоматического  распознавания  речи.  В  качестве  дальнейшей  работы  ведется  расширение  базы  за  счет  добавления  новых  классов  и  дикторов.

 

Список   литературы:

1.Кривнова  О.Ф.,  Захаров  Л.М.,  Строкин  Г.С.,  Речевые  корпусы  (опыт  разработки  и  использование)  /  Труды  Международного  семинара  Диалог'2001  по  компьютерной  лингвистике  и  ее  приложениям,  Т.  2,  2001,  [Электронный  ресурс]  —  Режим  доступа.  —  URL:  http:  //  www  .  dialog  -  21  .  ru  /  digest  /  archive  /  2001  /  ?  year  =  2001&vol=22725&id=6928

2.Claudio  Becchetti,  Lucio  Prina  Ricotti,  Speech  Recognition.  Theory  and  C++  Implementation,  Wiley.  1999,  —  428  p.

3.Ognev  I.V.,  A.I.  Ognev,  P.A.  Paramonov,  N.A.  Sutula,  The  use  of  extrema  distribution  as  a  feature  vector  for  speech  patterns  recognition,  The  11th  International  Conference  "Pattern  Recognition  and  Image  Analysis:  New  Information  Technologies",  —  Vol.  1,  —  2013.  —  pp.  114—117. 

Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий