Статья опубликована в рамках: XL Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 29 марта 2016 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Марей Р.А. РАСПОЗНАВАНИЕ И ОБРАБОТКА РЕЧИ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. XL междунар. студ. науч.-практ. конф. № 3(39). URL: https://sibac.info/archive/technic/3(39).pdf (дата обращения: 17.07.2026)

Проголосовать за статью

Конференция завершена

Эта статья набрала 146 голосов

Дипломы участников

Диплом лауреата
отправлен участнику

РАСПОЗНАВАНИЕ И ОБРАБОТКА РЕЧИ

Марей Раад Али Салех

студент 3 курса, институт инженерных технологий и естественных наук, НИУ БелГУ, РФ, г. Белгород

Медведева Александра Александровна

научный руководитель,

старший преподаватель, институт инженерных технологий и естественных наук, НИУ БелГУ, РФ, г. Белгород

Двадцать лет назад, появились первые системы распознавания речи. В те время, мечтой всех программистов и разработчиков была найти любой способ для того чтобы разговаривать с компьютером. Этот способ стал не только методом для помощи тех, которых сталкиваются с проблемами в использовании клавиатуры или компьютерных мышей, но и способ для благополучия людей и в пользу человечества.

Обработка речи одна из отраслей компьютерной науки, и для того чтобы компьютер обрабатывал речи, он должен в начале распознать её (speech recognition).

Система распознавания речи (speech recognition system) выполнить три процессы со времени подачи речи на компьютер до обработки его до получения выгод этой речи: Pre-processing, Recognition и Communication.

Pre-processing – это процессы которые превосходят обработки речи, эти процессы преобразует входящую речь в форму, знакомую для recognizer.

Recognizer представляется в двух формах: s/w & h/w. s/w – это программы предназначены для работы с звуковыми сигналами и их распознавания. h/w – это сам компьютер. Поэтому для обработки звуковых сигналов, компьютер выполнить процесс pre-processing, этот процесс предназначен для преобразования звуков в двоичную форму.[1]

Когда человек введет речь через микрофон, то эти звуки представляются в виде аналоговый или непрерывный (рис. 1). В аналоговом сигнале есть значение для каждого момента времени доже если человек молчит и ничего не говорит (шум).

Компьютер преобразует аналоговый сигнал в дискретный, затем в двоичный сигнал, потому двоичная форма – это единственная форма с которым работает компьютер. После этого начинает процесс quantization.

Quantization – это процесс взятия значения, расположенные между каждыми двумя уровнями, этот процесс называется threshod. Эти значения в десятичной форме, после этого эти значения переводят в 0 и 1. [3]

Рисунок 1. Процесс квантования.

Recognition разделяется на identification и verification.

1. Identification – это процесс, в котором происходит сравнения звуков используя процесс distance measurement, в результате которого получим не утверждённый вывод.

Например, есть группа студентов между ними студентка уже записали её голос или взяли отпечатку её голоса раньше, и он у нас в двоичном форме, и хотим знать есть ли она в этой группе, то мы сравним её сохраненный голос с голосом каждого студента этой группы, и если нашли совпадение с голосом одного из этих студентов, то можем сказать, что это она. Но в этом случае мы не уверены сто процентов что она, поэтому используется процесс verification.

2. verification – это процесс проверки, возьмём отдельно отпечатку голоса, в котором не уверены, что он именно голос той студентки, и поверим ещё раз он или нет. Этими заканчивается процесс recognition.[3]

Communication – это процесс введения введенного распознаваемого голоса из систем распознавания в системы h/w и s/w. Можно использовать эти отпечатки в системы защиты, образования, контроля и диагностики.

При распознавании речи существуют шум, и этот шум ухудшает работы систем распознавания речи, и невозможно его отфильтровать, потому что он распространяется по всему сигналу (white noise). [4]

Рисунок 2 – Сигнал с шумом.

После распознавания речи идёт процесс его обработки, процесс обработки речи заключается в следующим:

1. Собирание данных и их приобретение (data collection & acquisition)

Это процесс, в котором записываются звуки в памяти программы, в виде с которым компьютер может работать.

2. Обнаружение слышные и неслышные звуки (voiced & unvoiced detection)

В речи есть слышные с большей амплитудой и неслышные звуки с маленькой амплитудой, их амплитуда близко к амплитуде шума (noise) и с zero crossing много пересекаются, и для того чтобы различать voiced и unvoiced sounds есть понятие zero crossing. Zero crossing – это количество пересечений аналоговой формы буквы с горизонтальной осью. [5]

3. определить начало и конец предложений (end-point detection)

Как и сказал раньше, что при разговоре есть моменты молчание между словами и предложениями и в этих моментах есть слабые сигналы (шум) и для того чтобы упростить обработки и процесс вычисления данных избавим от этих шумов используя фильтр.

4. Time wrapping

Например, если три студентки, произносили слова «Raad» то время и длина произносимое слова отличается. Поэтому используются специальные алгоритмы для их выравнивания и для того чтобы достичь нужный смысл слова.

Рисунок 3 – Time wrapping.

5. framming

Во время произнесения буквы, все органы произношения станут в положении покоя, это явление не заметное и происходит в течении 20 milliseconds. Поэтому в речи происходит покой каждый 20 milliseconds и это незначительное время, поэтому разделим речь на frames, где каждый frame равно 20 milliseconds. После этого с каждого frame возьмём sample, для определения свойства это frame (это лучше, чем взять весь frame, потому, что это уменьшить количество операций и время обработки). [2]

Рисунок 4 – framing.

6. windwing

В этом процессе уменьшаем ошибки, которые возникают из-за разделения речи на frames путём поставить на каждом frame окно “window”, где каждый window пресекается с предыдущим на 50% и со следующим на 50%.[5]

Рисунок 4 – windwing.

7. modeling:

Проблема речевого сигнала, это в том, что компьютер не может работать с аналоговым сигналом, поэтому опишем его всеми устойчивыми чертами (features) это называется modeling.

8. feature extraction:

Способы распознавания речи:

1. Isolated word recognition (IWR):

Это самый простой метод распознавания, потому что мы не сталкиваемся с проблемой co-articulation (co-articulation – это процесс встречи конец слова с началом следующего слова), где он распознаёт разделённые изолированные слова друг от друга.

2. Connected word recognition (CWR):

Распознаёт речи, но с паузой (stop) после каждого слова речи.

3. Continuous speech recognition (CSR):

Это самый сложный способ, и в нем ещё много проблем до сих пор.

4. Speech understanding (SU):

Это процесс распознавания речи, используя специальных приводчиков.

5. Speech identification (SI) & speech verification (SV).

6. Word stopping (WS):

Это способ ищет ключевые слова в предложении, для того, чтобы понять смысл предложения.[2]

Стоит отметить, что процессы распознавания и обработки речи происходят в очень короткое время, и это зависит от свойств систем. Распознавания и обработка речи ещё современная наука, и она сталкивается с проблемами шума, скорости обработки, недостатков систем распознавания и обработки, поэтому, разработчики ищут способы предотвращения этих проблем, путём улучшения алгоритмов распознавания и обработки речи и ищут способы для развивать программ и систем обработки речи.

Список литературы:

Галунов В.И. Современные проблемы в области распознавания речи / [электронный ресурс] - режим доступа: - URL: http://auditech.ru/page/darkness.html (дата обращения: 12.03.2016).
Speech processing / / [электронный ресурс] - режим доступа: - URL: http://www.boosla.com/showArticle.php?Sec=Misc&id=57 / (дата обращения: 29.02.2016).
Speech processing Technology / / [электронный ресурс] - режим доступа: - URL: http://www.ye1.org/forum/threads/386110/ (дата обращения: 29.02.2016).
Speech recognition / / [электронный ресурс] - режим доступа: - URL: http://www.ye1.org/forum/threads/386110/ (дата обращения: 29.02.2016).
Speech recognition system / / [электронный ресурс] - режим доступа: - URL: http://www.ye1.org/forum/threads/386110/ (дата обращения: 29.02.2016).