Статья опубликована в рамках: XL Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 29 марта 2016 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
отправлен участнику
РАСПОЗНАВАНИЕ И ОБРАБОТКА РЕЧИ
Двадцать лет назад, появились первые системы распознавания речи. В те время, мечтой всех программистов и разработчиков была найти любой способ для того чтобы разговаривать с компьютером. Этот способ стал не только методом для помощи тех, которых сталкиваются с проблемами в использовании клавиатуры или компьютерных мышей, но и способ для благополучия людей и в пользу человечества.
Обработка речи одна из отраслей компьютерной науки, и для того чтобы компьютер обрабатывал речи, он должен в начале распознать её (speech recognition).
Система распознавания речи (speech recognition system) выполнить три процессы со времени подачи речи на компьютер до обработки его до получения выгод этой речи: Pre-processing, Recognition и Communication.
Pre-processing – это процессы которые превосходят обработки речи, эти процессы преобразует входящую речь в форму, знакомую для recognizer.
Recognizer представляется в двух формах: s/w & h/w. s/w – это программы предназначены для работы с звуковыми сигналами и их распознавания. h/w – это сам компьютер. Поэтому для обработки звуковых сигналов, компьютер выполнить процесс pre-processing, этот процесс предназначен для преобразования звуков в двоичную форму.[1]
Когда человек введет речь через микрофон, то эти звуки представляются в виде аналоговый или непрерывный (рис. 1). В аналоговом сигнале есть значение для каждого момента времени доже если человек молчит и ничего не говорит (шум).
Компьютер преобразует аналоговый сигнал в дискретный, затем в двоичный сигнал, потому двоичная форма – это единственная форма с которым работает компьютер. После этого начинает процесс quantization.
Quantization – это процесс взятия значения, расположенные между каждыми двумя уровнями, этот процесс называется threshod. Эти значения в десятичной форме, после этого эти значения переводят в 0 и 1. [3]
Рисунок 1. Процесс квантования.
Recognition разделяется на identification и verification.
1. Identification – это процесс, в котором происходит сравнения звуков используя процесс distance measurement, в результате которого получим не утверждённый вывод.
Например, есть группа студентов между ними студентка уже записали её голос или взяли отпечатку её голоса раньше, и он у нас в двоичном форме, и хотим знать есть ли она в этой группе, то мы сравним её сохраненный голос с голосом каждого студента этой группы, и если нашли совпадение с голосом одного из этих студентов, то можем сказать, что это она. Но в этом случае мы не уверены сто процентов что она, поэтому используется процесс verification.
2. verification – это процесс проверки, возьмём отдельно отпечатку голоса, в котором не уверены, что он именно голос той студентки, и поверим ещё раз он или нет. Этими заканчивается процесс recognition.[3]
Communication – это процесс введения введенного распознаваемого голоса из систем распознавания в системы h/w и s/w. Можно использовать эти отпечатки в системы защиты, образования, контроля и диагностики.
При распознавании речи существуют шум, и этот шум ухудшает работы систем распознавания речи, и невозможно его отфильтровать, потому что он распространяется по всему сигналу (white noise). [4]
Рисунок 2 – Сигнал с шумом.
После распознавания речи идёт процесс его обработки, процесс обработки речи заключается в следующим:
1. Собирание данных и их приобретение (data collection & acquisition)
Это процесс, в котором записываются звуки в памяти программы, в виде с которым компьютер может работать.
2. Обнаружение слышные и неслышные звуки (voiced & unvoiced detection)
В речи есть слышные с большей амплитудой и неслышные звуки с маленькой амплитудой, их амплитуда близко к амплитуде шума (noise) и с zero crossing много пересекаются, и для того чтобы различать voiced и unvoiced sounds есть понятие zero crossing. Zero crossing – это количество пересечений аналоговой формы буквы с горизонтальной осью. [5]
3. определить начало и конец предложений (end-point detection)
Как и сказал раньше, что при разговоре есть моменты молчание между словами и предложениями и в этих моментах есть слабые сигналы (шум) и для того чтобы упростить обработки и процесс вычисления данных избавим от этих шумов используя фильтр.
4. Time wrapping
Например, если три студентки, произносили слова «Raad» то время и длина произносимое слова отличается. Поэтому используются специальные алгоритмы для их выравнивания и для того чтобы достичь нужный смысл слова.
Рисунок 3 – Time wrapping.
5. framming
Во время произнесения буквы, все органы произношения станут в положении покоя, это явление не заметное и происходит в течении 20 milliseconds. Поэтому в речи происходит покой каждый 20 milliseconds и это незначительное время, поэтому разделим речь на frames, где каждый frame равно 20 milliseconds. После этого с каждого frame возьмём sample, для определения свойства это frame (это лучше, чем взять весь frame, потому, что это уменьшить количество операций и время обработки). [2]
Рисунок 4 – framing.
6. windwing
В этом процессе уменьшаем ошибки, которые возникают из-за разделения речи на frames путём поставить на каждом frame окно “window”, где каждый window пресекается с предыдущим на 50% и со следующим на 50%.[5]
Рисунок 4 – windwing.
7. modeling:
Проблема речевого сигнала, это в том, что компьютер не может работать с аналоговым сигналом, поэтому опишем его всеми устойчивыми чертами (features) это называется modeling.
8. feature extraction:
Способы распознавания речи:
1. Isolated word recognition (IWR):
Это самый простой метод распознавания, потому что мы не сталкиваемся с проблемой co-articulation (co-articulation – это процесс встречи конец слова с началом следующего слова), где он распознаёт разделённые изолированные слова друг от друга.
2. Connected word recognition (CWR):
Распознаёт речи, но с паузой (stop) после каждого слова речи.
3. Continuous speech recognition (CSR):
Это самый сложный способ, и в нем ещё много проблем до сих пор.
4. Speech understanding (SU):
Это процесс распознавания речи, используя специальных приводчиков.
5. Speech identification (SI) & speech verification (SV).
6. Word stopping (WS):
Это способ ищет ключевые слова в предложении, для того, чтобы понять смысл предложения.[2]
Стоит отметить, что процессы распознавания и обработки речи происходят в очень короткое время, и это зависит от свойств систем. Распознавания и обработка речи ещё современная наука, и она сталкивается с проблемами шума, скорости обработки, недостатков систем распознавания и обработки, поэтому, разработчики ищут способы предотвращения этих проблем, путём улучшения алгоритмов распознавания и обработки речи и ищут способы для развивать программ и систем обработки речи.
Список литературы:
- Галунов В.И. Современные проблемы в области распознавания речи / [электронный ресурс] - режим доступа: - URL: http://auditech.ru/page/darkness.html (дата обращения: 12.03.2016).
- Speech processing / / [электронный ресурс] - режим доступа: - URL: http://www.boosla.com/showArticle.php?Sec=Misc&id=57 / (дата обращения: 29.02.2016).
- Speech processing Technology / / [электронный ресурс] - режим доступа: - URL: http://www.ye1.org/forum/threads/386110/ (дата обращения: 29.02.2016).
- Speech recognition / / [электронный ресурс] - режим доступа: - URL: http://www.ye1.org/forum/threads/386110/ (дата обращения: 29.02.2016).
- Speech recognition system / / [электронный ресурс] - режим доступа: - URL: http://www.ye1.org/forum/threads/386110/ (дата обращения: 29.02.2016).
отправлен участнику
Комментарии (1)
Оставить комментарий