Статья опубликована в рамках: LIII Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 31 мая 2017 г.)
Наука: Технические науки
Секция: Радиотехника, Электроника
Скачать книгу(-и): Сборник статей конференции
дипломов
АЛГОРИТМ РАСПОЗНАВАНИЯ РЕЧЕВЫХ СИГНАЛОВ
В современном мире каждый день происходит обмен информацией. Одной из задач обмена информацией является проектирование и создание систем распознавания сигналов, в том числе и речевых, которые являются устойчивыми к шумам (с низкой частотой появления ошибок). Для решения данной задачи требуется использование больших вычислительных ресурсов, что влечет за собой поиск более эффективных методов, таких как использование искусственных нейронных сетей.
Определим, что представляет собой сам сигнал. Сигналом, прежде всего, называют носитель информации (любой физический процесс, данные, закодированные сообщения и многое другое), который используется для передачи данных в системе связи. Сигналы описываются функцией (функцией времени) и математической моделью, с помощью которых можно охарактеризовать параметры и их изменения относительно времени, для дальнейшего анализа и синтеза. Также не стоит забывать о шумах (случайная функция времени), которые содержат в себе полезную информацию и влияют на исходный сигнал, искажая его. Поэтому основной задачей теоретической радиотехники является извлечение полезной информации из сигнала с обязательным учетом шума.
Простой сигнал показан на рисунке 1.
Рисунок 1. Идеализированный простой сигнал
На рисунке 2 изображен сигнал с шумами:
Рисунок 2. Реальный сигнал
Основными характеристиками сигнала являются [1]:
- Амплитуда – максимальное отклонение напряжения сигнала от нулевого порога;
- Частота – число колебаний сигнала в единицу времени;
- Фаза – изменение синусоиды от первоначального состояния.
Необходимо следить за основными параметрами сигнала для корректной работы устройства. Проводник может выйти из строя из-за перегрева, если амплитуда будет слишком большой. Также и если амплитуда будет малой при недостаточном напряжении, сигнал в проводнике будет затухать и не достигнет получателя [1].
Период – величина, обратная частоте, показывает задержку времени между соседними значениями (максимумами или минимумами) сигнала равной величины.
Фаза сигнала измеряется в градусах (в пределах от 0 до 360) или радианах [1].
Для того чтобы передать сигнал, используются каналы связи. Но есть в этой передачи существенные недостатки, такие как мешающие воздействия, со стороны внешней окружающей среды. От таких же других каналов связи, используемых для различных целей. Для того чтобы избавится, или по крайней мере постараться свести к минимуму эти паразитные составляющие, используются специальные методы модуляции, шифрование, кодирование и т.д.
В данной работе будет использоваться описание распознавание речи с помощью специальных программ. Стоит отметить, что диапазон человеческого слуха ограничен, в среднем считается, что мы слышим в пределах от 64 до 1300 Гц, но этот диапазон можно увеличить до 15000 Гц [5].
На сегодняшний день существуют различные методы и алгоритмы распознавания сигналов, голосов различных тембров, громкости и частоты. Одной из самых распространенных программ для распознавания речи является Shazam. Рассмотрим подробнее принцип работы данной программы.
Для начала в данное приложение записывает поступающий звук, далее в нем уже содержится определенная библиотека мелодий и наконец, в соответствии с определенным алгоритмом определяется нужная мелодия. Из чего же состоит этот алгоритм? Чтобы процесс подбора был наиболее эффективным в данной программе песня разбивается на определенные интервалы, для низких частот это 30 Гц – 40 Гц, 40 Гц – 80 Гц и 80 Гц – 120 Гц, а для более высоких частот 120 Гц – 180 Гц и 180 Гц – 300 Гц, так как они принадлежат определенным музыкальным инструментам. Далее на данных интервала выбираются наивысшие частоты, которые в свою очередь формируют сигнатуру композиции, при помощи чего и идентифицируется та или иная песня [2].
В настоящее время алгоритмы распознавания речи применяются во многих сферах, чаще в сферах обслуживания людей и предоставления доступа к информации. Так, например, алгоритмы распознавания речи применяются в call-центрах для решения таких задач, как облегчения общения человека с автоматизированным call-центром (голосовое управление меню автоматизированного call-центра). На российском рынке данная технология пока слабо развита, в отличие от зарубежных стран, где call-центр представляет собой не место, где сидят люди, отвечающие на звонки, а автоинформатор (IVR). Тем не менее, наблюдается отчетливая тенденция использования данной технологии [4].
Ещё одно направление использования IVR с функцией распознавания речи – создание новых сервисов, которые возможны только с голосовым управлением [4]. В первом случае неважно, что за компания располагает автоинформатором, будь то банк или торговая сеть, то второй более подходит для операторов, предоставляющих услуги телефонии.
Со временем call-центр перестает быть средством обычного предоставления справок и превращается в средство зарабатывания денег. IVR дает возможность конструировать различные игровые и развлекательные контенты.
Примером такого варианта использования IVR с функцией распознавания голоса служат проекты «Открытых коммуникаций» на основе речевой платформы Cayo Communications, который создает развлекательный портал. В частности, разработаны сервисы на основе распознавания речи: игра «Угадай число», гороскоп и др.
Более широкое распространение алгоритмы распознавания речи получили в сервисах поиска аудиозаписей. Существует более двадцати различных сервисов поиска понравившейся музыки. Все они основываются на технологии снятия акустического отпечатка, с небольшого участка аудио материала, через любой канал аудиокарты, затем считанные данные отправляются в базу данных, где происходит поиск совпадений с аудиоотпечатками уже опознанных композиций. Примером таких сервисов служат всем известные программы Shazam, TrackID, Tunatic и многие другие [3].
Использование искусственных нейронных сетей может стать альтернативой уже существующим методам распознавания речевых сигналов. Алгоритм распознавания сигналов с помощью нейронных сетей позволяет сохранять стабильность в случае влияния помех и является достаточно простым для понимания и реализации.
Список литературы:
- Сигнал и его основные характеристики [Электронный ресурс]. — Режим доступа: http://celnet.ru/signal.php (дата обращения 15.05.2017)
- Shazam: алгоритмы распознавания музыки, сигнатуры, обработка данных [Электронный ресурс]. — Режим доступа: https://habrahabr.ru/company/wunderfund/blog/275043/ (дата обращения 12.05.2017)
- Shazam. Альтернативы приложению Shazam [Электронный ресурс]. — Режим доступа: https://suse.me/apps/shazam (дата обращения 22.05.2017)
- Распознавание речи в call-центрах [Электронный ресурс]. — Режим доступа: http://www.connect.ru/article.asp?id=5188 (дата обращения 22.05.2017)
- Частота голоса [Электронный ресурс]. — Режим доступа: https://ru.wikipedia.org/wiki/Частота_голоса (дата обращения 15.05.2017)
дипломов
Оставить комментарий