Статья опубликована в рамках: XXXIII Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 16 ноября 2017 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
ПРОГРАММЫ РАСПОЗНАВАНИЯ РЕЧИ В КОНТЕКСТЕ РАЗВИТИЯ СИСТЕМ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА
Современное обучение невозможно представить без использования компьютеров. На первом этапе разработки автоматизированных обучающих систем применялись методики программированного обучения, придуманные и разработанные еще в пятидесятые годы прошлого века педагогами из Америки –Скиннером и Краудером. Те обучающие системы нового поколения, которые существуют в наши дни, называются экспертно-обучающими системами, содержащими искусственный интеллект (ИИ) – возможность автоматизированных систем брать на себя отдельные функции интеллекта человека, такие как выбор и принятие оптимального решения на основе ранее приобретенного опыта или рационального анализа внешних воздействий [5].
База знаний (БЗ) – это некоторый набор человеческих знаний, помещенных в компьютерную память в соответствии с некоторой моделью; одно из составляющих ИИ. Знания можно представлять различным образом в качестве моделей, являющихся правилами или соглашениями, выполнение которых позволяет представить информацию в памяти компьютера в некотором виде, в котором позволяет использовать программные средства для получения новых знаний. К таковым моделям можно отнести семантические сети, фреймы, деревья выводов, деревья целей, нечеткие множества [6].
Существуют некоторые направления, в которых развиваются средства ИИ, такие как экспертные системы, интеллектуальные игры, распознавание образов, робототехника и общение с ЭВМ на естественном языке [3]. В наши дни системы, распознающие речь, в своей основе имеют сбор всей информации, необходимой для распознавания слов. Задача определения образца речи, основанная на качестве сигнала, который подвержен изменениям, является полноценной для распознавания. Но в настоящее время, даже при распознавании небольших по объему сообщений на естественном языке, пока невозможно после получения разнообразных реальных сигналов осуществить прямую трансформацию в лингвистические символы, что является желаемым результатом. Главная задача состоит в том, что необходимо обучить персональный компьютер понимать без посредника тот естественный язык, на котором говорят люди между собой, придумать алгоритм распознавания звукового образа.
Интернет-ресурс Onto.plus – образовательная среда, состоящая из онтологий (информационных моделей), со средствами поиска и аннотирования; предназначена для изучения различных образовательных курсов удобным большинству студентов способом через просмотр структурированной информации [1].
В XXI веке становится актуальным применение распознавания и анализа речи, автоматизированная постановка произношения при построении справочных систем, в ходе предварительного обучения систем распознавания и синтеза речи, в научных целях и для обучения [2].
Основные варианты применения распознавания голоса в системах ИИ: синтез речи и синтезированный голос, голосовая биометрия, анализ речи, распознавание речи. Так же распознавание голоса находит применение в: голосовом управлении, наборе, вводе информации, поиске; голосовой почте; социальной реабилитации людей с ограниченными возможностями; голосовых системах самообслуживания; голосовом интерфейсе управления системами «Умный дом», электронными роботами; совершенствовании электронных сред образования программами тренировки; произношения иностранных слов учащимися и умного поиска.
Рисунок 1. Архитектура систем распознавания
Процесс распознавания речи разделен на две основные фазы: оцифровка (аудиосигнал записывается и разбивается на фрагменты) и декодирование (полученная информация анализируется на основе использования различных моделей и алгоритмов, которые могут опираться на образцы как целых слов, так и отдельных частей слов – фонем). Любому языку достаточно 40-60 фонем, чтобы описать произношение всех слов. Главной отличительной чертой является иерархическое представление пространства акустико-фонетических признаков и фонетических единиц, задействованных в процессе распознавания [4]. Проблема, возникающая при разработке системы автоматического распознавания речи, заключается в вариативном произношении одного и того же слова как разными людьми, так и одним и тем же человеком в различных ситуациях. На входящий сигнал влияют многочисленные факторы: шум, отражение, эхо и помехи в канале. Система не может быть подстроена под них до начала работы.
Основные этапы процедуры формирования:
1. Составление детальной сегментной транскрипции, сегментами которой являются аллофоны фонем.
2. Составление словаря системы распознавания речи, в котором каждое слово получает стандартное произношение – исходную транскрипцию слова (ИТС), с которой каждое слово будет соотноситься при распознавании.
3. Составление аллофонной сети, позволяющей для любой фонемы в любом контексте спрогнозировать все возможные модификационные варианты всех теоретически возможных вариантов данного слова.
4. Составление иерархии произносительной вариативности слова благодаря введению обобщающих уровней описания – мета-классов. Основным фактором при объединении фонетических единиц считается адекватность отражения произносительной реальности. Допустимыми являются мета-единицы, включающие аллофоны различных фонем и не сводимые к простой комбинации соответствующих. В результате объединения аллофонных, фонемных и аллофонных и мета-фонемных транскрипционных представлений для каждого слова создается иерархическая многоярусная сеть (ИМС), которая и обеспечивает полноценный и эффективный учет и организацию всевозможных допустимых произносительных вариантов слова в различной степени подробности.
5. Составление односвязного многоярусного дерева, где каждая пара единиц или мета-единиц может быть либо автономной, либо иерархической. На каждом узле ИМС имеется иерархическая весовая функция (ИВФ), описывающая относительную значимость добавления/отрицания данного фонетического признака для распознавания конкретной фонемы в данном слове.
6. Создание шаблона для мета-единицы, которая имеет иерархическую структуру и составляется из шаблонов простых единиц, входящих в состав данной мета-единицы.
7. Сравнение входных данных и имеющихся ИТС в процессе распознавания. С учетом значений иерархической весовой функции устанавливается мера сходства между найденной текущей реализацией распознаваемого слова и ИМС, построенной по ИТС. Чем выше значение меры близости сравниваемых транскрипций с учетом ИВФ, тем более вероятным является распознанный вариант слова.
В заключение, хотелось бы подвести итоги. Анализы текущего состояния ИИ и социально-практического аспекта проявления распознавания устной речи показали, что в наши дни технология распознавания речи развивается гигантскими темпами, является наиболее актуальным направлением в области ИИ, в практических целях применяется во всех развитых сферах жизнедеятельности. Тренажер, включающий терминологический раздел (гипертекстовый) и Onto.plus с голосовым управлением системой, актуален для интеграции возможностей гипертекстовых образовательных сред и онтологических образовательных сред.
Благодарность
Выражаю благодарность декану факультета «Бизнес-информатика» Сибирского государственного университета путей сообщения Хабарову Валерию Ивановичу за консультирование при проведении данного исследования, научному руководителю Волегжаниной Ирине Сергеевне за ценные советы при планировании исследования и рекомендации по оформлению статьи, научного консультанта Зайцеву Татьяну Сергеевну за помощь при написании настоящей статьи.
Список литературы:
- Мицук И.В., Хабаров В.И., Волегжанина И.С. Организация совместного управления знаниями в системе «отрасль – отраслевая образовательная организация» // Вопросы новой экономики. - № 3 (43), сентябрь 2017. – С. 91-97.
- Шпаков Д. В. Распознавание голоса в сфере информационных технологий // Молодой ученый. — 2017. — №29. — С. 8-11.
- Остроух А. В. Интеллектуальные системы. — Красноярск: Научно-инновационный центр, 2015. — 110 с.
- Voice Recognition // Human Interface Technology Laboratory URL: http://www.hitl.washington.edu/research/knowledge_base/virtual-worlds/EVE/I.D.2.d.VoiceRecognition.html (дата обращения: 26.10.17)
- Информационные технологии в экономике // Национальном Открытом Университете «ИНТУИТ» URL: http://www.intuit.ru/studies/courses/3735/977/lecture/14681?page=3 (дата обращения: 26.10.17)
- Структура систем искусственного интеллекта // ИНФОРМАЦИЯ URL: http://itstan.ru/it-i-is/struktura-i-tipy-sii.html (дата обращения: 26.10.17)
дипломов
Оставить комментарий