Статья опубликована в рамках: XXXIII Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 16 ноября 2017 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Бергер Н.В. ПРОГРАММЫ РАСПОЗНАВАНИЯ РЕЧИ В КОНТЕКСТЕ РАЗВИТИЯ СИСТЕМ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА // Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ: сб. ст. по мат. XXXIII междунар. студ. науч.-практ. конф. № 22(33). URL: https://sibac.info/archive/meghdis/22(33).pdf (дата обращения: 18.07.2026)

Проголосовать за статью

Конференция завершена

Эта статья набрала 82 голоса

Дипломы участников

У данной статьи нет
дипломов

ПРОГРАММЫ РАСПОЗНАВАНИЯ РЕЧИ В КОНТЕКСТЕ РАЗВИТИЯ СИСТЕМ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

Бергер Никита Вячеславович

студент 2 курса, факультет "Бизнес-информатика" СГУПС,

РФ, г. Новосибирск

Современное обучение невозможно представить без использования компьютеров. На первом этапе разработки автоматизированных обучающих систем применялись методики программированного обучения, придуманные и разработанные еще в пятидесятые годы прошлого века педагогами из Америки –Скиннером и Краудером. Те обучающие системы нового поколения, которые существуют в наши дни, называются экспертно-обучающими системами, содержащими искусственный интеллект (ИИ) – возможность автоматизированных систем брать на себя отдельные функции интеллекта человека, такие как выбор и принятие оптимального решения на основе ранее приобретенного опыта или рационального анализа внешних воздействий [5].

База знаний (БЗ) – это некоторый набор человеческих знаний, помещенных в компьютерную память в соответствии с некоторой моделью; одно из составляющих ИИ. Знания можно представлять различным образом в качестве моделей, являющихся правилами или соглашениями, выполнение которых позволяет представить информацию в памяти компьютера в некотором виде, в котором позволяет использовать программные средства для получения новых знаний. К таковым моделям можно отнести семантические сети, фреймы, деревья выводов, деревья целей, нечеткие множества [6].

Существуют некоторые направления, в которых развиваются средства ИИ, такие как экспертные системы, интеллектуальные игры, распознавание образов, робототехника и общение с ЭВМ на естественном языке [3]. В наши дни системы, распознающие речь, в своей основе имеют сбор всей информации, необходимой для распознавания слов. Задача определения образца речи, основанная на качестве сигнала, который подвержен изменениям, является полноценной для распознавания. Но в настоящее время, даже при распознавании небольших по объему сообщений на естественном языке, пока невозможно после получения разнообразных реальных сигналов осуществить прямую трансформацию в лингвистические символы, что является желаемым результатом. Главная задача состоит в том, что необходимо обучить персональный компьютер понимать без посредника тот естественный язык, на котором говорят люди между собой, придумать алгоритм распознавания звукового образа.

Интернет-ресурс Onto.plus – образовательная среда, состоящая из онтологий (информационных моделей), со средствами поиска и аннотирования; предназначена для изучения различных образовательных курсов удобным большинству студентов способом через просмотр структурированной информации [1].

В XXI веке становится актуальным применение распознавания и анализа речи, автоматизированная постановка произношения при построении справочных систем, в ходе предварительного обучения систем распознавания и синтеза речи, в научных целях и для обучения [2].

Основные варианты применения распознавания голоса в системах ИИ: синтез речи и синтезированный голос, голосовая биометрия, анализ речи, распознавание речи. Так же распознавание голоса находит применение в: голосовом управлении, наборе, вводе информации, поиске; голосовой почте; социальной реабилитации людей с ограниченными возможностями; голосовых системах самообслуживания; голосовом интерфейсе управления системами «Умный дом», электронными роботами; совершенствовании электронных сред образования программами тренировки; произношения иностранных слов учащимися и умного поиска.

Рисунок 1. Архитектура систем распознавания

Процесс распознавания речи разделен на две основные фазы: оцифровка (аудиосигнал записывается и разбивается на фрагменты) и декодирование (полученная информация анализируется на основе использования различных моделей и алгоритмов, которые могут опираться на образцы как целых слов, так и отдельных частей слов – фонем). Любому языку достаточно 40-60 фонем, чтобы описать произношение всех слов. Главной отличительной чертой является иерархическое представление пространства акустико-фонетических признаков и фонетических единиц, задействованных в процессе распознавания [4]. Проблема, возникающая при разработке системы автоматического распознавания речи, заключается в вариативном произношении одного и того же слова как разными людьми, так и одним и тем же человеком в различных ситуациях. На входящий сигнал влияют многочисленные факторы: шум, отражение, эхо и помехи в канале. Система не может быть подстроена под них до начала работы.

Основные этапы процедуры формирования:

1. Составление детальной сегментной транскрипции, сегментами которой являются аллофоны фонем.

2. Составление словаря системы распознавания речи, в котором каждое слово получает стандартное произношение – исходную транскрипцию слова (ИТС), с которой каждое слово будет соотноситься при распознавании.

3. Составление аллофонной сети, позволяющей для любой фонемы в любом контексте спрогнозировать все возможные модификационные варианты всех теоретически возможных вариантов данного слова.

4. Составление иерархии произносительной вариативности слова благодаря введению обобщающих уровней описания – мета-классов. Основным фактором при объединении фонетических единиц считается адекватность отражения произносительной реальности. Допустимыми являются мета-единицы, включающие аллофоны различных фонем и не сводимые к простой комбинации соответствующих. В результате объединения аллофонных, фонемных и аллофонных и мета-фонемных транскрипционных представлений для каждого слова создается иерархическая многоярусная сеть (ИМС), которая и обеспечивает полноценный и эффективный учет и организацию всевозможных допустимых произносительных вариантов слова в различной степени подробности.

5. Составление односвязного многоярусного дерева, где каждая пара единиц или мета-единиц может быть либо автономной, либо иерархической. На каждом узле ИМС имеется иерархическая весовая функция (ИВФ), описывающая относительную значимость добавления/отрицания данного фонетического признака для распознавания конкретной фонемы в данном слове.

6. Создание шаблона для мета-единицы, которая имеет иерархическую структуру и составляется из шаблонов простых единиц, входящих в состав данной мета-единицы.

7. Сравнение входных данных и имеющихся ИТС в процессе распознавания. С учетом значений иерархической весовой функции устанавливается мера сходства между найденной текущей реализацией распознаваемого слова и ИМС, построенной по ИТС. Чем выше значение меры близости сравниваемых транскрипций с учетом ИВФ, тем более вероятным является распознанный вариант слова.

В заключение, хотелось бы подвести итоги. Анализы текущего состояния ИИ и социально-практического аспекта проявления распознавания устной речи показали, что в наши дни технология распознавания речи развивается гигантскими темпами, является наиболее актуальным направлением в области ИИ, в практических целях применяется во всех развитых сферах жизнедеятельности. Тренажер, включающий терминологический раздел (гипертекстовый) и Onto.plus с голосовым управлением системой, актуален для интеграции возможностей гипертекстовых образовательных сред и онтологических образовательных сред.

Благодарность

Выражаю благодарность декану факультета «Бизнес-информатика» Сибирского государственного университета путей сообщения Хабарову Валерию Ивановичу за консультирование при проведении данного исследования, научному руководителю Волегжаниной Ирине Сергеевне за ценные советы при планировании исследования и рекомендации по оформлению статьи, научного консультанта Зайцеву Татьяну Сергеевну за помощь при написании настоящей статьи.

Список литературы:

Мицук И.В., Хабаров В.И., Волегжанина И.С. Организация совместного управления знаниями в системе «отрасль – отраслевая образовательная организация» // Вопросы новой экономики. - № 3 (43), сентябрь 2017. – С. 91-97.
Шпаков Д. В. Распознавание голоса в сфере информационных технологий // Молодой ученый. — 2017. — №29. — С. 8-11.
Остроух А. В. Интеллектуальные системы. — Красноярск: Научно-инновационный центр, 2015. — 110 с.
Voice Recognition // Human Interface Technology Laboratory URL: http://www.hitl.washington.edu/research/knowledge_base/virtual-worlds/EVE/I.D.2.d.VoiceRecognition.html (дата обращения: 26.10.17)
Информационные технологии в экономике // Национальном Открытом Университете «ИНТУИТ» URL: http://www.intuit.ru/studies/courses/3735/977/lecture/14681?page=3 (дата обращения: 26.10.17)
Структура систем искусственного интеллекта // ИНФОРМАЦИЯ URL: http://itstan.ru/it-i-is/struktura-i-tipy-sii.html (дата обращения: 26.10.17)

Проголосовать за статью

Конференция завершена

Эта статья набрала 82 голоса

Дипломы участников

У данной статьи нет
дипломов