Статья опубликована в рамках: Научного журнала «Студенческий» № 39(251)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6, скачать журнал часть 7, скачать журнал часть 8

Библиографическое описание:

Струков И.В., Петров М.В. РЕЧЕВОЙ ВВОД В ПЭВМ // Студенческий: электрон. научн. журн. 2023. № 39(251). URL: https://sibac.info/journal/student/251/308473 (дата обращения: 01.08.2025).

РЕЧЕВОЙ ВВОД В ПЭВМ

Струков Илья Владимирович

студент, кафедра автоматизированных систем управления, Липецкий государственный технический университет,

РФ, г. Липецк

Петров Михаил Валерьевич

студент, кафедра автоматизированных систем управления, Липецкий государственный технический университет,

РФ, г. Липецк

Седых Юлия Игоревна

научный руководитель,

старший преподаватель кафедры АСУ, Липецкий государственный технический университет,

РФ, г. Липецк

SPEECH INPUT INTO PC

Ilya Strukov

student, Department of Automated Control Systems, Lipetsk State Technical University,

Russia, Lipetsk

Mikhail Petrov

student, Department of Automated Control Systems, Lipetsk State Technical University,

Russia, Lipetsk

Yulia Sedykh

scientific supervisor, senior lecturer of the Department ACS, Lipetsk State Technical University,

Russia, Lipetsk

АННОТАЦИЯ

Речевой ввод в ПЭВМ – как устроен и где применяется.

ABSTRACT

Speech input into a PC - how it is designed and where it is used.

Ключевые слова: речевой ввод, speech-to-text, нейросети.

Keywords: speech input, speech-to-text, neural network.

С самого рождения человечество стремилось к улучшению способов общения и передачи информации. В поисках более эффективного способа взаимодействия с компьютерами и удобного ввода данных исследователи и инженеры еще в середине 20-го века приступили к разработке технологий распознавания и синтеза речи. Первоначальные исследования и эксперименты были ограничены недостаточностью вычислительных ресурсов, что замедляло развитие этой области. Тем не менее прорывы, достигнутые в различных научных дисциплинах, положили основу для дальнейших достижений в сфере речевого ввода.

В 1952 году была представлена система Audrey, которая смогла распознать цифры, произнесенные человеком. Этот прорывный момент в истории речевого ввода активизировал исследования в этой области.

Следующий важный период в развитии технологии распознавания речи случился в 1970-х годах с развитием техники обработки естественного языка, когда были разработаны системы, способные обрабатывать и транскрибировать небольшие фразы.

В 1980-х и 1990-х годах произошел важный прорыв в сфере речевого ввода. Применение нейронных сетей и статистических алгоритмов повысило точность распознавания и сделало технологию доступной для широкой аудитории. IBM представила систему распознавания речи "Возможности", которая была включена в операционные системы OS/2 и OS/390.

В наши дни распознавание и синтез речи активно используется в различных сферах, включая пользование мобильными устройствами, системами навигации, голосовыми помощниками и многим другим. Постоянное развитие технологий и появление новых алгоритмов позволяют системам распознавания речи становиться все более точными и эффективными. В этой статье мы познакомимся подробнее с системами распознавания речи.

Вообще, речевой ввод в ПЭВМ – это технология, которая позволяет пользователям взаимодействовать с компьютером с помощью голосовых команд или речевого ввода.

Самый простой способ взаимодействия человека с ПЭВМ при помощи голоса – это голосовые команды, т.е. определённый набор слов, которые пользователь может использовать для управления системой. Компьютер распознаёт команду и выполняет определённую задачу, например, запуск программы, открытие файлов, выполнение определенных операций и т.д.

Более сложным способом обработки речевого ввода являются Голосовые помощники, которые позволяют пользователям взаимодействовать с ПЭВМ при помощи голосовых команд и задавать им вопросы. Голосовые помощники могут:

Ввести диалог;
Предлагать быстрые ответы на вопросы пользователя. Удобная функция, когда невозможно набрать запрос вручную, например, руки в перчатках;
Совершать звонки. Удобнее сказать голосовому помощнику: «Позвони Олегу», нежели искать среди других номеров вручную, особенно, когда их несколько десятков;
Прокладывать маршруты. Во время вождения вводить адрес в навигатор может быть неудобно или даже опасно. Благодаря голосовому помощнику можно просто продиктовать адрес в навигатор;
Вызвать такси;
Делать заказ в интернет-магазинах и др.

На рынке представлены разные голосовые помощники, наибольшей популярностью и функциональностью пользуются разработки крупных компаний. Например, Алиса от Яндекса, Google Assistant от Google*(По требованию Роскомнадзора информируем, что иностранное лицо, владеющее информационными ресурсами Google является нарушителем законодательства Российской Федерации – прим. ред.), Siri от Apple, Alexa от Amazon.

Как же происходит распознавание речи, т.е. процесс преобразования человеческого голоса в текстовый формат? Как известно, речь – это совокупность произносимых звуков. Задача системы – распознать по спектрограмме, какому звуку соответствует та или иная буква, используя лингвистические алгоритмы, после преобразовать отдельные буквы в слова, а слова – в полноценные словосочетания и текст. Алгоритмы распознавания речи могут быть основаны на статистических моделях или нейронных сетях. Рассмотрим подробный алгоритм распознавания речи:

Речь, произносимая человеком, создаёт ряд вибраций. Система улавливает и переводит их на цифровой язык с помощью аналогово-цифрового преобразователя (АЦП).
АЦП извлекает звуки из аудиофайла, измеряет волны, фильтрует их, чтобы получить нужные звуки.
Затем звуки сегментируются на сотые или тысячные доли секунды, после чего сопоставляются с фонемами (т.е. звуковой единицей, которая отличает одно слово от другого). Например, в русском языке – 39 фонем, а в английском – 44.
После этого фонемы пропускаются через сеть, основанную на математической модели, которая сравнивает их с известными словами, фразами, предложениями.
Наконец, речь представляется в виде текста или запроса на основе наиболее вероятной версии аудио.

Для лучшего распознавания речи системы речевого ввода используют контекстное распознавание, т.е. учитывают контекст и задают уточняющие вопросы для более точного распознавания речи и выполнения команд.

Адаптивные системы используют машинное обучение и алгоритмы искусственного интеллекта для улучшения качества распознавания речи с течением времени.

Также весьма важным аспектом работы голосовых систем является разработка методов и алгоритмов, позволяющих определить эмоциональное состояние пользователя на основе его голоса.

На данный момент самой продвинутой технологией речевого ввода в ПЭВМ является Speech-to-text, что можно перевести с английского как “Речь в текст”. В основе этой технологии лежат нейросети, которые используют принцип распознавания речи.

Вначале происходит обучение нейросети. Чтобы искусственный интеллект (далее ИИ) научился распознавать буквы среди звуков, инженеры обучают его на готовом наборе данных, который состоит из аудиозаписей голоса, сопровождаемый размеченным текстом. Таким образом, нейросеть получает пару “аудио – текст”, из которой она должна найти соответствие спектрограмме определённых букв и слов. ИИ делит запись на маленькие кусочки и пытается предсказать по аудиодорожке каждой части, что это за буква. Нейросеть не даёт однозначного ответа – она определяет вероятность того, что перед ней та или иная буква.

После того, как посчитана вероятность по каждой букве, ИИ пытается понять, что это за слово. Для этого нейросеть использует контекст (словарь), с которым она проводит сравнение вероятных букв. В результате получается набор распознанных слов.

Это происходит до тех пор, пока ИИ не сможет с большой точностью вычислить по записи голоса буквы, из них составить слова, а уже из слов – предложения или фразы.

Самым главным фактором качества распознавания является качество данных для обучения нейросети. Чем больше записей голоса обработает ИИ – с разными эмоциями и интонациями, голосами и наполнениями (например, сказки и новости отличаются между собой довольно сильно), – тем качественнее будет предсказывать нейросеть.

Также для обучения важно использовать записи разных дикторов из-за разницы в произношении слов и артикуляционных особенностях. Благодаря этому ИИ учится справляться с самыми разными случаями.

При этом если нейросеть обучалась на одном языке, то она не сможет корректно распознать речь на другом, т.к. в её основе лежат другие алфавит и контекст. Для решения данной проблемы достаточно обучить нейросеть новому языку так же, как и предыдущему.

Перспективы у речевого ввода в ПЭВМ чрезвычайно широки. Распознавание речи помогает людям с ограниченными возможностями взаимодействовать с компьютером при нарушении моторики. Речевой ввод активно используется для проведения опросов и исследований. С помощью распознавания голоса анкетирование по телефону проводится автоматически: робот задает вопросы и записывает ответы без участия живого человека.

Постепенно технология речевого ввода всё больше проникает в нашу жизнь. Обыденным явлением для нас становится общаться голосом со смартфонами, телевизорами, автомобилями, системой «умный дом». И палитра устройств, оснащенных голосовым вводом, продолжает расти.

Список литературы:

Авдеев В. А. Периферийные устройства: интерфейсы, схемотехника, программирование / ДМК Пресс, 2009. – 848 с.
Павлов В. А. Интерфейсы периферийных устройств : учеб. пособие для вузов / В. А. Павлов. — Саров, 2010. — 374 с.
Павлов В. А. Периферийные устройства ЭВМ : Учебное пособие: Часть 1. / СарФТИ, Саров, 2001. – 231 с.

РЕЧЕВОЙ ВВОД В ПЭВМ

Оставить комментарий