Поздравляем с Новым Годом!
   
Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: VI Международной научно-практической конференции «Физико-математические науки и информационные технологии: проблемы и тенденции развития» (Россия, г. Новосибирск, 25 сентября 2012 г.)

Наука: Информационные технологии

Секция: Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Феррейра О.Е. ИНТЕРАКТИВНЫЙ ГОЛОСОВОЙ ИНТЕРФЕЙС // Физико-математические науки и информационные технологии: проблемы и тенденции развития: сб. ст. по матер. VI междунар. науч.-практ. конф. – Новосибирск: СибАК, 2012.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов
Статья опубликована в рамках:
 
 
Выходные данные сборника:

 

 

ИНТЕРАКТИВНЫЙ ГОЛОСОВОЙ ИНТЕРФЕЙС

Феррейра Опасо Елена Владимировна

аспирантка ВолгГТУ, г. Волгоград

E-mail: lenulchik8@mail.ru

 

Методы и средства взаимодействия пользователя с операционной системой и прикладными программами называют пользовательским интерфейсом [3, c. 49]. Развитие программных средств идет по пути увеличения дружественности интерфейса, то есть такого упрощения управления ими, что от пользователя не требуется специальной подготовки, а система создает максимально комфортные условия для его работы. Основной ориентир в совершенствовании вычислительных систем — превращение их в удобного партнера конечного пользователя при решении задач в ходе его профессиональной деятельности.

Для обеспечения наибольшей дружественности интерфейса необходим не только более удобный и наглядный доступ к информации, но и интерактивный, то есть диалоговый характер взаимодействия человека с компьютерной информационной системой [6, с. 10]. Под диалогом в данном случае будем понимать регламентированный обмен информацией между человеком и компьютером, осуществляемый в реальном масштабе времени и направленный на совместное решение конкретной задачи. Каждый диалог состоит из отдельных процессов ввода/вывода, которые физически обеспечивают интерактивную связь пользователя и компьютера.


Для решения практических задач структура диалога включает различные возможные способы обмена информацией между пользователем и компьютером, то есть диалоговая система содержит множество запросов и соответствующих им ответных сообщений. Естественный язык — это тип диалога, при котором запрос и ответ со стороны пользователя ведется на языке, близком к естественному. Пользователь свободно формулирует задачу, но с набором установленных программной средой слов, фраз и синтаксиса языка. Система может уточнять формулировку пользователя.


Разновидностью интерактивного естественного диалога является речевое общение с компьютерной системой. В этом случае человеческий голос может преобразовываться, например, в текст, использоваться для интерактивного управления системой или для идентификации личности. В основе данных процессов лежит технология распознавания речи.


Общий принцип распознавания речи можно представить с помощью структурной схемы, приведенной на рисунке 1 [6, c. 163].


 



Рисунок 1. Структура технологии распознавания речи


 


На рисунке 1 показано, что при произнесении слов человек генерирует звуки (фонемы), которые несут информацию о тех символах, с помощью которых эти слова могут быть записаны в виде текста. Заблаговременно формируется база фонем языка, содержащая шаблоны базового набора слов при «усредненной» речи, то есть независящей от диктора. Речь переводится в фонемное описание и поступает в файл описания фонем, откуда это описание поступает в блок распознавания, проводящий сравнение поступившей информации с той, которая хранится в базе. Формируются распознанные слова, которые образуют текстовый файл или команду [6, c. 163—164].


По характеру распознаваемой речи системы речевого ввода разделяются на:


1.         системы, ориентированные на распознавание слов, команд и вопросов;


2.         системы распознавания предложений и слитной речи;


3.         системы идентификации по образцу речи [4, c. 280].


Системы распознавания слов, команд и вопросов обеспечивают выполнение компьютерной системой действий, задаваемых голосом. К системам данного типа относятся:


1.   системы распознавания чисел, которые являются средствами распознавания первого поколения (созданная в 1952 году, первая система распознавания речи — система Audrey от Bell Laboratories работала только с числами [2]);


2.    системы распознавания отдельных слов — основаны на использовании ключевых слов, хранимых в базе данных системы (например, система Voice Writer от Curzvail или система компании Charles Schwab & Co, распознающие около десяти тысяч слов английского языка [4, c. 280]);


3.       системы, строящие диалог с помощью системы голосовых меню (например, Natural Dialogue System от Philips) [4, c. 281]; в настоящее время широко используются IVR-системы (Interactive Voice Response) с технологией распознавания речи ASR (Automatic Speech Recognition) и синтеза речи TTS (Text to Speech) — интерактивные телефонные информационно-справочные системы, необходимые для автоматизации обработки запросов клиентов.


Системы распознавания предложений и слитной речи делятся на:


1.         системы раздельной диктовки — требуют произнесения слов с короткой паузой перед каждым следующим словом (ViaType от IBM, Dragon Dictate от Dragon System) Перечисленные системы позволяют также непосредственно диктовать текст в программы Word, Word Perfect, Internet Explorer, Netscape Navigator. Активный словарь таких систем насчитывает десятки тысяч слов и может пополняться пользователем по его профессиональной тематике.


2.         системы распознавания слитной речи (Naturally Speaking от Dragon System, Via Voice от IBM, WildFire от Wildfire Communication, Voice Xpress от Lernout & Hauspie Speech Products) [4, c. 281].


Выделим основные характеристики современных систем автоматического распознавания речи:


1.         распознавание слитной речи;


2.         словари размером в сотни тысяч слов;


3.         возможность работы в голосовом режиме с множеством приложений;


4.         работа в реальном времени;


5.         работа как с предварительной настройкой на особенности голоса диктора, так и без настройки;


6.         точность распознавания речи до 98—99 %.


Данным характеристикам отвечают следующие современные коммерческие программные продукты:


1.         Dragon Dictate и Dragon Naturally Speaking от Dragon Systems;


2.         Voice Type Dictation и Via Voice от IBM;


3.         Voice Xpress Professional от Lernout & Hauspie Speech Products;


4.         Listen for Windows от Verbex Voice Systems;


5.         Intelligent Voice Recognition System от ComunX и многие другие.


Последние версии программных продуктов Dragon Naturally Speaking v.11 Premium, а также ViaVoice for Windows v.10.0 Pro USB Edition считаются лучшими на сегодняшний день программами распознавания непрерывной речи. Данные программы могут работать в командном режиме и в режиме диктовки текста. Командный режим позволяет запускать при помощи голоса приложения Windows, управлять работой этих приложений, то есть работать с меню, диалоговыми окнами, инструментальными панелями и другими элементами пользовательского интерфейса, а также форматировать текст, введенный в режиме диктовки [5]. Кроме того, программы позволяют отправлять почту, мгновенные сообщения и осуществлять поиск по интернету и компьютеру голосом.


Системы идентификации по образцу речи относятся к биометрическим технологиям идентификации человека по его уникальным физическим признакам, таким как отпечатки пальцев и рисунок радужной оболочки глаз. Речь характеризуется множеством постоянных физических параметров. Цель идентификации по образцу речи — установить тождественность конкретного известного системе пользователя [4, c. 282].


Взаимодействие пользователя с системой идентификации состоит из трех этапов:


·        регистрация пользователя с целью запоминания особенностей его голоса и формирования для него речевой модели;


·    тестирование, во время которого выполняется сравнение поступившего образца речи с запомненной речевой моделью пользователя;


·           допуска к работе в системе, если тестирование прошло успешно [4, c. 283].


Таким образом, технология распознавания речи позволяет использовать естественный для человека голосовой интерфейс, который является более удобным. В связи с этим, системы автоматического распознавания речи находят широкое применение в различных областях жизнедеятельности человека и открывают новые возможности интерактивного естественного взаимодействия человека и компьютера.


 


Список литературы:

1.Голосовой пользовательский интерфейс: научная фантастика или реальность? [Электронный ресурс] // Речевые технологии: сайт. Аналитическая статья. — Режим доступа: http://www.speetech.by/press/11 (дата обращения: 1.09.2012).

2.История систем распознавания речи. [Электронный ресурс]. — Режим доступа: URL: http://antonkozlov.ru/istoriya/istoriya-sistem-raspoznavaniya-rechi.html (дата обращения 30.08.2012).

3.Симонович, С.В. Информатика для юристов и экономистов: Учебник для вузов / С.В. Симонович. СПб.: Питер, 2002. — 688 с.

4.Федотова, Е.Л. Информационные технологии и системы: учеб. пособие / Е.Л. Федотова. М.: ИНФРА-М, 2009. — 352 с.

5.Фролов, А.В. Синтез и распознавание речи. Современные решения / А.В. Фролов, Г.В. Фролов [Электронный ресурс]. — Режим доступа: http://www.frolov-lib.ru/books/hi/ch06.html (дата обращения: 29.08.2012).

6.Черников, Б.В. Информационные технологии управления: учебник / Б.В Черников. М.: ИНФРА-М, 2008. — 352 с.

Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий