Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65

Статья опубликована в рамках: XIV-XV Международной научно-практической конференции «Культурология, филология, искусствоведение: актуальные проблемы современной науки» (Россия, г. Новосибирск, 08 октября 2018 г.)

Наука: Филология

Секция: Прикладная и математическая лингвистика

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Головинов А.О., Колмакова В.В. ОСОБЕННОСТИ ПРЕОБРАЗОВАНИЯ ТЕКСТА СОВРЕМЕННЫМИ СИСТЕМАМИ СИНТЕЗА РЕЧИ // Культурология, филология, искусствоведение: актуальные проблемы современной науки: сб. ст. по матер. XIV-XV междунар. науч.-практ. конф. № 9-10(11). – Новосибирск: СибАК, 2018. – С. 39-43.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

ОСОБЕННОСТИ ПРЕОБРАЗОВАНИЯ ТЕКСТА СОВРЕМЕННЫМИ СИСТЕМАМИ СИНТЕЗА РЕЧИ

Головинов Андрей Олегович

студент Донского государственного технического университета,

РФ, г. Ростов-на-Дону

Колмакова Валентина Васильевна

проф. пед. н., канд. филол. наук, доц. Донского государственного технического университета,

РФ, г. Ростов-на-Дону

В настоящее время основной тенденцией в развитии информацион­ных технологий является создание программных средств, позволяющих автоматизировать различные процессы как в производственной сфере, так и в повседневной жизни людей. Благодаря таким системам, многие действия людей, требующие единообразного повторения, заменяются специальным устройством или программным средством, позволяя человеку лишь наблюдать за правильностью исполнения. При этом, некоторым разработкам уделяют особое внимание в силу их повсе­местной востребованности, но существуют и такие, практическая реализация которых либо невозможна в полной мере, либо затруднена по причине нехватки ресурсов или знаний.

Одной из таких слаборазвитых технологий являются системы синтеза речи, которые позволяют преобразовать текст в звуковой формат для дальнейшего прослушивания. Существует множество примеров применения таких систем в жизни человека: голосовые помощники в мобильных устройствах, экранные дикторы для слабовидящих на персональных компьютерах, системы прослушивания переводов.

Целью данной работы является исследование ключевых особен­ностей преобразования текста в речь с помощью таких систем, а также выявление проблем и возможных решений.

Эталонная модель системы синтеза речи должна включать в себя такие этапы работы, как:

  1. Определение языка текста – данный этап необходим для систем автоматического перевода текста и дальнейшего озвучивания.
  2. Нормализация текста - приведение всех слов текста к начальной форме: к именительному падежу, единственному числу (если таковое есть) или инфинитиву для глаголов. Такая процедура необходима для быстрого поиска слова в словарях, синтаксического и семантического разбора текста, и применения соответствующих инструкций или правил.
  3. Лингвистический анализ: морфемный, синтаксический анализ и т. д. – под этим этапом можно понимать, как определение стиля текста, логичности, точности, правильности, так и анализ языковых средств с точки зрения информации.
  4. Формирование просодических характеристик – определение особенностей языка, ударения, интонации и т. д.
  5. Фонемный транскриптор – выделение основных фонем для правильного произношения в зависимости от особенностей языка.
  6. Формирование управляющей информации – необходимый элемент любой системы для поддержания её правильной работы, выпол­нения проверок, корректировки ошибок, а также для создания системы обработки команд от пользователя.
  7. Получение выходного звукового сигнала – на основании прове­денных анализов и преобразований исходного текста на выходное звуковое устройство передается готовая синтезированная речь.

Система, построенная по такой модели, могла бы заменить лекторов или дикторов на различных мероприятиях, способствовать развитию автоматизированных образовательных систем, но, если некоторые этапы уже реализованы и повсеместно используются, например, в программах-переводчиках, голосовых помощниках и т. д., то другие, в частности «формирование просодических характеристик» находятся в стадии разработки [4].

Просодическими характеристиками называют такие особенности произношения, которые характеризуют тембр и темп голоса, ритм речи, тон, паузы и интонации. Они необходимы для передачи эмоционального окраса того или иного высказывания, чтобы человек мог более полно воспринимать смысл сказанного, а также понять эмоциональный настрой говорящего. Именно наличие таких характеристик отличает человеческую речь от искусственно синтезированной [6].

При формировании просодических характеристик в существующих системах синтеза речи, условно выделяют три блока:

  1. Блок расстановки синтагматических границ (пауз в тексте).
  2. Блок приписывания ритмических и акцентических характе­ристик.
  3. Блок приписывания тональных характеристик (частоты основного тона).

Для первого блока определяются синтагмы – части высказы­вания, которые человек может произнести на одном дыхании. Синтагмы характеризуются единообразием энергетических и тональных характе­ристик, наличием синтагматического ударения, а также пауз в необхо­димых местах (например, в конце предложения или при выделении вводных конструкций). Синтагма должна выражать законченную или относительно законченную мысль, но для систем синтеза речи не существует понятия «мысль», поэтому разбиение происходит согласно заданным алгоритмам – наиболее простым из них является создание границ одной синтагмы там, где на это указывает пунктуация. Подобный алгоритм применяется в системах синтеза речи Рго-Sе-2000, Infovox- 5А-101 и DЕСTаLк. В случае, когда процесс таковой сегмен­тации не происходит, полученные результаты могут быть трудно воспринимаемы человеком, который будет прослушивать данный текст, поскольку предложения могут быть достаточно длинными, и смысл произнесенного потеряется уже с первых слов.

Блок ритмических и акцентических характеристик необходим для того, чтобы верно указать длительность отдельной единицы текста и правильную постановку ударения в словах. При установке пра­вильной длительности произносимого слова каждое слово будет понятно на слух, выделены все междометия, союзы и т. д. Практическую реализацию данного блока можно увидеть в голосовом помощнике под названием «Алиса» компании Яндекс. Принцип работы «Алисы» основан на применении технологии машинного обучения, благодаря которой программа может корректно произносить слова, которым уже обучена и изучать новые, пополняя свой «словарный запас». Но в случаях, когда система сталкивается с новыми неизвестными ей речевыми конструкциями, ей необходимо либо обучиться на примерах от поль­зователей, либо ждать внесения поправок в программный код [5].

Одним из ключевых является блок приписывания тональных характеристик, обозначающий интонацию с которой произносится тот или иной фрагмент текста. По частоте тона можно судить о различных речевых особенностях: о гендерной принадлежности говорящего, о возможном волнении или спокойствии, о восклицании или вопросе в ходе диалога. Это также относится к тексту различной стилистики – чтение человеком делового письма или же художественного произве­дения отличается по серьезности тона, скорости чтения, громкости [2, 3].

Первоначально, в системах синтеза речи была реализована только нейтральная интонация, особенностью которой является роботизирован­ный монотонный тон и, как следствие, исключительно повествова­тельные предложения. Такая система могла правильно «прочитать» тот или иной фрагмент, но применить соответствующую интонацию для выделения вопросительного или восклицательного текста ей было не под силу, ввиду отсутствия специальных правил.

На сегодняшний день системы могут обозначить вопрос или восклицание в простых предложениях. Следующим этапом в их развитии может стать расширение правил использования интонации для специальных вводных конструкций, или обращения к человеку. Также следует упомянуть о том, что современные системы обладают возможностью выбора между различными голосами диктора: это может быть взрослый мужчина, женщина, подросток или ребенок. Однако, проблема с интонацией присутствует, в силу того, что машине не известны такие категории, как сарказм, ирония, сочувствие или радость [4].

Предполагаемым решением обозначенной проблемы могут послужить специально обученные нейронные сети, которые, после соответствующей настройки, будут применять соответствующие правила построения корректной интонации. В качестве набора данных, необходи­мых для обучения такой сети, могут выступать, небольшие предложения, звуковые фрагменты текста, повествующие одну определенную эмоцию с выраженной интонацией. После успешного прохождения простого этапа такую выборку можно усложнять – либо добавляя большее коли­чество текста, переходя к целым абзацам, параграфам, либо усложнять эмоциональную составляющую, добавляя в текст вопросительные элементы, содержащие иронию или сарказм. Такая нейронная сеть нуждается в так называемом «учителе» - человек, который будет подготавливать входные данные, отслеживать ошибки и корректи­ровать их в зависимости от полученных результатов. Создание системы с подобным функционалом в настоящей момент вызывает затруднения из-за специальных текстов, ведь каждый из них уникален по своей эмоциональной составляющей. Интерпретация одного и того же текста может быть разной [1, 7].

Таким образом, современные системы синтеза речи обладают большим потенциалом для дальнейшего развития. С учетом роста производительности вычислительных машин и открытием новых методов обработки информации такие системы получают всё большую популярность в различных областях: внедрение голосовой системы управления очередями, использование озвучивания наименований остановок в общественном транспорте и т. д. Решение вопроса синтеза просодических характеристик, посредством внедрения специально обученных нейронных сетей, позволит расширить область использования данной технологии, увеличить выходное качество речи и автоматизирует большое количество процессов, исполняемых человеком.

 

Список литературы:

  1. Баранова А.Ю. Художественный текст как основа моделирования авторского сознания творческой языковой личности // Вестник Адыгейского государственного университета. Сер. Филология и искусствоведение. Майков, 2016. Вып. 3. С. 36-42.
  2. Колмакова В.В. Внедрение новых технологий и подходов в системе образования в условиях экономики знаний // Одарюк И.В., Исаева Т.Е, Преподаватель высшей школы в XXI веке - Труды Международной научно-практической Интернет-конференции. - Ростов-на-Дону: РОСЖЕЛДОР, ФГБОУ ВПО Ростовский государственный университет путей сообщения, 2014. - С. 179-184.
  3. Колмакова В.В. Метапредметные технологии в структуре филологического образования // Шалков Д.Ю., Преподаватель высшей школы в XXI веке - Труды Международной научно-практической Интернет-конференции. - Ростов-на-Дону: РОСЖЕЛДОР, ФГБОУ ВПО Ростовский государственный университет путей сообщения, 2015. - С. 129-136.
  4. Рыбин С.В. Синтез речи. Учебное пособие по дисциплине "Синтез речи". – СПб: Университет ИТМО, 2014. – 92 с.
  5. Степанов П.П. Искусственные нейронные сети // Молодой ученый. — 2017. — №4. — С. 185-187. — URL https://moluch.ru/archive/138/38781/ (Дата обращения: 28.09.2018).
  6. Фрейдина Е.Л. Просодия публичной речи // Е.Л. Фрейдина, Н.А. Ковпак, Ю.П. Королева и др. — Прометей Москва, 2013. — 224 с.
  7. Cowley S.J. Cognitive dynamics: Language as values realizing activity / S.J. Cowley // Cognitive Dynamics in Linguistic Interactions / A.V. Kravchenko (ed.). - Newcastle upon Tyne: Cambridge Scholars Publishing, 2012. - P. 1 - 32.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом