Статья опубликована в рамках: LXXIII Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ГУМАНИТАРНЫЕ НАУКИ» (Россия, г. Новосибирск, 21 января 2019 г.)
Наука: Филология
Секция: Лингвистика
Скачать книгу(-и): Сборник статей конференции
МАШИННЫЙ ПЕРЕВОД С ИСПОЛЬЗОВАНИЕМ ДИСТРИБУТИВНО-СЕМАНТИЧЕСКИХ МОДЕЛЕЙ
Данная статья выполнена в рамках направления современного языкознания – компьютерной лингвистики. Особое внимание уделяется машинному переводу, так как именно он был первой задачей компьютерной лингвистики [5, c. 158]. Одной из нерешенных проблем такого перевода является проблема подбора слова, подходящего по контекстуи передающего необходимый смысл.
«Разрешение лексической многозначности является актуальной проблемой обработки естественного языка в лингвистике», – подчеркивает Б.Л. Иомдин [2]. Работа с семантикой слов используется для обработки запросов в поисковиках, для машинного перевода предложений с одного языка на другой. Сейчас развиваются системы автоматического перевода, в которых пока по техническим причинам наблюдается выбор прямого значения без учета контекста, указывающего на переносный характер словоупотребления.
Перспективой семантических исследований в области машинного перевода являются дистрибутивно-семантические модели, учитывающие соотношение значений в разных языках. Использование дистрибутивно-семантических моделей может улучшить качество системы машинного перевода и имеет несомненную теоретическую и практическую значимость.
Область машинного перевода (МП) – одна из наиболее важных областей компьютерной лингвистики, которая включает в себя все проблемы обработки речи на всех языковых уровнях [1, c. 181]. Автоматизированный перевод осуществляется человеком с помощью компьютерных технологий, а машинный (автоматический) перевод происходит без участия человека. По мнению Е.П. Сосниной, машинный перевод – это преобразование компьютером текста на одном естественном языке в эквивалентный по содержанию текст на другом естественном языке [6, c. 62].
С помощью машинного перевода можно обрабатывать большой объем данных за короткое время, что является преимуществом МП. В настоящее время еще не созданы программы машинного перевода, которые переводили бы текст, правильно улавливая все переносные значения, учитывая грамматические особенности языка и понимая языковые нюансы.
В компьютерной лингвистике существует три подхода к машинному переводу: перевод на основе правил, статистический машинный перевод и гибридный перевод [7, c. 159]. На данный момент гибридный перевод – самый современный подход к переводу, поэтому многие разработчики стремятся использовать гибридные технологии.
Для автоматической обработки текста самым сложным этапом считается содержательный анализ, поскольку для его выполнения человеку необходимы знания о том, как производить операции со значениями, как переводить значения с естественного языка на формальный и обратно, как представлять и хранить содержание текста в компьютерной памяти. О.А. Митрофанова считает, что для того, чтобы компьютер мог извлекать и перерабатывать смысл, лингвистам нужны теории переработки и преобразования языковых значений, которые позволяют представлять информацию и отражать способ её организации в языке [5, c. 61]. Для этого используются сетевые и графовые модели, фреймы, тезаурусы, сценарии.
Существуют два фундаментальных подхода к моделированию семантики: ручное построение онтологий (knowledge-based approach) и извлечение значения из употребления слов в текстах, дистрибутивный подход (distributional approach). Формальная онтология – это вид семантических представлений, которые можно определить как модель наблюдаемой действительности [7]. Подход на онтологиях трудоёмкий, потому что схема всех понятий, необходимых для моделирования, строится вручную.
Второй подход, основанный на дистрибуции, используется гораздо шире, так как все процессы проводятся машиной. С точки зрения Ю.И. Морозовой, дистрибутивная семантика – это «область научных исследований, занимающаяся вычислением степени семантической близости между лингвистическими единицами на основании их дистрибуционных признаков в больших массивах лингвистических данных (модели векторных пространств)» [4, c. 268]. Они применяются в таких сферах как: разрешение лексической неоднозначности, информационный поиск, автоматической формирование словарей, создание семантических карт и определение тональности высказывания.
В основе дистрибутивной семантики лежит дистрибутивная гипотеза: лингвистические элементы со схожей дистрибуцией имеют близкие значения. Данная гипотеза представлена в статьях исследователей M. Sahlgren [11], P.D. Turney и P. Pantel [12]. Теоретические основы данного направления восходят к дистрибутивной методологии З. Харриса [8].
Основной способ представления значения в дистрибутивной семантике – это семантические вектора; каждая лексическая единица описывается вектором. Лингвисты применяют векторы, если нужно автоматически сравнивать слова или их последовательности (для расширения поисковых запросов, машинного перевода, вычисления семантической близости, классификаци и кластеризации текстов, определения тональности высказывания). «Такие векторные представления хорошо описывают семантические свойства лексики», - отмечает в своей лекции разработчик платформы https:// rusvectores.org А. Кутузов [3]. Данная платформа позволяет: вычислять семантическое сходство между парами слов; выполнять над векторами слов алгебраические операции; рисовать семантические карты отношений между словами; решать аналогии вида «найти слово X, которое так относится к слову Y, как слово A относится к слову B» (рисунок 1).
Рисунок 1. Семантический калькулятор
В основе современных систем автоматической обработки языка лежит дистрибутивная семантика. Для них используются статистические модели, обученные на больших корпусах. Инструментом для анализа семантики естественных языков является word2vec, разработанный Т. Миколовым [9]. Также он заметил схожесть векторного пространства для разных языков (на примере английского и испанского) [10], которая представлена на рисунке 2.
Рисунок 2. Визуализация векторов числительных и имен существительных, обозначающих животных, для английского и испанского языков
На рисунке 2 показано, что проекции пяти векторов числительных и пяти векторов животных из дистрибутивных моделей английского и испанского языков схожи. Проекции векторов слов английского языка имеют такое же расположение относительно друг друга, что и проекции векторов слов испанского языка. Ключевая идея Т. Миколова состоит в том, что существует линейное преобразование семантического пространства одного языка в семантическое пространство другого языка. На этой базе возможно автоматическое составление словарей для преобразования текста с одного языка на другой.
Считаем важным и перспективным тот раздел компьютерной лингвистики, который отвечает за машинный перевод. Некорректный автоматический перевод текста заставляет исследователей задуматься над разработкой новых технологий машинного перевода. В мире информационных технологий появляется больше возможностей модернизировать автоматический перевод.
Анализ трудов зарубежных исследователей в сфере компьютерной лингвистики показывает возможность перевода с помощью преобразования векторных пространств данных языков. Идея применения дистрибутивно-семантических моделей при машинном переводе может быть полезна при определении значения слова в зависимости от контекста.
Список литературы:
- Арзамасцева И.В., Подгорный И.В. Подход к корректному машинному переводу на основе автономных адаптивных интеллектуальных систем// Современные технологии обучения иностранным языкам. Международная научно-практическая конференция (Ульяновск, 25 января 2012 года): сборник научных трудов /отв. ред. Н. С. Шарафутдинова. - Ульяновск: УлГТУ, 2012. - c. 181-186.
- Иомдин Б.Л. Проблема многозначности слов [Электронный ресурс]. – Режим доступа: https://postnauka.ru/video/30017 (дата обращения: 10.01.2019)
- Кутузов А. Нейронные языковые модели в дистрибутивной семантике [Электронный ресурс]. – Режим доступа: https://events.yandex.ru/lib/talks/2773 (дата обращения: 15.01.2019)
- Морозова Ю.И. Извлечение переводного словаря значимых словосочетаний из параллельных текстов с использованием методов дистрибутивной семантики // Новые информационные технологии в автоматизированных системах: материалы шестнадцатого научно-практического семинара. - М.: Моск. ин-т. электроники и математики национального исследовательского университета «Высшая школа экономики», 2013. – С. 268-272.
- Николаев И.С., Митренина О.В., Ландо Т.М. (ред.) Прикладная и компьютерная лингвистика / И.С. Николаев, О.В. Митренина, Т.М. Ландо – М.: Ленанд, 2016. — 316 с.
- Соснина Е. П. Введение в прикладную лингвистику: учебное пособие / Е. П. Соснина. –2-е изд., испр. и доп. – Ульяновск: УлГТУ, 2012. – 110 с.
- Gruber, Th. Ontology // Encyclopedia of Database Systems / Ling Liu and M. Tamer Özsu, Springer-Verlag, 2009.
- Harris Z. S. Mathematical structures of language. — New York: John Wiley & Sons, 1968.
- Mikolov T., Chen K., Corrado G., Dean J. Efficient estimation of word representations in vector space arXiv preprint arXiv:1301.3781 (2013).
- Mikolov T., Le Quoc., Sutskever I. Exploiting similarities among languages for machine translation arXiv preprint arXiv:1309.4168 (2013).
- Sahlgren M. The distributional hypothesis // From context to meaning: Distributional models of the lexicon in linguistics and cognitive science (Special issue of the Italian Journal of Linguistics). — Pisa: Pacini Editore, 2008. Vol. 20. No. 1. P. 33–53.
- Turney P. D., Pantel P. From frequency to meaning: Vector space models of semantics // J. Artificial Intelligence Research. — Menlo Park, California: AAAI Press, 2010.P. 141–188.
Оставить комментарий