Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: LIX Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 17 декабря 2018 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Илющенко А.Н. ТЕХНОЛОГИИ МАШИННОГО ПЕРЕВОДА // Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ: сб. ст. по мат. LIX междунар. студ. науч.-практ. конф. № 24(59). URL: https://sibac.info/archive/meghdis/24(59).pdf (дата обращения: 19.03.2024)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

ТЕХНОЛОГИИ МАШИННОГО ПЕРЕВОДА

Илющенко Анастасия Николаевна

студент, кафедра Информационных технологий ДГТУ,

РФ, г. Ростов-на-Дону

Барашко Елена Николаевна

научный руководитель,

ст. преподаватель, кафедра Информационных технологий ДГТУ,

РФ, г. Ростов-на-Дону

В мире глобализации и условного стирания границ возможность быстрого перевода является необходимостью для переводчиков, для граждан, испытывающих трудности в языковой области, людей различных профессий и т.д. Для решения таких задач применяется машинный перевод (МП).

Существует три технологии машинного перевода:

  • Аналитический
  • Статистический
  • Нейронный

Рассмотрим некоторые их особенности, сходства и различия.

Аналитический машинный перевод. Это самая первая технология, где используется определенный набор правил перевода с одного языка на другой. Перевод производится поэтапно:

  1. Анализ морфологических признаков
  2. Группирование слов
  3. Синтаксический анализ (подлежащее-сказуемое)
  4. Синтез предложений

Преимуществами данного метода являются: точный анализ предложений, стабильный перевод, определение предметной области.

Недостатки: сложная и длительная задача, поддержка актуальности лингвистических особенностей, машинный текст.

Статистический машинный перевод. Перевод на базе статистического анализа, где окончательный более подходящий текст подбирается среди множества вариантов. После каждого перевода информация запоминается и в следующий раз работа системы улучшается.

Преимущества: удобная быстрая настройка, перевод сложных текстов, экономия вычислительных ресурсов, добавление новых ветвей перевода происходит просто.

Недостатки: плохо справляется с сильно разными между собой языками (русский-японский), недостаток параллельных текстов, нестабильный перевод, часто в переведенном тексте предложения не связаны.

Оба вида актуальны, однако в последнее время появился новый метод – перевод с использованием искусственных нейронных сетей.

Нейронный машинный перевод. Внешне система нейронного перевода похожа на статистический – построен на анализе нескольких данных для перевода. Однако принцип метода другой.

Нейронный метод работает благодаря механизму двунаправленных нейронных сетей, где последовательность определяется поэтапно шаг за шагом. Этот метод строит вероятные модели намного сложнее, нежели статистический.

Нейронный перевод значительно лучше и точнее остальных видов перевода, но для работы этой системы необходимо большое количество вычислительных мощностей. Плюсы и минусы нейронного перевода схожи со статистическим методом. Нейронная сеть может сделать перевод текста практически идеальным, поскольку система достаточно развита. Сравнительный анализ показан в таблице 1.

Таблица 1.

Сравнительный анализ технологий машинного перевода

Параметры

Аналитический метод машинного перевода

Статистический метод машинного перевода

Нейронный метод машинного перевода

Стабильность и качество перевода

высокая

низкая

высокая

Скорость обработки текста

высокая

высокая

высокая

Стоимость

высокая

низкая

высокая

Удобство настройки

низкое

высокое

высокое

 

Из таблицы видно, что статистический машинный перевод уступает другим видам МП только по одному параметру, но его «минус» оказывается «плюсом», когда касается стоимости и трудозатрат данной технологии. Невысокое качество перевода компенсируется отсутствием к требованию больших вложений со стороны разработчиков.

В свою очередь аналитический перевод при высоком качестве перевода является трудоемким и требует длительной разработки правил.

В остальном все три вида технологий удобны в использовании, быстро обрабатывают информацию, и есть возможность легко добавить новые направления перевода.

По указанным параметрам нейронный машинный перевод перспективная ниша развития в этой области, но на данный момент вложения в разработки метода очень высоки, а данных о степени готовности для широкого применения в общем доступе пока нет.

Таким образом, статистические переводы подходят для решения задач, которые требуют немедленного решения и не требуют точного узкоспециализированного перевода, для которых достаточно понимать основную мысль текста. Не подойдет данный вид технологий для сильно отличающихся друг от друга языков. Данная система перевода, тем не менее, является наиболее распространенной и широко используется.

Аналитический перевод подойдет для решения узконаправленных задач, при постановке которых важна точность, предсказуемость и стабильность перевода. Подходит для пользователей, обладающих специальными знаниями. Данная система более удобна и практична.

Нейронный машинный перевод лучше подходит для решения задачи «универсального перевода».

Самыми популярными программами, поддерживающими статистический метод, являются Google Translate и Яндекс.Перевод.

Google Translate – современная система, разработанная компанией Google. Метод перевода данной программы – статистический. Система не имеет возможности переводить текст напрямую, если в пару переводимых языков не входит английский. Чтобы перевести с русского на китайский, вначале осуществится перевод на английский, а только потом на китайский язык.

Есть языки, для перевода которых этапов будет чуть больше. Такая система очень сильно сказывается на точности перевода, снижая его. В связи с чем, система становится неподходящей для перевода некоторых текстов.

Еще один автоматизированный переводчик - Яндекс.Перевод. Это сервис переводит не только тексты, но и веб-страницы, который работает на статистическом переводе и включает в себя 2 части:

  • модель перевода. Это построение списка, где содержатся все варианты перевода текста;
  • модель языка. Подбирает из списка вариантов подходящий перевод, в котором слова в предложении сочетаются по смыслу.

Перевод у Яндекс сервиса происходит напрямую, исключая промежуточные этапы. Однако список языков, которые доступны для перевода, очень небольшой.

На сегодняшний день существует большое количество разных систем машинного перевода текстов. Наиболее распространенные из них работают на основе статистического анализа. Такие системы достаточно просты в создании и поддержке.

Чтобы обучиться системе, существует достаточно данных в открытом доступе. Сравнение программ Google Translate и Яндекс.Перевод показано в таблице 2.

Таблица 2.

Сравнительный анализ программ: Google Translate и Яндекс.Перевод

Параметры

Google Translate

Яндекс.Перевод

Страна разработчик

Америка

Россия (Нидерланды)

Возможность перевода текста напрямую с одного языка на другой

не предусмотрена (только через английский)

предусмотрена

Перевод веб-страниц

возможен

возможен

Количество

большой охват

незначительный охват

Учет грамматических правил языков

отсутствует

отсутствует

Наличие собственного программного обеспечения

да

да

Качество переводимого текста

искажение информации

небольшая точность и читаемость

 

Как видно из таблицы программам соответствуют основные «плюсы» и «минусы» статистического перевода. Перевод, который осуществили программы, требует существенной доработки, но общий смыл первоначального текста, сохраняют. Обе программы имеют свое собственное программное обеспечение. Как и все программы, относящиеся к данной технологии, Google Translate и Яндекс.Перевод являются «самообучаемыми». Отсутствие учета грамматических правил входного и исходного языка программы не поддерживают, из-за чего и возникают основные неточности языкового перевода. Обе программы поддерживают перевод сайтов, что в современной действительности является важной и полезной функцией. Несмотря на некоторые недостатки программ, тем не менее, они используются широко и повсеместно.

Обратимся к программам, которые поддерживают аналитический перевод: ABBYY и PROMT.

У Google Translate есть серьезный конкурент – продукт от российской компании ABBYY. Технология Abbyy Compreno работает на хорошо развитой системе профессиональных тематических словарей. Такая система предоставляет качественный точный перевод. Большим преимуществом Abbyy Compreno перед Google Translate является автономная офлайн-работа, то есть перевод производится без подключения к Интернету. Abbyy относится к системе, основанной на правилах, которая создавала технологию Abbyy Compreno на протяжении 15 лет. К сожалению, система является закрытой, и на данный момент нет данных о полномасштабном тестировании программы.

Одна из самых популярных программ для перевода – PROMT, которая была создана в 1991 году и занимает 95% российского рынка по автоматизированному переводу. Изначально в основе программы перевода было использовано правило RBMT, которое переводит текст исходя из лингвистической информации. При этом для высокого качества перевода необходим большой объем данных словарей с описанием особенностей грамматики. Спустя почти 10 лет, PROMT выпустил технологию, которая совмещала две системы: RBMT и SMT. Это технология предоставляет несколько вариантов перевода (более сотен), выбирая из них наиболее подходящий. Программа имеет большие возможности в переводе документов разных форматов, выделенной области с графическим текстом, тексты или слова, набранные с помощью «горячих клавиш». Сравнительный анализ программ ABBYY и PROMT показан в таблице 3.

Таблица 3.

Сравнительный анализ программ: ABBYY и PROMT

Параметры

ABBYY

PROMT

Страна разработчик

Россия

Россия

Возможность перевода текста напрямую с одного языка на другой

предусмотрена

предусмотрена

Перевод веб-страниц

возможен

возможен

Количество языковых пар

нет данных

не большое количество

Учет грамматических правил языков

использует отдельные правила для каждого языка

перевод исходя из лингвистической информации

Наличие собственного программного обеспечения

да

да

Качество переводимого текста

хорошо развита система профессиональных тематических словарей

есть настройки, которые позволяют повысить качество перевода

 

Следует отметить, что, как правило, в программах аналитической технологии перевода, сохраняется порядок слов исходного языка, но, тем не менее, сохраняется возможность переводить разного рода документы. Данные программы выигрывают в этой области по сравнению с Google Translate и Яндекс.Перевод. Между собой ABBYY и PROMT не имеют явных отличий. К сожалению, у ABBYY невозможно детально определить качество производимого перевода из-за отсутствия данных о тестировании программы. PROMT остается самой популярной программой в данном сегменте автоматизированного перевода, возможно это связано с ее самодостаточностью.

Далее сравним качество переводимого текста программами Google Translate, Яндекс.Перевод и PROMT на основе собранной информации (рис.1).

 

Рисунок 1. Количественный показатель ошибок, совершаемых при стандартном переводе программами

 

Из диаграммы видно, что все программы совершили больше всего лексических ошибок. Система PROMT не допустила ни одной синтаксической ошибки, но заняла «лидирующую» позицию по количеству грамматических ошибок. Лексических ошибок оказалось меньше, чем у конкурентов. Яндекс.Перевод не допустил ни одной грамматической. Остальные показатели выглядят достойно. Больше всего стилистических и смысловых ошибок у Google Translate. Несмотря на все приведенные выше плюсы программ, автоматический перевод с одного языка на другой является одной из самых сложных проблем, с которой компьютер не в состоянии справится без помощи человека. Машинный перевод – это всего лишь инструмент, который требует настройки и умелого применения. Нейронные сети достаточно перспективны в будущем как основной инструмент автоматизированного перевода, а пока для полной идеальной работы у них существует ряд недостатков, главным из которых остается недостаток объема данных. Учитывая этот момент, до сих пор актуальны статистические и аналитические, а также гибридные системы.

 

Список литературы:

  1. Машинный перевод: исторический обзор и преимущества. [Электронный ресурс] – Режим доступа. –URL: http://www.promt.ru/company/press/pdf/mt_istorich_obzor_preimushestva.pdf (Дата обращения 18.11.2018).
  2. Обзор систем машинного перевода. [Электронный ресурс] – Режим доступа. –URL: https://moluch.ru/archive/59/8581/ (Дата обращения 12.10.2018).
  3. Современные технологии перевода: от кустарного бизнеса к поточному производству. [Электронный ресурс] – Режим доступа. –URL: http://www.logrus.ru/publications/ru-publications/9.aspx (Дата обращения 12.10.2018).
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.