Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: CXXXII Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 11 декабря 2023 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Шестихин Н.А. НЕЙРОСЕТЕВЫЕ ТЕХНОЛОГИИ МАШИННОГО ПЕРЕВОДА В ЭЛЕКТРОННОМ ДОКУМЕНТООБОРОТЕ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. CXXXII междунар. студ. науч.-практ. конф. № 12(130). URL: https://sibac.info/archive/technic/12(130).pdf (дата обращения: 27.11.2024)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

НЕЙРОСЕТЕВЫЕ ТЕХНОЛОГИИ МАШИННОГО ПЕРЕВОДА В ЭЛЕКТРОННОМ ДОКУМЕНТООБОРОТЕ

Шестихин Никита Артёмович

студент, кафедра технологий испытаний и эксплуатации, Московский авиационный институт,

РФ, г. Москва

Сдобнов Анатолий Геннадьевич

научный руководитель,

канд. экон. наук, доц., Московский авиационный институт,

РФ, г. Москва

NEURAL NETWORK TECHNOLOGIES OF MACHINE TRANSLATION IN ELECTRONIC DOCUMENT MANAGEMENT

 

Nikita Shestikhin

Student, Department of Testing and Operation Technologies, Moscow Aviation Institute,

Russia, Moscow

Anatoly Sdobnov

Scientific supervisor, candidate of Sciences in Economics, associate professor, Moscow Aviation Institute,

Russia, Moscow

 

АННОТАЦИЯ

Развитие и внедрение электронного документооборота позволило уйти от многих проблем, связанных с работой с бумажными документами. Тем не менее сотрудники, которые имеют отношение к созданию или заполнению электронных документов постоянно сталкиваются с однообразной работой, которую в большей мере можно автоматизировать.

Обработка естественного языка с помощью нейросетевых технологий позволит не только расширить функционал электронного документооборота, но и решить некоторые проблемы алгоритмической автоматизации работы с документами.

Основным средством нейросетевых технологий связанным с обработкой естественного языка является машинный перевод. В работе представлены API основных сервисов нейросетевого перевода, а также их сравнительный анализ.

ABSTRACT

The development and implementation of electronic document management allowed us to get away from many problems associated with working with paper documents. Nevertheless, employees who are involved in creating or filling out electronic documents are constantly faced with monotonous work, which can be automated to a greater extent.

Natural language processing using neural network technologies will not only expand the functionality of electronic document management, but also solve some problems of algorithmic automation of working with documents.

The main means of neural network technologies related to natural language processing is machine translation. The paper presents the API of the main neural network translation services, as well as their comparative analysis.

 

Ключевые слова: электронный документооборот; нейросетевые технологии; нейросетевой перевод, машинный перевод.

Keywords: electronic document management; neural network technologies; neural network translation, machine translation.

 

С развитием и внедрением электронного документооборота работа с документами в целом сильно упростилась. Это связано со следующими основными преимуществами:

  • эффективность с точки зрения экономии времени;
  • минимизация ошибок, связанных с человеческим фактором;
  • улучшение контроля и отчетности;
  • практически моментальная отправка, доставка и поиск документов [1, с. 195].

Несмотря на все вышеописанные преимущества и удобства электронного документооборота – сотрудники, которые имеют отношение к созданию или заполнению документов тратят значительное время на выполнение однообразных операций, таких как:

  • заполнение документов информацией (текст, изображения, таблицы, листинги, заголовки, подписи и так далее), которую, как правило, необходимо вычленить из каких-то источников (различных информационно-справочных систем, отчетов, формируемых такими системами, баз данных и так далее);
  • форматирование документов;
  • переформатирование документов;
  • поиск ошибок форматирования документов.

Кроме того, стандарты создания и оформления документов достаточно сильно регламентированы не только государственными, но и внутрикорпоративными стандартами. И тем не менее описанные выше операции в большей мере могут быть автоматизированы.

Однако, не все аспекты электронного документа оборота могут быть автоматизированы посредством одних лишь алгоритмов. Так, например, невозможно с помощью алгоритмов с большой точностью отличить аббревиатуру, написанную заглавными буквами от простой опечатки. Кроме того, более масштабные задачи, как например поиск ошибок в структуре документа, перевод документации на другой язык и так далее, способны расширить функциональные возможности системы электронного документооборота. Ведь несмотря на все преимущества перехода на «цифру», согласно данным «СКБ Контур» и «Газпромбанк Автолизинг», по состоянию на май 2020 года электронным документооборотом в России пользовались только 30 % компаний. Причем чаще к системам электронного документооборота прибегают крупные организации, а малый бизнес реже автоматизирует делопроизводство [2].

Мощным и очень стремительно развивающимся инструментом для решения вышеописанных задач могут стать нейросетевые технологии. К основным направлениям систем искусственного интеллекта относят:

  • машинный перевод, включающий:
    • морфологический анализ;
    • синтаксический анализ;
    • семантический анализ;
    • прагматический анализ.
  • синтез речи и распознавание образов;
  • экспертные системы и анализ речи;
  • игры и творчество;
  • интеллектуальные роботы [3, c. 42.

Среди представленных выше направлений, выделяется машинный перевод. Электронный документооборот в первую очередь направлен на работу с документами, содержащими информацию. Эта информация обрабатывается нейронными сетями посредством анализа текста, создаются связи между словами, предложениями и абзацами. Проверкой того, как нейросетевые технологии позволяют обработать текст может послужить машинный перевод.

Долгое время самым распространенным инструментом машинного перевода был статистический перевод. И лишь в последние несколько лет Google, Microsoft и Яндекс, начали применять технологии нейронных сетей в машинном переводе. На сегодняшний день онлайн-переводчики этих компаний для улучшения работы используют гибридную систему, которая объединяет статистический и нейросетевой перевод. Благодаря нейронным сетям существенно улучшилось качество машинного перевода [4, c. 497].

Тем не менее, системы нейросетевого перевода постоянно совершенствуются. Продукты, использующие технологии нейронных сетей в отрыве от статистического перевода, являются полноценными конкурентами, ставших уже привычными, онлайн-переводчикам.

Создание нейросетевого переводчика на текущий момент – очень сложная задача. Именно поэтому, использование готового решения в системе электронного документооборота, будет лучше, как с точки зрения точности перевода, так и с точки зрения отсутствия необходимости большого числа вычислительных ресурсов, требующихся для разработки нейросетевого переводчика.

Наиболее распространенные сервисы, работающие на основе нейросетевого перевода, представлены в таблице 1:

Таблица 1.

Основные сервисы нейросетевого перевода

Наименование

Тарифный план API

Стоимость тарифного плана

DeepL

DeepL API Free

Бесплатно, 500 тыс. символов в месяц

DeepL API Pro

Недоступно в России

Reverso

Bing Microsoft Translator

Бесплатный

Бесплатно, 2 млн. символов в месяц

Стандартный перевод

$10 за млн. символов

Пользовательский перевод

$40 за млн. символов

GigaChat

Freemium (физлица)

Бесплатно, 1 млн. токенов в месяц

Базовый (юрлица)

0,2 ₽ за 1 тыс. токенов

YandexGPT

 

DeepL недоступна на территории Российской Федерации. Для использования даже бесплатной версии API требуется зарегистрироваться, введя информацию о банковской карте той страны, которая есть в перечне разрешенных.

Библиотека Reverso – reverso_api для языка Python является не официальным api, она достаточна проста и содержит лишь малую часть функционала сайта. Последняя версия релиза, согласно документации 0.0.1.beta.3 от 2021 года. Она состоит из двух частей для работы с текстом и голосом, соответственно (context и voice). Поскольку в рамках разработки информационной системы работа с голосом не предполагается, была рассмотрена только часть context.

Часть context состоит из одного класса ReversoContextAPI, содержащего два метода:

  • get_translations – возвращает все доступные переводы небольшой фразы или слова;
  • get_examples – возвращает слова и выражения с помощью встроенного искусственного интеллекта, а также их перевод.

Обратившись к сайту с помощью библиотеки HTTP запросов Requests становится понятно, что перевод целых предложений посредством get_translations невозможен по причине особенности сайта. Проблема заключается в том, что при большом объеме текста, перевод осуществляется за счет выполнения скрипта страницы сайта, результат выполнения которого не может быть получен инструментами парсинга. Решением является использование библиотеки, которая поддерживает эмуляцию браузера и возможность выставление задержки.

Для использования API Bing Microsoft Translator (BingTranslator 0.1) необходимо указать параметры идентификации (код пользователя и секретное слово). Однако, в связи с тем, что сервис не доступен на территории России, получить эти данные невозможно.

В отличие от конкурентов тарифный план GigaChat API представлен не в количестве символов, а токенах. Это связано с тем, что кроме машинного перевода продукт предоставляет доступ к другим возможностям искусственного интеллекта (генерация контента, генеративное управление знаниями, суммаризация диалогов и суфлер и многое другое). Токен может представлять собой символ, несколько символов, кусочек слова или слово целиком. В среднем в одном токене 3-4 символа, включая пробелы, знаки препинания и специальные символы.

Для доступа к GigaChat API необходимо авторизоваться с помощью Сбер ID или СберБизнес ID. После авторизации и принятия условий пользовательского соглашения, появляется возможность сгенерировать Client Secret. Этот параметр отображается только один раз и служит ключом подключения к переводчику.

Для работы GigaChat API используется GigaChain. Это фреймворк для разработки приложений с использованием больших языковых моделей, таких как GigaChat или YandexGPT.

Взаимодействие с GigaChat API происходит посредством текстовых запросов, формирование которых не требует специальных навыков. К примеру, чтобы перевести предложение на английский язык, достаточно написать следующий запрос: «переведи на английский язык предложение: …».

YandexGPT на данный момент находится на этапе закрытого тестирования, в рамках которого пользователю предлагается работа с YandexGPT Playground и YandexGPT API.

Все сервисы, представленные в таблице 1 имеют условно бесплатные тарифы для стандартного использования в качестве онлайн-переводчика. Однако, большинство из них являются зарубежными, в связи с чем их использование на территории России невозможно.

Возможности Reverso API интересны с точки зрения генерации контекста для слов и словосочетаний. Это достаточный мощный инструмент, который может быть полезен как при создании обучающего набора данных для нейронной сети, так и для рядовых задач, например, выбор перевод того или иного слова в определенном контексте. Кроме того, он полностью бесплатный и не имеет ограничений.

Отечественный продукт в лице GigaChat API предоставляет широкий спектр возможностей, многие из которых могут быть использованы в рамках информационной системы.

 

Список литературы:

  1. Варфоломеева В.А., Иванова Н.А. Электронный документооборот, его преимущества, недостатки, риски // Журнал прикладных исследований. – 2022. – С. 192–196.
  2. Электронный документооборот в России – Диадок [Электронный ресурс]. URL: https://clck.ru/36mzV2 (Дата обращения 10.11.2023).
  3. Высоцкий М.М., Травин В.В. Информационные технологии: доступно о важном. Минск: Адукацыя i выхаванне, 2021. – 96 с.
  4. Мифтахова Р.Г., Морозкина Е.А. Машинный перевод. Нейроперевод // Вестник Башкирского университета. – 2019. – С. 497–502.
Удалить статью(вывести сообщение вместо статьи): 
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.