Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: CXII Международной научно-практической конференции «Экспериментальные и теоретические исследования в современной науке» (Россия, г. Новосибирск, 30 апреля 2025 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Суворов И.С., Кочарян Ю.Г. ЭФФЕКТИВНОСТЬ FEW-SHOT LEARNING В МАШИННОМ ПЕРЕВОДЕ ПРИ ПОМОЩИ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ // Экспериментальные и теоретические исследования в современной науке: сб. ст. по матер. CXII междунар. науч.-практ. конф. № 4(104). – Новосибирск: СибАК, 2025.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

ЭФФЕКТИВНОСТЬ FEW-SHOT LEARNING В МАШИННОМ ПЕРЕВОДЕ ПРИ ПОМОЩИ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ

Суворов Иван Сергеевич

магистрант, Сочинский государственный университет,

РФ, г. Сочи

Кочарян Юлия Гамлетовна

канд. филол. наук, доцент, доцент кафедры романо-германской и русской филологии, Сочинский государственный университет,

РФ, г. Сочи

THE EFFECTIVENESS OF FEW-SHOT LEARNING IN MACHINE TRANSLATION USING LARGE LANGUAGE MODELS

 

Ivan Suvorov

Sochi State University, Master’s Degree Student,

Russia, Sochi

Julia Kocharyan

Candidate of Philological Sciences, Docent Sochi State University, Associate Professor of the Roman-German and Russian Philology Department

Russia, Sochi

 

АННОТАЦИЯ

В данной работе исследуется эффективность обучения на ограниченных примерах при автоматическом переводе текстов с русского языка на межславянский. Эксперимент проводился на выборке из 70 пар предложений, разделённых на обучающую и тестовую части. Результаты демонстрируют, что увеличение количества контекстных примеров (от 0 до 10) повышает точность перевода на 30%, при этом наиболее значительный прирост наблюдается при использовании 5–10 обучающих пар.

ABSTRACT

This article deals with the effectiveness study of few-shot learning of automatic texts translation from Russian into inter-Slavic. The experiment was conducted on a sample of 70 pairs of sentences divided into training and test parts. The results show that increasing the number of contextual examples (from 0 to 10) increases translation accuracy by 30%, with the most significant increase observed when using 5-10 learning pairs.

 

Ключевые слова: обучение на нескольких примерах; машинный перевод; межславянский язык; обработка данных на естественном языке; русский язык

Keywords: few-shot learning; machine translation; inter-Slavic language; data processing in natural language; Russian language.

 

Межславянский язык, являясь искусственным языком, представляет уникальные вызовы для автоматического перевода из-за ограниченности доступных данных [1]. Few-shot обучение позволяет эффективно использовать небольшие объемы размеченных данных для построения точных моделей. В статье представлен обзор методологии, экспериментальных результатов и перспектив дальнейшего развития данного подхода.

Межславянский машинный перевод представляет собой важное направление исследований в области обработки естественного языка, поскольку славянские языки, несмотря на общие исторические корни и лингвистическую близость, обладают значительным разнообразием грамматических, лексических и синтаксических особенностей. Современные системы машинного перевода, основанные на глубоком обучении, демонстрируют высокую эффективность для крупных языков, таких как английский или китайский, но сталкиваются с существенными ограничениями при работе с менее ресурсообеспеченными славянскими языками [2]. Это связано как с недостатком параллельных корпусов, так и с отсутствием инструментов, учитывающих специфику внутригрупповых языковых связей. В условиях растущего интереса к сохранению лингвистического наследия и укрепления межкультурной коммуникации в славянском мире разработка методов перевода, способных функционировать при дефиците данных, приобретает стратегическое значение.

Ключевой сложностью при создании переводных моделей для славянских языков является ограниченность доступных параллельных корпусов. Например, для пар, включающих сербский, хорватский, словацкий объем данных часто не превышает нескольких миллионов предложений, тогда как для английско-немецкой или английско-французской пар требуется порядка миллиарда примеров для достижения сопоставимого качества [3]. Дисбаланс усугубляется фрагментацией диалектов, архаичных форм и региональных вариантов, что делает сбор репрезентативных данных трудоемкой задачей. Традиционные подходы к машинному обучению, требующие масштабных обучающих выборок, оказываются неприменимыми в таких условиях, что стимулирует поиск альтернативных решений [4].

Few-shot методы предлагают элегантный выход из ситуации дефицита данных, позволяя строить эффективные модели на основе минимального количества примеров. Эти подходы, опирающиеся на мета-обучение, трансферное обучение и архитектуры с вниманием, способны захватывать общие паттерны языковой структуры, а затем адаптировать их к конкретным задачам с помощью нескольких десятков или сотен параллельных предложений [5]. Для межславянских языков это означает возможность использования предобученных моделей на богатых корпусах (например, русском или польском) с последующей настройкой на узкоспециализированные или малоизученные языки. Такой подход не только снижает требования к данным, но и открывает путь к созданию универсальных систем перевода, учитывающих как межъязыковые универсалии, так и уникальные черты отдельных славянских культур.

Межславянский язык, как искусственный лингвистический конструктор, представляет особый интерес для исследований в области машинного перевода. В отличие от естественных языков, он обладает высокой степенью регулярности, что теоретически должно упрощать задачу автоматической генерации текста. Однако недостаток больших размеченных корпусов ограничивает применение стандартных методов машинного обучения.

В данной работе рассматривается подход few-shot обучение, при котором модель адаптируется к задаче на основе небольшого числа предоставленных примеров [6]. Основная гипотеза заключается в том, что даже ограниченный набор обучающих пар (5–10 предложений) может существенно улучшить качество перевода по сравнению с zero-shot режимом.

Цель эксперимента

Проверить, как количество примеров (few-shot learning) влияет на качество перевода с русского на межславянский язык при помощи LLM DeepSeek.

DeepSeek-V3 представляет собой модель, основанную на архитектуре Transformer с 2023 года обучения.

Ключевые параметры:

  • Объем обучающих данных: ~10^12 токенов многоязычных текстов
  • Поддержка языков: 128 языков, включая славянскую группу
  • Контекстное окно: 128K токенов
  • Особенность: сохранение знаний о редких языках через transfer learning

Для эксперимента использовался параллельный корпус из 70 предложений на русском и межславянском языках, охватывающий разнообразные лексико-грамматические конструкции. Выборка была разделена на обучающую часть (50 пар) – для few-shot контекста и тестовую часть (20 пар) – для оценки точности.

Для каждого тестового предложения применялись три стратегии:

  1. Zero-shot: Перевод без предварительных примеров.
  2. Few-shot (5 примеров): Случайно выбранные 5 пар из обучающей выборки.
  3. Few-shot (10 примеров): 10 случайных пар.

Качество перевода оценивалось по двум метрикам: полное совпадение с эталоном и частичное совпадение (семантическая эквивалентность с допустимыми морфологическими вариациями).

Результаты эксперимента показаны на таблице 1.

Таблица 1.

Результаты few-shot обучения

Метод

Полное совпадение

Частичное совпадение

Zero-shot

35% (7/20)

60% (12/20)

Few-shot (5)

55% (11/20)

80% (16/20)

Few-shot (10)

65% (13/20)

90% (18/20)

                                      

Проведенный эксперимент подтвердил эффективность few-shot подхода при переводе с русского на межславянский язык. Включение в контекст даже небольшого числа примеров (5–10 пар) повышает точность перевода на 25–30% по сравнению с zero-shot режимом, что свидетельствует о способности модели успешно выявлять и воспроизводить грамматические и лексические закономерности межславянского языка. Наибольший прирост качества наблюдается при обработке устойчивых синтаксических конструкций, тогда как основные ошибки связаны с вариативностью морфологии (склонение местоимений, выбор глагольных форм) и отсутствием строгой стандартизации в лексике. Полученные результаты демонстрируют перспективность few-shot обучения для работы с искусственными и малопредставленными языками, где объем тренировочных данных ограничен.

Дальнейшие исследования могли бы сосредоточиться на оптимизации отбора контекстных примеров и интеграции дополнительных лингвистических правил для минимизации системных ошибок. Особое внимание следует уделить стандартизации межславянской морфологии, так как именно неоднозначность в склонениях и спряжениях остается ключевым препятствием для достижения near-human качества перевода.

Примеры переводов:

1. Zero-shot (без примеров)

  • Вход: "Я говорил с ними об игре в бридж и гольф"
  • Вывод: "Говорил јесм с њими о игри в бриџ и голф"

Ошибка: Неточный порядок слов (в межславянском чаще "о бриџу").

2. Few-shot (5 примеров)

  • Вход: "Он понимает все на свете"
  • Вывод: "Он разумеје все на свете"
  • Эталон: "Он умеје разумети все"

Улучшение: Модель правильно использовала глагол "разумети".

3. Few-shot (10 примеров)

  • Вход: "Взрослые никогда ничего не понимают сами"
  • Вывод: "Дорастли никогда ничто не разумејут сами"
  • Эталон: "Дорастли никогда не разумејут нито сами"

Почти идеально: Разница только в порядке слов.

Для достижения оптимальных результатов при переводе на межславянский язык рекомендуется использовать 10–15 контекстных примеров, что позволяет модели точнее адаптироваться к специфике целевого языка. Особое внимание следует уделять разнообразию грамматических структур в обучающих образцах, включая различные временные формы, наклонения и синтаксические конструкции. Дополнительное уточнение семантики сложных лексем через поясняющие комментарии (например, явное указание эквивалентов для многозначных слов) способствует снижению количества лексических ошибок.

Реализация этих принципов особенно важна при работе с искусственными языковыми системами, где отсутствие строгих стандартов требует более тщательного подбора обучающего материала. Дальнейшее совершенствование подходов может включать разработку специализированных шаблонов для частотных грамматических явлений и создание расширенных словарей синонимичных соответствий.

Проведённое исследование наглядно продемонстрировало эффективность применения few-shot обучения для задач перевода на межславянский язык. Экспериментальные данные свидетельствуют о стабильном улучшении качества перевода пропорционально количеству предоставляемых контекстных примеров. Наибольший качественный скачок (+30% к точности) наблюдается при использовании 10 обучающих образцов, что подтверждает гипотезу о высокой адаптивности модели к грамматическим и лексическим особенностям межславянского языка [7].

Особое внимание следует уделить стандартизации межславянской лексики и разработке унифицированных грамматических шаблонов, что позволит минимизировать характерные ошибки в склонении местоимений и вариативности глагольных форм. Перспективным представляется также создание специализированного интерфейса для интерактивного обучения модели с возможностью коррекции в реальном времени.

Реализация этих направлений позволит не только улучшить качество автоматического перевода, но и внести вклад в развитие цифровых ресурсов межславянского языка, способствуя его более активному использованию в академической и культурной сферах.

 

Список литературы:

  1. Словарь межславянской лексики [Электронный ресурс] // Славянский лингвистический центр. - URL: https://interslavic-dictionary.com (дата обращения: 20.04.2025)
  2. Рюкова А. Р. КОРПУСНО-ОРИЕНТИРОВАННЫЕ ИССЛЕДОВАНИЯ ЯЗЫКА: КРАТКИЙ ОБЗОР ДОСТИЖЕНИЙ И ТРУДНОСТЕЙ // Russian Linguistic Bulletin. 2024. №1 (49). URL: https://cyberleninka.ru/article/n/korpusno-orientirovannye-issledovaniya-yazyka-kratkiy-obzor-dostizheniy-i-trudnostey (дата обращения: 25.04.2025).
  3. Маркова Елена Михайловна Лексиконы современных славянских языков: сходства и различия // Вестник ТГГПУ. 2015. №4 (42). URL: https://cyberleninka.ru/article/n/leksikony-sovremennyh-slavyanskih-yazykov-shodstva-i-razlichiya (дата обращения: 26.04.2025).
  4. Марьин Д. В. Искусственные языки как модель в процессе лингвистических исследований // Сибирский филологический журнал. 2007. №4. URL: https://cyberleninka.ru/article/n/iskusstvennye-yazyki-kak-model-v-protsesse-lingvisticheskih-issledovaniy (дата обращения: 26.04.2025).
  5. Shovkoplias G.F., Strokov D.A., Kasantsev D.V., Vatian A.S., Asadulaev A.A., Tomilov I.V., Shalyto A.A., Gusarova N.F. IMPROVING SIGN LANGUAGE PROCESSING VIA FEW-SHOT MACHINE LEARNING // Научно-технический вестник информационных технологий, механики и оптики. 2022. №3. URL: https://cyberleninka.ru/article/n/improving-sign-language-processing-via-few-shot-machine-learning (дата обращения: 27.04.2025).
  6. Прошина М. В. СОВРЕМЕННЫЕ МЕТОДЫ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА: НЕЙРОННЫЕ СЕТИ // Экономика строительства. 2022. №5. URL: https://cyberleninka.ru/article/n/sovremennye-metody-obrabotki-estestvennogo-yazyka-neyronnye-seti (дата обращения: 28.04.2025).
  7. Методика оценки качества машинного перевода [Электронный ресурс] // Журнал Computational Linguistics. - URL: https://cljournal.org/mt-evaluation (дата обращения: 30.04.2024)
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий