Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: LXXXVI Международной научно-практической конференции «Вопросы технических и физико-математических наук в свете современных исследований» (Россия, г. Новосибирск, 23 апреля 2025 г.)

Наука: Технические науки

Секция: Информатика, вычислительная техника и управление

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Назарова В.В., Соловьева Я.В. СРАВНЕНИЕ NLP-МОДЕЛЕЙ НА ЗАДАЧЕ СУММАРИЗАЦИИ ТЕКСТОВ НА РУССКОМ ЯЗЫКЕ // Вопросы технических и физико-математических наук в свете современных исследований: сб. ст. по матер. LXXXVI междунар. науч.-практ. конф. № 4(77). – Новосибирск: СибАК, 2025. – С. 56-63.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

СРАВНЕНИЕ NLP-МОДЕЛЕЙ НА ЗАДАЧЕ СУММАРИЗАЦИИ ТЕКСТОВ НА РУССКОМ ЯЗЫКЕ

Назарова Виктория Викторовна

студент, Самарский национальный исследовательский университет имени академика С. П. Королева,

РФ, г. Самара

Соловьева Яна Владимировна

доцент, кандидат тех. наук, Самарский национальный исследовательский университет имени академика С. П. Королева,

РФ, г. Самара

COMPARISON OF NLP MODELS ON THE TASK OF SUMMARIZING TEXTS IN RUSSIAN

 

Victoria Nazarova

Student, Samara National Research University named after Academician S. P. Korolev

Russia, Samara

Yana Solovyova

Associate Professor, Candidate of Technical Sciences, Samara National Research University named after Academician S. P. Korolev

Russia, Samara

 

АННОТАЦИЯ

Статья представляет собой сравнительный анализ наиболее передовых моделей обработки естественного языка (NLP), ориентированных на автоматическое создание кратких и информативных резюме русскоязычных текстов. Основное внимание уделено современным архитектурам на основе механизма внимания (transformer-based models), таким как mBART, T5 и GPT-3. Эти модели характеризуются наличием многослойных механизмов внимания, кодирующих и декодирующих слоев, обеспечивающих эффективное понимание контекста и формирование содержательных выводов. Исследуются особенности реализации каждой из рассмотренных моделей применительно к русскому языку, оцениваются различия в производительности на стандартных тестовых наборах, измеряемые такими показателями качества, как ROUGE (ROUGE-1, ROUGE-2 и ROUGE-L), BLEU и Perplexity. Полученные результаты полезны для разработчиков приложений, занимающихся обработкой больших объемов русскоязычной информации, и представляют интерес для исследователей области машинного обучения и искусственного интеллекта.

ABSTRACT

The article presents a comparative analysis of the most advanced natural language processing (NLP) models focused on the automatic creation of short and informative summaries of Russian-language texts. The main focus is on modern attention-based architectures (transformer-based models) such as mBART, T5 and GPT-3. These models are characterized by the presence of multilayered attention mechanisms, encoding and decoding layers that provide effective understanding of the context and the formation of meaningful conclusions. The features of the implementation of each of the considered models in relation to the Russian language are investigated, differences in performance on standard test kits are evaluated, measured by such quality indicators as ROUGE (ROUGE-1, ROUGE-2 and ROUGE-L), BLEU and Perplexity. The results obtained are useful for application developers involved in processing large amounts of Russian-language information, and are of interest to researchers in the field of machine learning and artificial intelligence.

 

Ключевые слова: суммаризация, NLP, mBART, T5, GPT-3.

Keywords: summarization, NLP, mBART, T5, GPT-3.

 

1 Введение

Данная работа направлена на решение вопроса о том, какая из существующих моделей обработки естественного языка (NLP), применяемых для суммаризации, наилучшим образом подходит для анализа русскоязычной академической литературы. Суммаризация представляет собой автоматический процесс сжатия текста путем выделения ключевых идей, фактов и сведений, представляя их в виде лаконичного резюме, сохраняющего основное содержание оригинала [1].

Эффективность различных предварительно обученных NLP-моделей оценивалась посредством тестирования на корпусе текстов, полученных из открытых источников онлайн-библиотеки CyberLeninka. Использовались научные статьи и авторские аннотации на русском языке. Объем выборки составил 825 статей, отобранных случайно по тематике науки и типу издания.

2 Модели и данные

В данном исследовании были выбраны три наиболее популярных открытых модели обработки естественного языка (NLP), предназначенные для суммирования текстов на русском языке и доступные на платформе HuggingFace Hub. Все они обучены на едином корпусе русскоязычных новостей Gazeta [2]:

Языковая модель GPT-3 – это предобученный генеративный трансформер, использующий механизм внимания для анализа контекста и предсказания вероятностных последовательностей слов. Помимо основного назначения — генерации связного текста, GPT-3 способна решать широкий спектр задач, таких как автоматический перевод, составление текстов и ответы на вопросы. В рамках настоящего исследования применялась специализированная версия модели GPT-3, адаптированная под задачи суммаризации русскоязычных текстов и обозначаемая на платформе HuggingFace Hub как RuGPT3MediumSumGazeta [3].

Модель T5 – эта архитектура основана на концепции трансформации одного текста в другой. Входящий текст сопровождается заданием («суммаризация», «перевод» и др.) и моделью преобразовывается в целевой текст, соответствующий этому запросу. Обучение проводится на множестве различных типов задач: от переводов и вопросов-ответов до классификации текстов. Использованная модель RuT5Base представляет собой вариант T5, прошедший обучение именно на задаче суммаризации российских новостных текстов (Gazeta). Кодовое название модели на платформе HuggingFace Hub — RuT5SumGazeta [4].

Мультиязычная модель mBART является расширением архитектуры BART с поддержкой множества языков. Она включает уникальный идентификатор для каждого языка, позволяя эффективно обрабатывать тексты на разных языках параллельно. Во время обучения используется метод обучения с подкреплением, улучшающий качество перевода и адаптации к новым данным. Эта модель тоже демонстрирует высокие способности в анализе зависимостей внутри предложений благодаря механизму трансформеров. Применённая в работе модель MBARTRuSumGazeta специально подготовлена для решения задачи суммаризации русских текстов из корпуса Gazeta [5].

3 Метрики

Оценка эффективности языковых моделей осуществляется двумя основными способами.

Внешняя оценка (external evaluation) предполагает использование модели непосредственно для выполнения своей основной задачи (например, суммаризации текста), после чего анализируются показатели точности и потери. Этот подход считается наилучшим, поскольку позволяет объективно сравнить производительность моделей на практике. Примеры внешних метрик: BLEU, ROUGE.

Внутренняя оценка (internal evaluation) оценивает саму модель независимо от прикладных задач. Такой подход менее информативен для конкретного случая, однако удобен для быстрой сравнительной оценки нескольких моделей. Пример внутренней метрики: perplexity.

В данной работе использовались следующие метрики:

BLEU – алгоритм сравнения сгенерированного текста с эталоном путём сопоставления совпадающих n-грамм (последовательности n слов). Чем больше сходства с эталонным текстом, тем выше показатель BLEU.

Обозначим C как множество слов сгенерированного текста, а R — как множество слов эталонного текста. Здесь cи rсоответствуют i-му слову из соответствующих списков слов. Предположим, что n — максимальная длина используемых n-грамм. Таким образом, BLEU-метрика оценивает качество полученного текста посредством расчета взвешенной средней арифметической значений точности для n-грамм различного порядка [6].

где:  – точность n-грамм (последовательности n слов) в сгенерированном тексте;

N — количество предложений в корпусе, ci - i-е сгенерированное слово, ri -i-е слово эталона;

 – количество вхождений n-грамм в ri;

 – количество вхождений n-грамм в ci;

 – штраф за краткость.

ROUGE – семейство метрик, оценивающих количество общих n-грамм между сгенерированными и эталонными текстами. Выделяют ROUGE-1 (считает, сколько отдельных слов из сгенерированного резюме встречается в референсном резюме), ROUGE-2 (считает, сколько пар слов из сгенерированного резюме встречается в референсном резюме) и ROUGE-L (считает, сколько слов в сгенерированном резюме образуют самую длинную общую последовательность слов в референсном резюме).

Пусть S — это сгенерированный текст, а G — эталонный текст. Соответственно, si и gi обозначают i-е слова в каждом из этих текстов. Метрика ROUGE-N оценивает качество сгенерированного текста S, определяя долю совпадающих n-грамм между выходными данными модели и эталоном. Конкретнее, для ROUGE-1 учитываются отдельные слова, для ROUGE-2 — пары слов, и так далее. Полученное количество совпадающих n-грамм делится на общее число n-грамм в сгенерированном тексте S [6].

где:  – число вхождений слова si в обоих текстах S и G;

 – общее число n-грамм si в Si

 – самая длинная общая последовательность слов в S и Gi

 –  максимальное значение между количеством слов в S и G.

Perplexity – показатель, используемый для измерения способности языковой модели предсказывать последующие слова в тексте. Хорошей модели соответствует низкая величина perplexity, означающая высокую вероятность правильного выбора следующего слова [7].

где:  – набор слов в предложении;

 – вероятность того, что слово i будет следовать за словом i-1.

4 Методология

Исследование проводилось по следующей схеме:

  • подготавливались данные, состоящие из оригинальной авторской аннотации и трех автоматизированных сокращений (суммаризаций), созданных различными NLP-моделями для каждой отдельной статьи.
  • затем выполнялось сравнение всех полученных резюме с оригинальными аннотациями по степени близости содержания.
  • после этого рассчитывались значения пяти ключевых метрик для каждой модели и каждой статьи.
  • итоговые оценки вычислялись путем усреднения результатов по каждой метрике, формируя таким образом общую оценку производительности моделей на задаче суммаризации текстов.

5 Результаты и выводы

Проведённое исследование показало, что среди проанализированных моделей на задаче суммаризации русскоязычных текстов лидирует модель T5. По результатам тестирования, эта модель продемонстрировала лучшие характеристики согласно выбранным статистическим показателям.

Таблица 1.

Результаты исследования на всем объеме данных

Модель

BLEU

ROUGE-1

ROUGE-2

ROUGE-L

Perplexity

mBART

10.3

30.3

15.8

26.3

40.8

T5

11.7

23.1

16.0

28.9

34.3

GPT-3

5.7

19.8

9.4

18.7

45.8

 

Высокие результаты T5 объясняются особенностями её архитектуры, позволяющей эффективнее справляться с задачей сжатия текста, а также оптимизированными параметрами настройки относительно аналогов вроде mBART и GPT-3.

Дальнейшие шаги включают увеличение объёма выборки статей, тестирование большего количества моделей, а также сегментацию проверочных данных по различным жанрам текстов с целью детализировать результаты по отдельным направлениям исследований.

 

Список литературы:

  1. Ребенок К.В. Эффективность нейросетевых алгоритмов в автоматическом реферировании и суммаризации текста // Вестник НГУ. Серия: Информационные технологии. – 2024. – Т. 22, №4. – С. 369–385.
  2. Gusev I. Gazeta - Dataset for Automatic Summarization of Russian News [Электронный ресурс]. – Режим доступа: https://huggingface.co/datasets/IlyaGusev/gazeta (дата обращения: 10.04.2025)
  3. Gusev I. RuGPT3MediumSumGazeta — Model for abstractive summarization for Russian based on rugpt3medium [Электронный ресурс]. – Режим доступа: https://huggingface.co/IlyaGusev/rugpt3medium_sum_gazeta (дата обращения: 10.04.2025)
  4. Gusev I. RuT5SumGazeta — Model for abstractive summarization for Russian based on rut5- base [Электронный ресурс]. – Режим доступа: https://huggingface.co/IlyaGusev/rut5_base_sum_gazeta (дата обращения: 10.04.2025)
  5. Gusev I. MBARTRuSumGazeta — Model for abstractive summarization for Russian based on rumbart-base [Электронный ресурс]. – Режим доступа: https://huggingface.co/IlyaGusev/mbart_ru_sum_gazeta (дата обращения: 10.04.2025)
  6. ROUGE and BLEU scores for NLP model evaluation [Электронный ресурс]. – Режим доступа: https://clementbm.github.io/theory/2021/12/23/rouge-bleu-scores.html (дата обращения: 13.04.2025)
  7. Perplexity for LLM Evaluation [Электронный ресурс]. – Режим доступа: Perplexity for LLM Evaluation | GeeksforGeeks (дата обращения: 13.04.2025)
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий