Статья опубликована в рамках: Научного журнала «Студенческий» № 2(340)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6, скачать журнал часть 7

Библиографическое описание:

Печенкин И.В. СРАВНЕНИЕ ЭФФЕКТИВНОСТИ GRU И TRANSFORMER ДЛЯ ПРОГНОЗИРОВАНИЯ ЛЕКСИЧЕСКИХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ В РУССКОМ ЯЗЫКЕ // Студенческий: электрон. научн. журн. 2026. № 2(340). URL: https://sibac.info/journal/student/340/401054 (дата обращения: 06.03.2026).

СРАВНЕНИЕ ЭФФЕКТИВНОСТИ GRU И TRANSFORMER ДЛЯ ПРОГНОЗИРОВАНИЯ ЛЕКСИЧЕСКИХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ В РУССКОМ ЯЗЫКЕ

Печенкин Игорь Владимирович

магистрант, кафедра информационных технологий, Херсонский технический университет,

РФ, г. Геническ

COMPARISON OF THE EFFICIENCY OF GRU AND TRANSFORMER FOR PREDICTING LEXICAL SEQUENCES IN THE RUSSIAN LANGUAGE

Pechenkin Igor Vladimirovich

Student, Department of Information Technology, Kherson Technical University,

Russia, Genichesk

АННОТАЦИЯ

В статье проводится сравнительный анализ эффективности рекуррентных и трансформерных подходов для задачи прогнозирования лексических последовательности в русском языке. Объектом исследования является прогнозирование лексических последовательностей. А предмет исследования – сравнение эффективности нейронных сетей. Для примеров были выбраны архитектуры GRU и Transformer Encoder. Обучение двух моделей проводилось на художественной литературе в равных условиях: размер контекста составлял четыре слова, двадцать эпох обучения и использовались предобученные эмбеддинги Navec. Для оценки обученных моделей использовали метрики: перплексии, точности и времени обучения. После чего моделями дан прогноз следующего слова. Результаты показали, что в данных условиях архитектура GRU демонстрирует преимущество. Точность прогноза 85,6% против 27,7, перплексия 2,25 против 34,22 у Transformer Encoder. При этом среднее время обучения одной эпохи составило 15 минут для GRU, а Transformer Encoder – 26 минут. Полученные данные демонстрируют, что при ограниченном объёме данных и коротком контексте рекуррентный подход сохраняют преимущество над трансформерным в задачах прогноза лексических последовательностей. Результаты имеют практическое значение в разработках систем автодополнения текста на русском языке.

ABSTRACT

This article presents a comparative analysis of the effectiveness of recurrent and transformer-based approaches for the task of predicting lexical sequences in the Russian language. The GRU and Transformer Encoder architectures were selected for the study. Both models were trained on fiction literature under equal conditions: a context size of four words, twenty training epochs, and the use of pre-trained Navec embeddings. The trained models were evaluated using the metrics of perplexity, accuracy, and training time. The results showed that under these specific conditions, the GRU architecture demonstrated a significant advantage, achieving a prediction accuracy of 85.6% compared to 27.7% for the Transformer Encoder, and a perplexity of 2.25 compared to 34.22. Furthermore, the average training time per epoch was 15 minutes for GRU versus 26 minutes for the Transformer Encoder. The obtained data demonstrate that with a limited data volume and short context, the recurrent approach retains a clear advantage over the transformer-based approach for lexical sequence prediction tasks. These results hold practical significance for the development of text autocompletion systems in the Russian language.

Ключевые слова: прогнозирования лексических последовательности, обработка естественного языка, рекуррентные нейронные сети, трансформеры, предобученные эмбеддинги, метрики.

Keywords: lexical sequence prediction, natural language processing, recurrent neural networks, transformers, embeddings, metrics.

GRU (управляемый рекуррентный блок) представляет собой вид рекуррентной нейронной сети (РНС), как эволюционный шаг простой РНС и упрощенной версии LSTM. РНС – это, как отмечает Вейдман С., «класс нейросетей, предназначенных для обработки последовательных данных» [1, с. 190]. Анализируя литературные источники можно выделить, что РНС рассматривается как специализированный инструмент для работы с последовательностями, которые обладают внутренней памятью (состоянием) для учета временных зависимостей и которые способны сохранять внутреннее состояние (память) для учета временного контекста или порядка элементов в последовательности. Архитектура GRU по мнению Николенко С. «использует идею совмещения выходного и забывающего вентиля, а скрытое состояние совмещено со значением памяти» [2, с. 251]. То есть GRU имеет более простую структуру и меньше параметров в сравнении с LSTM (объединяет «вентили забывания» и «входа» в один «вентиль обновления» и оставляя «вентиль сброса»). Эта архитектура хорошо подходит для случаев, где важно быстрое обучение без потери точности, но нет необходимости работать с очень длинными зависимостями. То есть служит отличным компромиссом между скоростью и мощностью.

С появлением архитектур на основе трансформеров РНС отходят, постепенно, на второй план в обработке естественного языка. В различных литературных источниках и практических исследованиях она демонстрирует лучшие результаты в многих задачах. Это достигается, как указывает Фостер Д., потому что трансформер «использует последовательности слоев внимания, вместо рекуррентного слоя» [5, с. 319]. Слой внимания позволяет видеть весь контекст, к тому же этот способ полностью искореняет проблему затухание градиентов, что является важным недостатком РНС, в частности GRU.

Отметим, что в зависимости от конкретных условий таких как: объем обучающих данных, длина последовательности контекста, языковые особенности и вычислительные ресурсы – эффективность разных архитектур может существенным образом различаться.

Важно определить сохраняет ли рекуррентный подход преимущество при работе с ограниченными данными и ресурсами в русскоязычных текстах. Отсюда и актуальность исследования, связанная с необходимостью оптимального выбора эффективной архитектуры нейронных сетей для обработки русского языка. Потому, что каждый язык обладает специфическими морфологическими и синтаксическими особенностями.

Степень изученности проблемы сравнения рекуррентных архитектур с трансформерными многочисленны, но они, как правило, связаны больше с теоретическим обобщением, мы же предоставили практическую реализацию моделей и сравнение их по фактическим метрикам. Так в работе Харламова А.В., где приводится сравнительная таблица, отмечается превосходство трансформеров [6]. Однако, при ограничении параметров и в контексте художественных текстов на русском языке с разработкой работоспособных моделей – подобные сравнительные исследования ограничены.

Из приведенной выше информации выведем гипотезу исследования. В условиях ограниченного объема данных (художественный текст размером в пятьдесят тысяч слов) и коротких контекстов (четыре слова) архитектура GRU будет показывать выше эффективность по сравнению с архитектурой Transformer для задачи прогнозирования лексических последовательностей, а именно прогноза последующих слов.

Целью исследования является практический сравнительный анализ эффективности моделей на архитектуре GRU и Transformer Encoder для задачи прогнозирования лексических последовательности на русскоязычном художественном тексте.

Задачи исследования: разработать и обучить модели при равных условиях; интерпретировать полученные результаты; сравнить эффективность моделей и сформулировать выводы.

Для реализации поставленных задач была разработана система, которая использует различные методы исследования, и которая реализует две нейронные сети GRU и Transformer Encoder для прогноза следующих трех слов на русском языке.

Вычисления проводились в фреймворке PyTorch 2.8.0 так как полагается нескольким проще построение архитектур нейронных сетей, а также обладает более удобным процессом отладки программного кода, что важно в научных и исследовательских целях [3]. Оборудование использовалось с графическим процессором NVIDIA GeForce RTX 3050 с технологией CUDA версии 12.9.

На первом этапе создали словарь. Для этого использовали фильтрацию слов по наличию с помощью предобученных эмбеддингов Navec, взятые из проекта Natasha [4]. Это общепринятая практика, которая позволяет использовать знания, содержащиеся в больших текстовых корпусах, перенося их в нашу модель прогнозирования. После чего удали ненужные символы (кроме русских букв, дефиса и пробела) и заменили переносы строк на пробелы.

Далее модель GRU с размером вектора скрытого состояния равным 512, значение выявлено эмпирическим способом и является оптимальным для данной модели. Изначально бралось значение 256, но практические результаты были хуже. Далее рекуррентный слой и линейный слой с выходом размера словаря. И уже на выходе получили прогноз слов.

Модель Transformer Encoder также оптимизировалась методом проб и ошибок, сравнивались результаты. Изначально результаты были неподходящими. Но в последствии были выявлены параметры, оптимально отражающие архитектуру. Это говорит о большей сложности модели как по параметрам, так и по настройкам. По итогу главной особенностью данной модели стало: также, как и в GRU – один слой, четыре головы внимания, размер скрытого состояния 512 и линейный слой для преобразования. И на выходе получили слова, обогащенные контекстом от всех слов последовательности.

Параметры эксперимента максимально приводились к равным условиям. Размер контекста составил четыре слова. Не оптимальные значения для данных моделей, является компромиссным решением, но рабочим. Так как рекуррентный подход плохо запоминает последовательность, а трансформерный подход напротив работает с большим контекстом. Количество эпох обучения – двадцать. Размер батча – восемь. Оптимизатор для GRU – Adam (lr=0,001), а для Transformer Encoder – AdamW (lr=0,0005). Критерий качества определялся с помощью CrossEntropyLoss. Обучение моделей проводилось на книге братьев Стругацких «Трудно быть богом».

Для оценки эффективности использовали метрики. Измеряли степень неопределенности моделей относительно следующего слова последовательности с помощью перплексии (Perplexity). Эталоном является единица. Долю правильных прогнозов моделей от общего числа прогнозов определяли с помощью Accuracy (точность). Ошибки моделей при прогнозе измеряли с помощью функции потерь (Loss). Также измеряли время, затраченное моделями на обучение каждой эпохи.

В заключении модели прогнозируют слова. Для этого необходимо вести последовательность слов, то есть создать контекст, который используют модели. Предварительно мы использовали три известные фразы.

Таким способом мы получили полностью работоспособную систему. Которая предобрабатывает текст, фильтрует слова, параллельно обучает обе модели, вычисляет метрики и выводит прогноз слов.

После завершения работы нашей системы мы получили результаты, по которым сравним эффективность рекуррентных и трансформерных подходов, в задачах прогноза слов на русском языке. Loss на последней эпохе у модели GRU составил 0,7; Accuracy – 86 процентов; Perplexity – 2,3 и среднее время затраченное на каждой эпохе равен почти 16 минутам. Transformer, соответственно – 3,4;28;34 и 27. Финальные результаты обучения представлены в таблице 1.

Таблица 1

Метрики эффективности GRU и Transformer

Метрики	GRU	Transformer
Потери	0,7443	3,4267
Точность (%)	85,6	27,7
Перплексия	2,2524	34,2227
Время (мин)	15,5	26,7

Результаты обучения на двадцати эпохах по ключевым метрикам представлен на рисунке 1.

Рисунок 1. Метрики GRU и Transformer на двадцати эпохах

Прогноз лексических последовательности был осуществлен на различных фразах. «Любить иных – тяжёлый крест, а ты прекрасна без извилин», «История души человеческой едва ли не любопытнее и не полезнее истории целого народа», «Я не люблю фатального исхода от жизни никогда не устаю». И получили оригинальные прогнозы следующих слов, представленные в таблице 2.

Таблица 2

Прогноз лексических последовательностей GRU и Transformer

Начальная фраза	Прогноз GRU	Прогноз Transformer
Любить иных тяжелый крест а ты прекрасна без ...	как быть его	как я бы
История души человеческой едва ли не любопытнее и ...	был на земле	в горле а
Я не люблю фатального исхода от жизни никогда ...	и о них	не всего не

Полученные результаты подтверждают выдвинутую гипотезу. Архитектура GRU показывает лучшие показатели по метрикам, тем самым имеет преимущество по эффективности, в условиях ограничения объёма обучающих данных и короткого контекста, над Transformer.

Доля правильных прогнозов GRU больше чем у Transformer на 58 процентов. Это говорит нам о том, что GRU более эффективно улавливает зависимости. Такая большая разница свидетельствует, что трансформерным подходам требуется больше данных для обучения механизма внимания.

Результат по метрике перплексии GRU демонстрирует уверенную обученость и что ее прогноз будет соответствовать правильности построения предложений. Данная метрика GRU сильно отличается от метрики Transformer (2,3 против 34,2). Это делает явным превосходством эффективности архитектуры GRU в рамках исследования.

GRU не только точнее, но и быстрее обучается, что связано с меньшим количеством параметров и более простой архитектурой. Почти на 40 процентов предпочтительнее GRU.

Что касается прогноза слов, то представленные модели справились с этим примерно одинаково. Наблюдается не полная связность начальной фразы и прогноза моделей. Это, в первую очередь, связано с максимальным упрощением моделей, так для Transformer один слой и четыре головы внимания может быть недостаточным для сложных языковых закономерностей. Также недостаточный объем данных не способствует обучению механизма внимания. При хорошей перплексии в модели GRU ожидались лучшие прогнозы. Но они оказались незначительна лучше в сравнении. Стоит отметить, что полученные прогнозы GRU более осмысленны, так связки слов: «как быть его», «был на земле», «и о них», лаконичнее и осмысленнее чем у Transformer: «как я бы», «в горле а», «не всего не». Это может быть связано с сложностью предоставленного контекста и с тем, что модель видит только четыре последних слова. Обучение на одном тексте ограничивает обобщающую способность моделей. Данная картина результатов не является главным показателем сравнения эффективности, а лишь отражает работоспособность системы.

Проведенное исследование достигла поставленной цели – произведен практический сравнительный анализ эффективности рекуррентных и трансформерных подходов для задачи прогнозирования лексических последовательности на русскоязычном художественном тексте.

Эксперимент, проведённый в строго контролируемых условиях (ограниченный объём данных 50 тысяч слов, короткий контекст в 4 слова), подтвердил выдвинутую гипотезу. Модель на основе GRU продемонстрировала превосходство по всем ключевым метрикам. Точность в 3,1 раза выше, перплексия в 15,2 раза ниже, а время обучения в 1,7 раза быстрее. Трансформерные подходы не раскрывают свой потенциал в условия ограничения или не хватки ресурсов и данных для русского языка.

Теоретическое значение полученных результатов заключается в том, что сложные модели такие как трансформеры раскрывают свой потенциал только на больших данных и длинных контекстах с большими и сложными настройками параметров. Они уступают более простым и эффективным рекуррентным архитектурам, каким как GRU, в условиях ограниченных ресурсов.

Практически результаты представляют ценность для разработчиков, работающих над задачами обработки русского языка в условиях ограничений, допустим для систем автодополнения текста.

По итогам, можно сказать, что, если набор данных небольшой и ресурсы ограничены, GRU станет хорошим выбором, а если доступен большой объём данных и есть возможность задействовать мощные вычислительные системы необходимо использовать Transformer.

Список литературы:

Вейдман С. Глубокое обучение: легкая разработка проектов на Python. СПб.: Питер, 2021. – 272 с.
Николенко С.И. Глубокое обучение. СПб.: Питер, 2020. – 480 с.
Пойнтер Я. Программируем с PyTorch: Создание приложений глубокого обучения. СПб.: Питер, 2020. – 256 с.
Проект Natasha [Электронный ресурс] // Github. – Режим доступа. – URL: https://github.com/natasha/navec (дата обращения: 12.12.2025).
Фостер Д. Генеративное глубокое обучение. Творческий потенциал нейронных сетей. СПб.: Питер, 2020. – 336 с.
Харламов А. В., Троянов А. С. Разработка адаптивной модели управления производственной организацией на основе нейронной сети [Электронный ресурс] // КиберЛенинка. – Режим доступа. – URL: https://cyberleninka.ru/article/n/razrabotka-adaptivnoy-modeli-upravleniya-proizvodstvennoy-organizatsiey-na-osnove-neyronnoy-seti/viewer (дата обращения 12.12.2025).