Статья опубликована в рамках: CLXI Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 07 мая 2026 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
СРАВНИТЕЛЬНАЯ ОЦЕНКА МОДЕЛЕЙ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА ПРИ КЛАССИФИКАЦИИ РУССКОЯЗЫЧНЫХ ТЕКСТОВ
COMPARATIVE EVALUATION OF NATURAL LANGUAGE PROCESSING MODELS FOR CLASSIFICATION OF RUSSIAN TEXTS
Zadvorny Ilya Andreevich
Student, Department of Applied Mathematics, Moscow State University of Technology «STANKIN»,
Russia, Moscow
АННОТАЦИЯ
В статье рассматривается задача выбора модели обработки естественного языка для классификации русскоязычных текстов. Сравниваются классические линейные методы на TF-IDF-признаках, модель fastText, сверточная нейронная сеть TextCNN и трансформерная модель RuBERT. Эксперимент выполнен на двух типах корпусов: пользовательских отзывах Kinopoisk и новостных текстах Rus News. Показано, что максимальные значения macro-F1 обеспечивает RuBERT, однако преимущество трансформерной модели зависит от типа корпуса и не всегда компенсирует рост вычислительной сложности. Для прикладного выбора модели необходимо учитывать не только accuracy, но и macro-F1, weighted-F1 и поведение модели на неоднородных классах.
ABSTRACT
The article considers the problem of selecting a natural language processing model for classification of Russian texts. Classical linear methods based on TF-IDF features, fastText, TextCNN and the RuBERT transformer model are compared. The experiment uses two types of corpora: Kinopoisk user reviews and Rus News texts. The results show that RuBERT achieves the highest macro-F1 values, but its advantage depends on the dataset type and does not always compensate for the increased computational complexity. For practical model selection, accuracy should be considered together with macro-F1, weighted-F1 and model behavior on heterogeneous classes.
Ключевые слова: обработка естественного языка; классификация текстов; TF-IDF; fastText; TextCNN; RuBERT; macro-F1.
Keywords: natural language processing; text classification; TF-IDF; fastText; TextCNN; RuBERT; macro-F1.
Материалы и методы исследования
В исследовании сопоставлялись пять моделей. В качестве классических базовых решений использовались TF-IDF-признаки совместно с логистической регрессией и линейным методом опорных векторов. TF-IDF-представление позволяет повысить вес терминов, характерных для конкретного документа, и уменьшить влияние слишком частых слов корпуса [2]. Эти модели важны не только как baseline, но и как практически применимые решения для систем, где требуется высокая скорость и понятная логика классификации.
Вторая группа методов включала fastText, TextCNN и RuBERT. Модель fastText учитывает подсловные n-граммы, что существенно для русского языка с большим количеством словоизменительных форм [3]. TextCNN применяет сверточные фильтры к последовательности токенов и извлекает локальные шаблоны, характерные для классов [4]. RuBERT относится к трансформерным моделям, основанным на двунаправленном контекстном представлении текста; архитектурная база BERT описана в [5], а адаптация таких моделей к русскому языку рассмотрена в [6].
Для проверки использовались два корпуса с различной природой текстов. Kinopoisk представляет задачу анализа тональности пользовательских отзывов [7]. Такие тексты субъективны, различаются по длине, содержат эмоциональные оценки, разговорные обороты и смешанные мнения. Rus News отражает тематическую классификацию новостей, где лексика формальнее, а класс определяется предметным содержанием текста [9]. Совместное использование двух корпусов позволяет не переносить выводы, полученные на отзывах, на новости без проверки.
Основными метриками являлись accuracy, macro-F1 и weighted-F1. Accuracy показывает общую долю правильных ответов, но при дисбалансе классов может быть завышенной. Weighted-F1 также зависит от распределения классов, поскольку крупные категории получают больший вес. Macro-F1 усредняет качество по классам одинаково, поэтому сильнее выявляет ошибки на малочисленных категориях. Именно эта метрика использовалась как основной показатель сравнения.
Результаты эксперимента
Итоговые значения показывают, что характер корпуса существенно влияет на ранжирование моделей. На Kinopoisk максимальное значение macro-F1 получила RuBERT — 0,6764. Однако fastText отстал минимально: его macro-F1 составил 0,6746, при этом accuracy и weighted-F1 оказались выше, чем у RuBERT. Это означает, что трансформерная модель лучше сбалансировала качество между классами, но не дала резкого преимущества в общей доле правильных ответов.
Таблица 1.
Итоговые показатели качества моделей на тестовых выборках
|
Датасет |
Модель |
Accuracy |
Macro-F1 |
Weighted-F1 |
|
Kinopoisk |
RuBERT |
0,7935 |
0,6764 |
0,8081 |
|
Kinopoisk |
fastText |
0,8345 |
0,6746 |
0,8256 |
|
Kinopoisk |
TF-IDF + LR |
0,7733 |
0,6603 |
0,7954 |
|
Kinopoisk |
TextCNN |
0,7705 |
0,6575 |
0,7915 |
|
Kinopoisk |
TF-IDF + SVM |
0,8159 |
0,6513 |
0,8098 |
|
Rus News |
RuBERT |
0,9017 |
0,9012 |
0,9009 |
|
Rus News |
fastText |
0,8704 |
0,8699 |
0,8701 |
|
Rus News |
TF-IDF + SVM |
0,8600 |
0,8636 |
0,8586 |
|
Rus News |
TF-IDF + LR |
0,8490 |
0,8540 |
0,8476 |
|
Rus News |
TextCNN |
0,8228 |
0,8270 |
0,8229 |
На Rus News различия выражены заметнее. RuBERT достиг macro-F1 0,9012, fastText — 0,8699, линейный SVM на TF-IDF — 0,8636. Тематическая классификация новостей оказалась более благоприятной для всех моделей, чем анализ тональности отзывов. Это объясняется тем, что новостные категории обычно связаны с устойчивыми лексическими маркерами: спорт, экономика, происшествия, культура и иные рубрики имеют собственные наборы терминов. В отзывах о фильмах граница между классами менее формальна: пользователь может одновременно хвалить актерскую игру и критиковать сюжет, использовать иронию или описывать нейтральные детали без явной оценки.
Для Kinopoisk важен разрыв между accuracy и macro-F1. Например, линейный SVM имеет accuracy 0,8159, но macro-F1 0,6513. Следовательно, высокая общая доля правильных ответов достигается преимущественно за счет крупных классов. Для исследовательского вывода такая модель слабее, чем кажется по accuracy. В прикладной системе это означает риск игнорирования редких или неоднозначных классов, что особенно критично при модерации, анализе жалоб или выявлении негативных отзывов.
TextCNN не стала лидером ни на одном корпусе. Это не означает бесполезность сверточных архитектур, но показывает ограниченность выбранной конфигурации в сравнении с fastText и RuBERT. Сверточная сеть хорошо извлекает локальные шаблоны, однако для русского языка и неоднородных текстов ей может не хватать контекстной глубины трансформера и подсловной устойчивости fastText. Кроме того, качество нейросетевой модели сильнее зависит от параметров обучения, размера корпуса и процедуры регуляризации.
Заключение
Полученные результаты опровергают упрощенную схему выбора «самой современной» модели. RuBERT действительно обеспечивает лучшее значение macro-F1 на обоих корпусах, но величина выигрыша различна. На новостях преимущество трансформера над fastText составляет 0,0313 macro-F1, тогда как на отзывах разница составляет только 0,0018. Для исследовательской задачи это фиксирует лидерство RuBERT, но для промышленного внедрения такой выигрыш необходимо сопоставлять с задержкой инференса, размером модели и инфраструктурными ограничениями.
fastText показал устойчивую позицию на обоих типах данных. Его сильная сторона заключается в способности использовать символьные n-граммы, благодаря чему модель лучше переносит различия в словоформах и редкие токены. Для русскоязычных текстов это практически значимо: одна и та же лексема может встречаться во множестве грамматических форм, и модель, игнорирующая подсловную структуру, теряет часть статистической информации.
Линейные TF-IDF-модели уступают по macro-F1, но остаются рациональной точкой отсчета. Они быстро обучаются, дают понятные признаки и позволяют анализировать вклад отдельных слов и n-грамм. В задачах с ограниченными ресурсами или при необходимости объяснять решение пользователю такие модели могут быть предпочтительнее, чем непрозрачные нейросетевые архитектуры. Ошибка возникает тогда, когда их качество оценивается только по accuracy без анализа распределения ошибок по классам.
Список литературы:
- Большакова Е. И., Воронцов К. В., Ефремова Н. Э., Клышинский Э. С., Лукашевич Н. В., Сапин А. С. Автоматическая обработка текстов на естественном языке и анализ данных: учеб. пособие. М.: Изд-во НИУ ВШЭ, 2017. 269 с. URL: https://www.hse.ru/data/2017/08/12/1174382135/NLP_and_DA.pdf (дата обращения: 02.05.2026).
- Scikit-learn developers. TfidfVectorizer: scikit-learn documentation [Электронный ресурс]. URL: https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html (дата обращения: 02.05.2026).
- Bojanowski P., Grave E., Joulin A., Mikolov T. Enriching Word Vectors with Subword Information // Transactions of the Association for Computational Linguistics. 2017. Vol. 5. P. 135–146. DOI: 10.1162/tacl_a_00051.
- Kim Y. Convolutional Neural Networks for Sentence Classification // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. 2014. P. 1746–1751. DOI: 10.3115/v1/D14-1181.
- Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // Proceedings of NAACL-HLT 2019. 2019. P. 4171–4186. DOI: 10.18653/v1/N19-1423.
- Kuratov Y., Arkhipov M. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language [Электронный ресурс]. arXiv:1905.07213. 2019. URL: https://arxiv.org/abs/1905.07213 (дата обращения: 02.05.2026).
- blinoff. Kinopoisk: dataset card in Hugging Face Hub [Электронный ресурс]. URL: https://huggingface.co/datasets/blinoff/kinopoisk (дата обращения: 02.05.2026).
- data-silence. rus_news_classifier: dataset card in Hugging Face Hub [Электронный ресурс]. URL: https://huggingface.co/datasets/data-silence/rus_news_classifier (дата обращения: 02.05.2026).
дипломов

