Статья опубликована в рамках: CLXI Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 07 мая 2026 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Задворный И.А. РЕСУРСНАЯ ЭФФЕКТИВНОСТЬ NLP-МОДЕЛЕЙ В ЗАДАЧАХ КЛАССИФИКАЦИИ РУССКОЯЗЫЧНЫХ ТЕКСТОВ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. CLXI междунар. студ. науч.-практ. конф. № 5(159). URL: https://sibac.info/archive/technic/5(159).pdf (дата обращения: 04.06.2026)

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

РЕСУРСНАЯ ЭФФЕКТИВНОСТЬ NLP-МОДЕЛЕЙ В ЗАДАЧАХ КЛАССИФИКАЦИИ РУССКОЯЗЫЧНЫХ ТЕКСТОВ

Задворный Илья Андреевич

студент, кафедра прикладной математики, Московский государственный технологический университет «СТАНКИН»,

РФ, г. Москва

RESOURCE EFFICIENCY OF NLP MODELS IN RUSSIAN TEXT CLASSIFICATION TASKS

Zadvorny Ilya Andreevich

Student, Department of Applied Mathematics, Moscow State University of Technology «STANKIN»,

Russia, Moscow

АННОТАЦИЯ

В статье анализируется практическая применимость NLP-моделей для классификации русскоязычных текстов с позиции вычислительных затрат. Рассматриваются время обучения, скорость инференса, размер сохраненной модели, потребление RAM и VRAM. Сопоставлены TF-IDF-модели с линейными классификаторами, fastText, TextCNN и RuBERT на корпусах Kinopoisk и Rus News. Показано, что лучшая метрика качества не всегда соответствует наиболее рациональному решению: RuBERT обеспечивает высокий macro-F1, но требует большего времени инференса и видеопамяти, тогда как линейные модели и TextCNN могут быть выгоднее при ограничениях внедрения. Предложена логика выбора модели по совокупности качества, скорости, компактности и воспроизводимости эксперимента.

ABSTRACT

The article analyzes the practical applicability of NLP models for Russian text classification from the perspective of computational costs. Training time, inference speed, model size, RAM and VRAM consumption are considered. TF-IDF models with linear classifiers, fastText, TextCNN and RuBERT are compared on the Kinopoisk and Rus News corpora. The results show that the best quality metric does not always correspond to the most rational solution: RuBERT provides high macro-F1 but requires more inference time and GPU memory, while linear models and TextCNN may be more efficient under deployment constraints. A model selection logic based on quality, speed, compactness and experiment reproducibility is proposed.

Ключевые слова: NLP; классификация текстов; вычислительная эффективность; инференс; RuBERT; TF-IDF; воспроизводимость эксперимента.

Keywords: NLP; text classification; computational efficiency; inference; RuBERT; TF-IDF; experiment reproducibility.

Методика оценки

В эксперименте сравнивались TF-IDF + Logistic Regression, TF-IDF + Linear SVM, fastText, TextCNN и RuBERT. Для оценки использовались два корпуса: Kinopoisk и Rus News. Данные подготавливались в едином пайплайне, а результаты фиксировались по одинаковому разбиению на обучающую, валидационную и тестовую части. Такой подход необходим, чтобы сравнение моделей отражало различие алгоритмов, а не различие исходных условий.

Для управления экспериментами важна воспроизводимость. Недостаточно сохранить итоговый показатель macro-F1: необходимо фиксировать конфигурацию запуска, версию модели, параметры разбиения, seed, устройство выполнения, время обучения и файлы предсказаний. Библиотека datasets удобна для унифицированной работы с корпусами [4], а механизм Pipeline в scikit-learn позволяет уменьшить риск расхождения между этапами векторизации и классификации [5]. Для нейросетевых моделей дополнительно критичны параметры токенизации, длина последовательности, batch size и выбранная эпоха.

Ресурсная эффективность оценивалась по пяти группам показателей. Первая группа — время обучения, отражающее стоимость исследовательского цикла. Вторая — скорость инференса на один объект, определяющая пригодность модели к обработке потока обращений. Третья — размер модели, влияющий на хранение, доставку и обновление. Четвертая — потребление RAM. Пятая — VRAM для CUDA-моделей, поскольку наличие видеокарты не всегда допустимо в промышленной или учебной инфраструктуре.

Результаты сравнения

Ресурсные показатели демонстрируют, что лидерство по качеству и лидерство по скорости не совпадают. На обоих корпусах RuBERT обеспечивает сильное качество, но имеет самый медленный инференс: 5,286 мс на объект для Kinopoisk и 5,207 мс для Rus News. Кроме того, модель требует около 4,6 ГБ VRAM. Это не критично для исследовательской станции с GPU, но становится существенным ограничением при массовом внедрении или запуске на CPU-серверах.

Таблица 1.

Ресурсные показатели моделей при классификации текстов

Датасет	Модель	Обуч., мин	Инф., мс/об.	Размер, МБ	RAM/VRAM, МБ
Kinopoisk	TF-IDF + SVM	0,21	0,414	3,0	1090 / —
Kinopoisk	TextCNN	0,71	0,198	97,7	2159 / 523
Kinopoisk	fastText	1,94	0,908	1449,3	2706 / —
Kinopoisk	TF-IDF + LR	4,35	0,765	3,0	1175 / —
Kinopoisk	RuBERT	9,16	5,286	681,9	2161 / 4569
Rus News	TF-IDF + SVM	0,32	0,291	8,6	1398 / —
Rus News	TF-IDF + LR	0,61	0,483	8,6	1426 / —
Rus News	TextCNN	1,85	0,137	97,7	2388 / 523
Rus News	fastText	2,52	0,583	1494,4	2914 / —
Rus News	RuBERT	17,80	5,207	681,9	2394 / 4576

Самыми компактными оказались TF-IDF-модели: 3,0 МБ на Kinopoisk и 8,6 МБ на Rus News. Это делает их удобными для встраивания в сервисы, где модель должна быстро обновляться и переноситься между средами. Линейный SVM также показал минимальное время обучения: 0,21 минуты на Kinopoisk и 0,32 минуты на Rus News. При частом переобучении на новых данных это преимущество может оказаться важнее небольшого отставания по macro-F1.

TextCNN продемонстрировал самый быстрый инференс: 0,198 мс на объект для Kinopoisk и 0,137 мс для Rus News. Это сильный результат для сценариев, где требуется высокая пропускная способность. Однако скорость TextCNN достигается при использовании GPU и не сопровождается лучшим качеством классификации. Следовательно, TextCNN рационален не как универсальная лучшая модель, а как компромисс для задач с жестким требованием к задержке при допустимом снижении качества.

fastText занимает промежуточное положение. По качеству он близок к RuBERT на Kinopoisk и занимает второе место на Rus News, но размер модели превышает 1,4 ГБ. Такое значение может быть неудобным для доставки модели в легковесные сервисы, хотя отсутствие требования к VRAM упрощает запуск на CPU. Практический вывод здесь неоднозначен: fastText может быть выгоден по качеству, но не всегда выгоден по компактности.

RuBERT является сильнейшим кандидатом при приоритете качества, особенно если задача требует устойчивости к неоднозначным формулировкам и контексту. Но его ресурсная цена очевидна: обучение занимает 9,16 минуты на Kinopoisk и 17,80 минуты на Rus News, инференс медленнее других моделей, а запуск требует видеопамяти. Поэтому выбор RuBERT оправдан тогда, когда прирост macro-F1 критичен для бизнес- или исследовательской цели. Если цена ошибки невелика, а поток данных велик, более простая модель может быть рациональнее.

Воспроизводимость и интерпретируемость

Отдельная проблема практического сравнения — сохранение контекста эксперимента. Если в отчете остается только таблица итоговых метрик, невозможно проверить, при каких настройках получен результат. Минимальный набор сохраняемых артефактов должен включать config-файл запуска, статистику датасета, разбиение train/validation/test, таблицу метрик, отчет по классам, матрицу ошибок, файл предсказаний, ресурсные показатели, сохраненные модели и журнал выполнения. Такая структура делает эксперимент проверяемым и позволяет повторить результат при изменении модели или корпуса.

Интерпретируемость также влияет на выбор. Линейные TF-IDF-модели позволяют анализировать веса признаков и выявлять слова или n-граммы, влияющие на решение. Для сложных моделей требуются специальные методы локального объяснения, например, LIME [6] или SHAP [7]. Но добавление таких методов увеличивает сложность пайплайна и не отменяет необходимости анализировать матрицы ошибок. В прикладных системах объяснимость часто важна не меньше, чем прирост долей процента по macro-F1.

Рациональная схема выбора модели

На основании результатов можно сформулировать практическую схему выбора. Если главным критерием является максимальное качество по всем классам, следует выбирать RuBERT и закладывать соответствующую инфраструктуру. Если требуется высокая скорость инференса при наличии GPU, можно рассматривать TextCNN, но только после проверки допустимости снижения качества. Если система должна быть компактной, быстро обучаться и легко объясняться, разумно начинать с TF-IDF + Linear SVM. Если нужна высокая устойчивость к морфологическому разнообразию русского языка без трансформерной инфраструктуры, целесообразно тестировать fastText.

Эта схема не является заменой эксперимента. Она задает порядок проверки гипотез: сначала baseline, затем более сложная модель, затем оценка прироста качества относительно роста вычислительной цены. Ошибка возникает тогда, когда исследователь берет RuBERT как решение по умолчанию и не измеряет, насколько дорого обходится его преимущество. В малых и средних прикладных задачах разница между «лучшая модель» и «рациональная модель» может быть принципиальной.

Список литературы:

Pedregosa F., Varoquaux G., Gramfort A. et al. Scikit-learn: Machine Learning in Python // Journal of Machine Learning Research. 2011. Vol. 12. P. 2825–2830. URL: https://jmlr.org/papers/v12/pedregosa11a.html (дата обращения: 07.05.2026).
Paszke A., Gross S., Massa F. et al. PyTorch: An Imperative Style, High-Performance Deep Learning Library // Advances in Neural Information Processing Systems. 2019. Vol. 32. URL: https://papers.neurips.cc/paper/2019/hash/bdbca288fee7f92f2bfa9f7012727740-Abstract.html (дата обращения: 07.05.2026).
Wolf T., Debut L., Sanh V. et al. Transformers: State-of-the-Art Natural Language Processing // Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. 2020. P. 38–45. DOI: 10.18653/v1/2020.emnlp-demos.6.
Lhoest Q., Villanova del Moral A., Jernite Y. et al. Datasets: A Community Library for Natural Language Processing // Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. 2021. P. 175–184. DOI: 10.18653/v1/2021.emnlp-demo.21.
Scikit-learn developers. Pipeline: scikit-learn documentation. URL: https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html (дата обращения: 07.05.2026).
Ribeiro M. T., Singh S., Guestrin C. “Why Should I Trust You?”: Explaining the Predictions of Any Classifier // Proceedings of NAACL-HLT 2016: Demonstrations. 2016. P. 97–101. DOI: 10.18653/v1/N16-3020.
Lundberg S. M., Lee S.-I. A Unified Approach to Interpreting Model Predictions // Advances in Neural Information Processing Systems. 2017. Vol. 30. URL: https://arxiv.org/abs/1705.07874 (дата обращения: 07.05.2026).
Vajjala S., Majumder B., Gupta A., Surana H. Practical Natural Language Processing. Sebastopol: O’Reilly Media, 2020. 456 p.

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников