Статья опубликована в рамках: XCVI Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 10 декабря 2020 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Петров И.В. СРАВНЕНИЕ АЛГОРИТМОВ КЛАССИФИКАЦИИ В ЗАДАЧЕ АНАЛИЗА ТОНАЛЬНОСТИ ТЕКСТОВ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. XCVI междунар. студ. науч.-практ. конф. № 12(95). URL: https://sibac.info/archive/technic/12(95).pdf (дата обращения: 08.03.2026)

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

СРАВНЕНИЕ АЛГОРИТМОВ КЛАССИФИКАЦИИ В ЗАДАЧЕ АНАЛИЗА ТОНАЛЬНОСТИ ТЕКСТОВ

Петров Иван Владимирович

магистрант, кафедра Информационные системы и программная инженерия, Балтийский государственный технический университет «ВОЕНМЕХ» им Д.Ф. Устинова,

РФ, г. Санкт-Петербург

Снижко Елена Александровна

научный руководитель,

канд. пед. наук, доц., кафедра Информационные системы и программная инженерия, Балтийский государственный технический университет «ВОЕНМЕХ» им Д.Ф. Устинова,

РФ, г. Санкт-Петербург

АННОТАЦИЯ

В данной статье приведено сравнение различных алгоритмов классификации в задаче анализа тональности отзывов.

Ключевые слова: анализ тональности; машинное обучение; нейронные сети.

Введение

Анализ тональности – определение общего отношения группы (положительного или отрицательного) к услуге, продукту, организации или теме [1]. Анализ тональности является частным случаем более общей задачи классификации.

В данной статье рассматривается задача анализа тональности отзывов на IMDb [2]. Датасет включает в себя 50000 отзывов по 25000 для тренировочной и тестовой выборки. Классы отзывов (положительные и отрицательные) сбалансированы в обоих выборках.

Метрикой качества классификации в данной задаче является accuracy (точность).

Для сравнения было выбрано несколько алгоритмов: градиентный бустинг (реализация LGBM [3]), многослойный персептрон (MLP), одномерная свёрточная нейронная сеть (CNN), двунаправленная рекуррентная нейронная сеть (RNN), классификатор на основе BERT [4].

Для всех алгоритмов сравнивалось качество классификации при использовании предобработки текстов и без неё. Предобработка содержала в себе: приведение слов к нижнему регистру, удаление стоп-слов и знаков пунктуации, лемматизация слов, удаление редких слов (слов, встречающихся в тренировочной выборке меньше 40 раз).

Сравнение качества классификации моделей LGBM и MLP

В качестве модели LGBM использовалось 1000 деревьев максимальной глубины 3. В качестве MLP использовался трехслойных персептрон с 512 нейронами в скрытых слоях.

Для моделей LGBM и MLP текстовые данные преобразовывались в вектора с использованием алгоритмов word2vec (w2v) или doc2vec (d2v). Для алгоритма word2vec в качестве вектора текста бралось среднее арифметическое всех векторов слов в тексте, причём рассматривалось два варианта использования этого алгоритма: обучение модели на словах тренировочного набора и использование, предобученной на датасете google news, модели.

Сравнение качества классификации для моделей LGBM и MLP показано в таблице 1. Качество при использовании предобученной модели word2vec выше, чем при использовании модели, обученной на тренировочном наборе.

Таблица 1

Качество классификации для LGBM и MLP

Алгоритм классификации	с предобработкой		без предобработки
Алгоритм классификации	log loss	accuracy	log loss	accuracy
LGBM + w2v	0.3300	0.8554	0.3537	0.8445
MLP + w2v	0.3128	0.8670	0.3356	0.8540
Алгоритм классификации	с предобработкой		без предобработки
Алгоритм классификации	log loss	accuracy	log loss	accuracy
LGBM + d2v	0.3460	0.8518	0.3295	0.8568
MLP + d2v	0.3122	0.8658	0.2951	0.8762
LGBM + w2v (google)	0.3570	0.8436	0.3513	0.8469
MLP + w2v (google)	0.3443	0.8492	0.3385	0.8540

Анализ результатов проведенного сравнения позволяет сделать следующие выводы:

- наилучшее качество было достигнуто для модели MLP при использовании алгоритма doc2vec,

- наилучшее качество было достигнуто без использования предобработки текста,

Сравнение качества классификации моделей CNN и RNN

Рассматривались различные варианты инициализации слоя embedding для CNN и RNN:

- случайными значениями,

- векторами модели word2vec, обученной на исходном датасете,

- векторами модели word2vec, обученной на датасете google news.

Архитектура моделей CNN и RNN показана на рисунке 1.

Сравнение качества классификации для моделей RNN и CNN показано в таблице 2.

Таблица 2.

Качество классификации для CNN и RNN

Алгоритм классификации	с предобработкой		без предобработки
Алгоритм классификации	log loss	accuracy	log loss	accuracy
CNN	0.2791	0.8863	0.2575	0.8939
RNN	0.3002	0.8737	0.3225	0.8676
CNN + w2v	0.3105	0.8669	0.3358	0.8535
RNN + w2v	0.2972	0.8780	0.3196	0.8676
CNN + w2v (google)	0.2714	0.8875	0.2551	0.8950
RNN + w2v (google)	0.2948	0.8782	0.2911	0.8802

Анализ результатов проведенного сравнения позволяет сделать следующие выводы:

- наилучшее качество было достигнуто для модели CNN при использовании векторов, обученных на датасете google news,

- наилучшее качество было достигнуто без использования предобработки текста,

- качество при использовании предобученной модели word2vec выше, чем при использовании других способов.

Рисунок 1. Архитектура моделей CNN и RNN

Сравнение качество классификации для алгоритма BERT

BERT [4] – является алгоритмом, построенном без использования свёрточных или рекуррентных слоёв, и использующим архитектуру трансформер [5]. В данной задаче использовалась базовая модель BERT, содержащая примерно 110 миллионов обучаемых параметров.

Качество классификации для модели BERT показано в таблице 2, из которой видно, что наилучшее качество было достигнуто без использования предобработки текста.

Таблица 2.

Качество классификации для модели BERT

Алгоритм классификации	с предобработкой		без предобработки
Алгоритм классификации	log loss	accuracy	log loss	accuracy
BERT	0.2173	0.9121	0.1653	0.9382

Заключение

Наилучшее качество классификации было достигнуто при использовании алгоритма BERT и составило почти 94%. Лучшее качество во всех случаях (сравнение LGBM и MLP, СNN и RNN, BERT) достигалось без использования предобработки текста. При использовании модели word2vec, обученной на датасете google news, достигается лучшее качество классификации, чем при использовании модели word2vec, обученной на исходном датасете.

Cписок литературы:

Machine Learning Glossary. – URL: https://developers.google.com/machine-learning/glossary (дата обращения 07.11.2020).
Internet Movie Database. – URL: https://www.imdb.com/ (дата обращения 07.11.2020).
LightGBM’s documentation. – URL: https://lightgbm.readthedocs.io/en/latest/ (дата обращения 07.11.2020).
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. – URL: https://arxiv.org/pdf/1810.04805.pdf (дата обращения 07.11.2020).
Attention Is All You Need. – URL: https://arxiv.org/pdf/1706.03762v5.pdf (дата обращения 07.11.2020).

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников