Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: XCVI Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 10 декабря 2020 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Петров И.В. СРАВНЕНИЕ АЛГОРИТМОВ КЛАССИФИКАЦИИ В ЗАДАЧЕ АНАЛИЗА ТОНАЛЬНОСТИ ТЕКСТОВ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. XCVI междунар. студ. науч.-практ. конф. № 12(95). URL: https://sibac.info/archive/technic/12(95).pdf (дата обращения: 29.03.2024)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
Диплом Выбор редакционной коллегии

СРАВНЕНИЕ АЛГОРИТМОВ КЛАССИФИКАЦИИ В ЗАДАЧЕ АНАЛИЗА ТОНАЛЬНОСТИ ТЕКСТОВ

Петров Иван Владимирович

магистрант, кафедра Информационные системы и программная инженерия, Балтийский государственный технический университет «ВОЕНМЕХ» им Д.Ф. Устинова,

РФ, г. Санкт-Петербург

Снижко Елена Александровна

научный руководитель,

канд. пед. наук, доц., кафедра Информационные системы и программная инженерия, Балтийский государственный технический университет «ВОЕНМЕХ» им Д.Ф. Устинова,

РФ, г. Санкт-Петербург

АННОТАЦИЯ

В данной статье приведено сравнение различных алгоритмов классификации в задаче анализа тональности отзывов.

 

Ключевые слова: анализ тональности; машинное обучение; нейронные сети.

 

Введение

Анализ тональности – определение общего отношения группы (положительного или отрицательного) к услуге, продукту, организации или теме [1]. Анализ тональности является частным случаем более общей задачи классификации.

В данной статье рассматривается задача анализа тональности отзывов на IMDb [2]. Датасет включает в себя 50000 отзывов по 25000 для тренировочной и тестовой выборки. Классы отзывов (положительные и отрицательные) сбалансированы в обоих выборках.

Метрикой качества классификации в данной задаче является accuracy (точность).

Для сравнения было выбрано несколько алгоритмов: градиентный бустинг (реализация LGBM [3]), многослойный персептрон (MLP), одномерная свёрточная нейронная сеть (CNN), двунаправленная рекуррентная нейронная сеть (RNN), классификатор на основе BERT [4].

Для всех алгоритмов сравнивалось качество классификации при использовании предобработки текстов и без неё. Предобработка содержала в себе: приведение слов к нижнему регистру, удаление стоп-слов и знаков пунктуации, лемматизация слов, удаление редких слов (слов, встречающихся в тренировочной выборке меньше 40 раз).

Сравнение качества классификации моделей LGBM и MLP

В качестве модели LGBM использовалось 1000 деревьев максимальной глубины 3. В качестве MLP использовался трехслойных персептрон с 512 нейронами в скрытых слоях.

Для моделей LGBM и MLP текстовые данные преобразовывались в вектора с использованием алгоритмов word2vec (w2v) или doc2vec (d2v). Для алгоритма word2vec в качестве вектора текста бралось среднее арифметическое всех векторов слов в тексте, причём рассматривалось два варианта использования этого алгоритма: обучение модели на словах тренировочного набора и использование, предобученной на датасете google news, модели.

Сравнение качества классификации для моделей LGBM и MLP показано в таблице 1. Качество при использовании предобученной модели word2vec выше, чем при использовании модели, обученной на тренировочном наборе.

Таблица 1

Качество классификации для LGBM и MLP

Алгоритм классификации

с предобработкой

без предобработки

log loss

accuracy

log loss

accuracy

LGBM + w2v

0.3300

0.8554

0.3537

0.8445

MLP + w2v

0.3128

0.8670

0.3356

0.8540

Алгоритм классификации

с предобработкой

без предобработки

log loss

accuracy

log loss

accuracy

LGBM + d2v

0.3460

0.8518

0.3295

0.8568

MLP + d2v

0.3122

0.8658

0.2951

0.8762

LGBM + w2v (google)

0.3570

0.8436

0.3513

0.8469

MLP + w2v (google)

0.3443

0.8492

0.3385

0.8540

 

Анализ результатов проведенного сравнения позволяет сделать следующие выводы:

- наилучшее качество было достигнуто для модели MLP при использовании алгоритма doc2vec,

- наилучшее качество было достигнуто без использования предобработки текста,

Сравнение качества классификации моделей CNN и RNN

Рассматривались различные варианты инициализации слоя embedding для CNN и RNN:

- случайными значениями,

- векторами модели word2vec, обученной на исходном датасете,

- векторами модели word2vec, обученной на датасете google news.

Архитектура моделей CNN и RNN показана на рисунке 1.

Сравнение качества классификации для моделей RNN и CNN показано в таблице 2.

Таблица 2.

Качество классификации для CNN и RNN

Алгоритм классификации

с предобработкой

без предобработки

log loss

accuracy

log loss

accuracy

CNN

0.2791

0.8863

0.2575

0.8939

RNN

0.3002

0.8737

0.3225

0.8676

CNN + w2v

0.3105

0.8669

0.3358

0.8535

RNN + w2v

0.2972

0.8780

0.3196

0.8676

CNN + w2v (google)

0.2714

0.8875

0.2551

0.8950

RNN + w2v (google)

0.2948

0.8782

0.2911

0.8802

 

Анализ результатов проведенного сравнения позволяет сделать следующие выводы:

- наилучшее качество было достигнуто для модели CNN при использовании векторов, обученных на датасете google news,

- наилучшее качество было достигнуто без использования предобработки текста,

- качество при использовании предобученной модели word2vec выше, чем при использовании других способов.

 

Рисунок 1. Архитектура моделей CNN и RNN

 

Сравнение качество классификации для алгоритма BERT

BERT [4] – является алгоритмом, построенном без использования свёрточных или рекуррентных слоёв, и использующим архитектуру трансформер [5]. В данной задаче использовалась базовая модель BERT, содержащая примерно 110 миллионов обучаемых параметров.

Качество классификации для модели BERT показано в таблице 2, из которой видно, что наилучшее качество было достигнуто без использования предобработки текста.

Таблица 2.

Качество классификации для модели BERT

Алгоритм классификации

с предобработкой

без предобработки

log loss

accuracy

log loss

accuracy

BERT

0.2173

0.9121

0.1653

0.9382

 

Заключение

Наилучшее качество классификации было достигнуто при использовании алгоритма BERT и составило почти 94%. Лучшее качество во всех случаях (сравнение LGBM и MLP, СNN и RNN, BERT) достигалось без использования предобработки текста. При использовании модели word2vec, обученной на датасете google news, достигается лучшее качество классификации, чем при использовании модели word2vec, обученной на исходном датасете.

 

Cписок литературы:

  1. Machine Learning Glossary. – URL: https://developers.google.com/machine-learning/glossary (дата обращения 07.11.2020).
  2. Internet Movie Database. – URL: https://www.imdb.com/ (дата обращения 07.11.2020).
  3. LightGBM’s documentation. – URL: https://lightgbm.readthedocs.io/en/latest/ (дата обращения 07.11.2020).
  4. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. – URL: https://arxiv.org/pdf/1810.04805.pdf (дата обращения 07.11.2020).
  5. Attention Is All You Need. – URL: https://arxiv.org/pdf/1706.03762v5.pdf (дата обращения 07.11.2020).
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
Диплом Выбор редакционной коллегии

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.