Статья опубликована в рамках: CLX Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 06 апреля 2026 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Липкин Г.М. СОВРЕМЕННЫЕ ПОДХОДЫ АНАЛИЗА КОММЕНТАРИЕВ В ИНТЕРНЕТ-МАГАЗИНАХ С ИСПОЛЬЗОВАНИЕМ СРЕДСТВ МАШИННОГО ОБУЧЕНИЯ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. CLX междунар. студ. науч.-практ. конф. № 4(158). URL: https://sibac.info/archive/technic/4(158).pdf (дата обращения: 24.07.2026)

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

СОВРЕМЕННЫЕ ПОДХОДЫ АНАЛИЗА КОММЕНТАРИЕВ В ИНТЕРНЕТ-МАГАЗИНАХ С ИСПОЛЬЗОВАНИЕМ СРЕДСТВ МАШИННОГО ОБУЧЕНИЯ

Липкин Григорий Михайлович

магистрант, кафедра прикладной информатики, Московский Политехнический институт,

РФ, г. Москва

MODERN APPROACHES TO COMMENT ANALYSIS IN E-COMMERCE WITH MACHINE LEARNING

Lipkin Grigory Mikhailovich

master’s student, Department of Applied Informatics, Moscow Polytechnic University,

Russia, Moscow

АННОТАЦИЯ

Сегодня всё больше людей пользуется онлайн-магазинами. Чтобы совершить покупку в онлайн-магазине, пользователю необходимо читать комментарии, многочисленные и не всегда полезные. Поэтому автоматизированная обработка таких комментариев для выделения качеств продукта — это важная задача. В данной статье рассмотрены материалы нескольких авторов, освещающие различные аспекты автоматической обработки комментариев для выделения положительных и отрицательных качеств продукта. Задача состоит из нескольких частей: обработать слабоструктурированные текстовые данные, исправить опечатки, заменить сокращения на их расшифровки; извлечь значимые части из комментариев, провести анализ тональности для получения общей картины отзыва. Можно заключить, что существуют следующие методы и программные средства, которые могут помочь в создании системы обработки комментариев:

GPT, BERT, BiLSTM способны обеспечить нахождение значительных частей в предложениях,
наивный Байесовский классификатор, метод опорных векторов и нейронные сети с различными вариантами препроцессинга, в том числе Bag Of Words и TF-IDF используются в анализе тональности.

Данная область имеет значительный потенциал развития. Опираясь на предыдущие исследования, можно построить полноценную систему для автоматической обработки комментариев для выделения положительных и отрицательных качеств продукта.

ABSTRACT

Nowadays, more and more people are using online stores. In order to make a purchase in an online store, the user needs to read the comments, which are numerous and not always useful. That is why the automatic processing of comments in online stores with the goal of extracting the product properties is an important task. This article examines the materials of several authors, highlighting various aspects of automated comment processing to draw the positive and negative qualities of the product. This task consists of several subtasks: to process semi-structured text data, correct typos and replace abbreviations with full words; to extract meaningful parts from the comments; to analyze the sentiment of the comments to get an overall picture of the review. It can be concluded that there are the following methods and software tools that can help in creating a comment processing system:

GPT, BERT, BiLSTM are able to find significant parts in sentences,
naive Bayes classifier, support vector method and neural networks, with and without preprocessing using TF-IDF and Bag of Words, are used in sentiment analysis.

This area has significant development potential. Based on previous research, it is possible to build a functional system for automated comment processing to extract the positive and negative qualities of the product.

Ключевые слова: Нейронная сеть; обработка текстовых данных; анализ тональности.

Keywords: neural networks; natural language processing; sentiment analysis.

Введение

В настоящее время большая часть людей использует онлайн-магазины вместо того, чтобы ходить в физические и выбирать товары там. Однако физические магазины имеют неоспоримое преимущество перед онлайн-магазинами: они предоставляют возможность ознакомиться со свойствами товара до покупки и, более того, до оплаты пути товара. В случае же, когда товар не подходит, покупатель может сразу поменять выбор, не дожидаясь второй доставки. Для того, чтобы совершить покупку в онлайн-магазине, пользователю нужно читать комментарии, многочисленные и не всегда несущие полезную нагрузку. Именно поэтому автоматическая обработка комментариев в интернет-магазинах для выделения свойств продукта — это важная задача. Представляет интерес создание независимой системы, способной собрать данные о продукте со всех маркетплейсов и сформировать всеобъемлющий отчёт об общем настроении отзывов и свойствах продукта. Частично данная задача уже решена. В этой статье рассматриваются различные методы и средства определения указанных свойств комментариев.

В данной статье ставится задача обзора существующих материалов, способных помочь в создании системы, обрабатывающей комментарии к продуктам. Данная задача состоит из нескольких подзадач. Во-первых, требуется обрабатывать слабоструктурированные текстовые данные: исправлять опечатки и заменять сокращения на их расшифровки. Это может оказаться необходимо, поскольку при дальнейшей обработке опечатки и сокращения могут искажать значение комментария в глазах алгоритмов. Во-вторых, необходимо извлекать значимые части из комментариев. В-третьих, требуется проводить анализ тональности в комментариях для получения общей картины отзыва.

1. Обработка слабоструктурированных текстов

Первая задача, обработка слабоструктурированных текстов, рассмотрена в диссертации Макаровой Е.А. «Модели и алгоритмы обработки слабоструктурированных текстовых данных на основе методов искусственного интеллекта» [1], где предлагается несколько алгоритмов обработки сокращений, что необходимо, чтобы в список свойств товара одно и то же свойство не повторялось в сокращённом и в полном написании.

Один из алгоритмов использует словари:

Определить все слова в тексте, не соответствующие словам из словаря (к примеру, словаря Даля).
Раскрыть эти слова как сокращения, подставив вместо них соответствующие им в словаре сокращений словосочетания.

Контекст сокращений позволяет лучше расшифровывать сокращения путём преобразования слов в векторы искусственной нейронной сетью и предсказания общего значения сокращений по их окружению. Тогда наиболее осмысленная расшифровка сокращения будет ближайшей к окружению. В русской традиции сокращений необходимо выполнение также следующих правил:

сокращение совпадает с началом семантически близкого слова;
сокращение совпадает с началом семантически близкого слова, при условии удаления гласных букв;
начало и конец найденного слова совпадает с сокращением, середина заменяется дефисом или «/».

Автор использует в том числе методы классического машинного обучения. Это даёт автореферату уникальную точку зрения, которая ценна для формирования широкого представления о текущем состоянии области знаний. Поскольку классическое машинное обучение отличается значительной производительностью в сравнении с моделями искусственного интеллекта, по крайней мере, если говорить об архитектурах BERT или GPT, то данный взгляд может оказаться важным для моей темы, и может оказаться наиболее подходящим для задач извлечения из комментариев к продукту интернет-магазинов свойств товара.

2. Определение значимых частей в комментариях

Перейдём к другому аспекту данной области, определению значительных частей в комментариях. Рассмотрим автореферат Бабака Никиты Григорьевича «Автоматическое обезличивание персональных данных с использованием технологий искусственного интеллекта» [2], а также статью Антонова Е.В. «Evaluation of Named Entity Recognition Software Packages for Data Mining», опубликованная в 2024 г. в журнале Physics of Particles and Nuclei[3], которая рассказывает об исследованиях определения в предложении на русском языке именованных сущностей, таких как человек, место, организация. В статье сравниваются различные программные пакеты: Natasha, SpaCy, Stanza, DeepPavlov. Определено, что наилучших характеристик достигает Natasha: точность 0.88 при определении людей, 0.68 для мест и 0.47 для организаций.

Cтатья «Распознавание персональных данных с помощью модели глубокого обучения» [4] Бабака Н.Г., упомянутая в автореферате, рассматривает следующие средства:

регулярные выражения;
расчёт контрольного разряда;
поиск по словарю;
нечёткий поиск;
анализ контекстного окружения;
искусственные нейронные сети.

В статье также было проведено сравнение между моделями нейронных сетей BiLSTM, BERT и GigaChat (GPT). Упоминается, что BiLSTM «недостаточно хорошо учитывает контекст, из-за чего разнородные атрибуты Пдн плохо распознаются в неструктурированной информации». При равных аппаратных условиях на персональных данных более точной была модель BERT. В статье предложен комбинированный метод распознавания, который представляет собой сочетание алгоритмов на основе правил с моделью BERT и оказывается наиболее результативным среди рассмотренных. Окончательные результаты измерений можно видеть на рисунке 1.

Рисунок 1. Таблица результатов замеров, приведённая в статье

3.Определение тональности

Последней по порядку, но не по важности является тема определения тональности комментариев, и в этой теме значительное место занимает исследование Зоткиной Алены Александровны по теме «Методы и алгоритмы формирования психологического портрета пользователя социальной сети для эффективного подбора кадров»[5], которое ссылается на статью «Обзор методов анализа настроений»[6]. Статья обсуждает методы анализа настроений, точнее, «подход на основе лексики, подход машинного обучения и гибридный подход». Отмечаются недостатки подхода на основе лексики, в частности, малая связь с контекстом, что не позволяет достаточно точно оценивать настроение касательно конкретных пунктов. В статье предлагается решение данной проблемы: использование словарей под каждую предметную область. В силу количества товаров в интернет-магазине подход кажется неприменимым. Утверждается, что среди методов машинного обучения в этой области распространено обучение с учителем на основе датасета и обучение без учителя на основе лексикона. Наиболее популярным является гибридный метод, когда методы машинного обучения объединяются с методами анализа на основе лексиконов. Статья предлагает следующие шаги гибридного метода:

выявление функций, которые будут использоваться в рамках подхода машинного обучения;
автоматическое создание аннотированного корпуса для обучения и проверки классификаторов при разных размерах датасета;
создание словаря тональности;
эти различные подходы объединяются и тестируются для получения лучших и оптимизированных результатов.

Статья «Некоторые подходы к определению тональности текста» [7] является развитием статьи «обзор методов анализа настроений». Статья обсуждает наивный Байесовский классификатор, метод опорных векторов и нейронные сети. Рассказывается о недостатках классических методов машинного обучения, среди которых сильная зависимость от данных в том смысле, что из данных требуется извлечь признаки, в то время как в классической постановке задачи на вход подаётся текст и, возможно, некоторые метки класса. Нейронные сети же самостоятельны в выделении признаков.

Не менее важной в подтеме определения тональности является работа P. Vijayaragavan и др. «Sustainable sentiment analysis on E-commerce platforms using a weighted parallel hybrid deep learning approach for smart cities applications» [8]. Статья опирается на более раннюю [9], где рассказывается об использовании метода опорных векторов в определении тональности комментариев, а также на [10], где сравниваются результаты применения метода случайного леса с рекурсивным удалением признаков (RF-RFD) с методами машинного обучения: Naive Bayes, деревом решений, методом опорных векторов.

В статье [8] рассказывается о новом подходе к анализу тональности, WPHDL-SAEPR на основе Word2Vec, SVD и Restricted Boltzmann Machine (RBM) — нейронной сети, обучающейся без учителя, которая имеет целью максимизацию вероятности найти слово в текущей позиции [12]. RBM вводится в [13] П. Смоленским в поисках языка для представления теорий о сознании в парадигме машинного обучения как противоположности символическому ИИ.

Рисунок 2. Общий вид подхода WPHDL-SAEPR

Подход имеет общую структуру, как показывает Рис. 2. Датасет подготавливается, пропускается через препроцессинг Word2Vec, передаётся SVD и модели Больцмана. Качество модели оценивается Accuracy, Precision, Recall, F-Score, MCC — формулы (2), (3), (4), (5), (6) соответственно.

(2)

(3)

(4)

(5)

(6)

где Acc — Accuracy;

Pre — Precision;

Rec — Recall;

Fsc — F-Score;

MCC — Matthews correlation coefficient, коэффициент корреляции Мэттьюса;

TP — число значений, верно предсказанных как положительные эмоции;

FP — число значений, ошибочно предсказанных как положительные эмоции;

TN — число значений, верно предсказанных как отрицательные эмоции;

FN — число значений, неверно предсказанных как отрицательные эмоции.

Рисунок 3. Результаты сравнения модели WPHDL-SAEPR с другими методами

Автор сравнивает свой подход с другими, как показывает Рис. 3. Результаты показывают превосходство WPHDL-SAEPR над другими, однако и менее затратные методы также достигают приемлемых для исследования результатов. Стоит пояснить, что скрывается под аббревиатурами в таблице. DNN-LSTM - многослойная модель LSTM; DNN-RNN - многослойная рекуррентная нейронная сеть.

Важным здесь является замечание, что автор посчитал достаточной бинарную классификацию отзывов по тональности, что также удовлетворяет потребности данного исследования.

Обобщая вышесказанное, можно видеть, что для решения задачи анализа тональности в комментариях существует достаточно много инструментов, среди которых наивный Байесовский классификатор, метод опорных векторов, TF-IDF, BoW, а также LSTM и рекуррентные нейронные сети, а также подход WPHDL-SAEPR, представленный в [8].

Заключение

В данной статье были рассмотрены материалы нескольких авторов, освещающие различные аспекты автоматической обработки комментариев для выделения положительных и отрицательных качеств продукта.

Исходя из собранных в статье сведений, можно заключить, что существуют следующие методы и программные средства, которые могут помочь в создании системы обработки комментариев:

GPT, BERT, BiLSTM способны обеспечить нахождение значительных частей в предложениях,
наивный Байесовский классификатор, метод опорных векторов, и нейронные сети, такие как LSTM или рекуррентные нейронные сети, нейронные сети с предобработкой с помощью TF-IDF или Bag of Words, а также подход WPHDL-SAEPR, представленный в [8], используются в анализе тональности.

Список литературы:

Макарова Е.А., Модели и алгоритмы обработки слабоструктурированных текстовых данных на основе методов искусственного интеллекта, диссертация на соискание учёной степени кандидата технических наук, 2023
Бабак Н.Г., Автоматическое обезличивание персональных данных с использованием технологий искусственного интеллекта, диссертация на соискание учёной степени кандидата технических наук, 2024
Соколов И., Антонов Е.В., Evaluation of Named Entity Recognition Software Packages for Data Mining // Physics of Particles and Nuclei. 55, №3
Бабак Н.Г., Распознавание персональных данных с помощью модели глубокого обучения // Современные информационные технологии и ИТ-образование. 20, №1
Зоткина А.А., Методы и алгоритмы формирования психологического портрета пользователя социальной сети для эффективного подбора кадров, диссертация на соискание учёной степени кандидата технических наук, 2024
Зоткина А.А., Холкина В.М, Обзор методов анализа настроений // Современные информационные технологии, №38
Мартышкин А.И., Зоткина А.А., Некоторые подходы к определению тональности текста // Современные информационные технологии. №39
P. Vijayaragavan и др. Sustainable sentiment analysis on E-commerce platforms using a weighted parallel hybrid deep learning approach for smart cities applications [Электронный ресурс]. Scientific Reports, 2024. URL: https://www.nature.com/articles/s41598-024-78318-1 (дата обращения: 10.11.2025).
Vijayaragavan P., Ponnusamy R., Aramudhan M. An optimal support vector Machine-based classification model for sentimental analysis of online product reviews [Электронный ресурс]. URL: https://www.sciencedirect.com/science/article/pii/S0167739X19333138 (дата обращения: 28.01.2026).
Rezapour M. Sentiment classification of skewed shoppers’ reviews using machine learning techniques, examining the textual features [Электронный ресурс]. URL: https://www.researchgate.net/publication/344416505_Sentiment_classification_of_skewed_shoppers'_reviews_using_machine_learning_techniques_examining_the_textual_features (дата обращения: 28.01.2026).
Tomas Mikolov и др. Efficient Estimation of Word Representations in Vector Space [Электронный ресурс]. arxiv.com, 2013. URL: https://arxiv.org/pdf/1301.3781 (дата обращения: 28.01.2026).
scikit-learn developers. Neural network models (unsupervised) [Электронный ресурс]. Scikit-learn, 2024. URL: https://scikit-learn.org/stable/modules/neural_networks_unsupervised.html (дата обращения: 28.01.2026).
P. Smolensky. Information Processing in Dynamical Systems: Foundations of Harmony Theory [Электронный ресурс]. 1986. URL: https://www.researchgate.net/publication/239571798_Information_processing_in_dynamical_systems_Foundations_of_harmony_theory (дата обращения: 28.01.2026).

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников