Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: CXLIX Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 12 мая 2025 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Грязева К.Д., Логвина Е.Е. ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ОТЗЫВОВ МАРКЕТПЛЕЙСОВ С ПРИМЕНЕНИЕМ АЛГОРИТМОВ СЕМАНТИЧЕСКОГО АНАЛИЗА // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. CXLIX междунар. студ. науч.-практ. конф. № 5(147). URL: https://sibac.info/archive/technic/5(147).pdf (дата обращения: 31.05.2025)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
Диплом Выбор редакционной коллегии

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ОТЗЫВОВ МАРКЕТПЛЕЙСОВ С ПРИМЕНЕНИЕМ АЛГОРИТМОВ СЕМАНТИЧЕСКОГО АНАЛИЗА

Грязева Ксения Дмитриевна

студент, Московский институт электроники и математики им. А.Н. Тихонова, Национальный исследовательский университет «Высшая школа экономики» (НИУ ВШЭ),

РФ, г. Москва

Логвина Елизавета Евгеньевна

студент, Московский институт электроники и математики им. А.Н. Тихонова, Национальный исследовательский университет «Высшая школа экономики» (НИУ ВШЭ),

РФ, г. Москва

Сластников Сергей Александрович

научный руководитель,

канд. техн. наук, доц., Московский институт электроники и математики им. А.Н. Тихонова, Национальный исследовательский университет «Высшая школа экономики» (НИУ ВШЭ),

РФ, Москва

INTELLIGENT ANALYSIS OF MARKETPLACE REVIEWS USING SEMANTIC ANALYSIS ALGORITHMS

 

Ksenia Gryazeva

student, Moscow Institute of Electronics and Mathematics named after A.N. Tikhonov, National Research University Higher School of Economics (HSE),

Russia, Moscow

Elizaveta Logvina

student, Moscow Institute of Electronics and Mathematics named after A.N. Tikhonov, National Research University Higher School of Economics (HSE),

Russia, Moscow

Sergey Slastnikov

scientific supervisor, candidate of sciences, associate professor, Moscow Institute of Electronics and Mathematics named after A.N. Tikhonov, National Research University Higher School of Economics (HSE),

Russia, Moscow

 

АННОТАЦИЯ

Стремительный рост популярности электронной коммерции превратил отзывы потребителей в один из наиболее важных источников информации. Однако их неструктурированный формат и высокая зависимость от контекста затрудняют ручной анализ. Данное исследование направлено на разработку аналитической системы, использующей передовые методы обработки текстовой информации для извлечения ключевых характеристик товаров из пользовательских отзывов, принятия обоснованных решений о покупке и повышения качества продукции. В работе применяются методы частотного и сентимент-анализа, учитывающие особенности русского языка.

ABSTRACT

The rapid growth of e-commerce popularity has turned customer reviews into one of the most important sources of information. However, their unstructured format and high context-dependency make manual analysis challenging. This study aims to develop an analytics system that employs advanced text processing techniques to extract key product characteristics from user reviews, support informed purchasing decisions, and improve product quality. The research utilizes frequency and sentiment analysis methods adapted for the specific features of the Russian language.

 

Ключевые слова: анализ пользовательских отзывов; сентимент-анализ; обработка естественного языка; частотный анализ; анализ тональности; русскоязычные тексты.

Keywords: consumer reviews; sentiment analysis; semantic analysis; Russian language texts; NLP.

 

Введение

Современные мaркетплейсы стали ключевыми платформами для совершения потребительских транзакций, что привело к экспоненциальному росту пользовательских отзывов.  Эти отзывы представляют собой ценный источник информации, влияющий на покупательские решения и репутацию брендов [13]. Но их неструктурированный формат и большой объем создают сложности для получения полезных данных.  Автоматизированные решения для обработки пользовательского контента необходимы, поскольку традиционные ручные методы аналитики не только трудоемки, но и подвержены субъективным ошибкам [5].

Развитие технологий обработки естественного языка (NLP) открывает новые возможности для анализа текстовых данных. Методы семантического и сентимент-анализа [9, 10] позволяют интерпретировать отзывы с учетом их смыслового содержания и эмоциональной окраски. Однако применительно к анализу отзывов на маркетплейсах эти методы сталкиваются с рядом ограничений, связанных с особенностями обрабатываемого материала [11]. Во-первых, пользовательский контент часто содержит специфические выражения, сленг и иронию, что затрудняет точную интерпретацию. Во-вторых, разнообразие структуры и объема отзывов требует создания гибридных или адаптивных моделей, способных сохранять высокую точность в различных условиях. В-третьих, в настоящее время отсутствует надежная и масштабируемая система анализа отзывов, позволяющая получать глубокие инсайты о мнении потребителей и качестве продукции [1, 9, 12].

Цель данного исследования - преодоление указанных ограничений путем разработки интеллектуальной аналитической системы, основанной на современных NLP-алгоритмах. Система автоматически обрабатывает и структурирует пользовательские отзывы, сочетая методы семантического и сентимент-анализа для повышения качества результатов. Особое внимание уделяется обработке русскоязычных текстов с учетом их лингвистических особенностей.

Научная новизна работы заключается в разработке комплексного подхода к анализу отзывов с маркетплейсов, адаптации методов NLP для русскоязычного контента и создании масштабируемой системы автоматизированного анализа.

Практическая значимость исследования состоит в предоставлении бизнесу инструментов для улучшения качества продукции и повышения конкурентоспособности, а также возможности принимать обоснованные решения на основе агрегированных данных для покупателей.

Структура статьи: в разделе 2 представлен обзор существующих методов анализа текстовых данных, раздел 3 описывает методику исследования, раздел 4 содержит результаты разработки, раздел 5 подводит итоги и определяет направления для дальнейшей работы.

Обзор литературы

В эпоху цифровой трансформации наблюдается стремительный рост количества пользовательского контента, доступного на маркетплейсах. Это привело к новым проблемам и возможностям для анализа текстовых данных. В этом разделе собраны научные методы анализа отзывов пользователей, особое внимание уделяется работе с русскоязычным контентом.

Методы обработки естественного языка (NLP) прошли через несколько стадий, начиная с классических статистических методов и заканчивая современными нейросетевыми конструкциями. Однако, как отмечают исследователи [16], появились контекстно-зависимые модели, такие как BERT и его производные, и они продемонстрировали чрезвычайно эффективную работу с многозначными конструкциями, иронией и сленгом, которые зачастую являются частью пользовательских отзывов.

Современные исследования в области обработки естественного языка предлагают комплексный набор методов для анализа пользовательских отзывов. Основополагающие работы [13, 14] демонстрируют эффективность статистических подходов при извлечении и классификации слов по частям речи. Эти методы, реализованные в некоторых библиотеках, таких как NLTK [5], обеспечивают базовую текстовую обработку через токенизацию и лемматизацию, что особенно важно для морфологически сложных языков, каким является русский язык.

Семантический анализ занимает особое место в NLP, позволяя выявлять смысловые связи между словами и фразами с учетом контекста. Как показано в исследованиях [16], интеграция семантического анализа с моделями глубокого обучения (например, BERT) значительно повышает точность интерпретации текста, предоставляет возможности для распознавания терминологии, сарказма и идиоматических выражений. Однако, как отмечают авторы [16], недостаток размеченных данных остается серьезным ограничением, требующим применения методов трансферного обучения.

Распознавание именованных сущностей (NER) эволюционировало с появлением современных архитектур. Работы [4, 15] представляют инновационные подходы. Модель BOND, основанная на BERT и RoBERTa решает проблему недостатка обучающих данных через мета-подсказки и семантику сущностей. Однако, как подчеркивают [2, 12], применительно к русскоязычным отзывам сохраняются сложности с идентификацией контекстно-зависимых выражений. 

Сентимент-анализ получил значительное развитие благодаря предобученным моделям (BERT, TextBlob) [7, 8]. Исследование [6] демонстрирует эффективность гибридных подходов, сочетающих CNN и TF-IDF, достигая высокой точности при анализе русскоязычных текстов. Тем не менее, морфологическая сложность русского языка и недостаток качественных корпусов продолжают оставаться важными проблемами [11, 12].

Несмотря на то, что частотные методы анализа являются традиционными, они продолжают оставаться актуальными, когда используются в сочетании с современными подходами. Исследования [3, 10] показывают, что TF-IDF векторизация в комбинации с тщательной предобработкой (удаление стоп-слов, стемминг) позволяет эффективно выявлять ключевые темы в пользовательских отзывах.

Анализ существующих исследований позволяет выявить существенный пробел - отсутствие комплексного решения, которое объединяло бы перечисленные методы в единую систему обработки пользовательских данных, учитывая при этом специфику русского языка и обеспечивая полный анализ от первичной обработки до визуализации результатов. Существующие методы демонстрируют хорошие результаты для английского языка, но требуют адаптации для русского. Наиболее перспективным представляется комбинированный подход, объединяющий частотные методы для первичного анализа и нейросетевые модели для углубленного семантического анализа.

Основная часть

Разработка системы автоматического анализа пользовательских отзывов потребовала комплексного подхода, объединяющего современные методы обработки естественного языка (NLP). В данном разделе подробно описывается архитектура системы и применяемые методы анализа текста.

1.1 Сбор и предварительная обработка данных

Первым этапом исследования стала разработка системы сбора данных с популярных российских маркетплейсов Wildberries и МегаМаркет. Для этого был создан специализированный парсер на Python. Выбор Python в качестве основного языка разработки обусловлен богатой экосистемой библиотек для обработки текста и наличием качественной документации.

Полученные данные проходят многоступенчатую предварительную обработку. Процесс включает токенизацию и очистку текста от специальных символов, удаление стоп-слов с использованием специализированного словаря, который содержит, например, названия самих товаров с маркетплейсов, лемматизацию с применением библиотеки PyMystem3 и векторизацию для последующего анализа.

1.2 Архитектурные решения

Система реализована с использованием микросервисной архитектуры, что обеспечивает масштабируемость и гибкость. Ключевые компоненты развернуты в Docker-контейнерах. Nginx обеспечивает балансировку нагрузки и маршрутизацию запросов. PostgreSQL выбран в качестве базы данных для хранения данных с маркетплейсов. Для реализации backend-логики выбрана технология FastAPI. В качестве инструмента для создания пользовательского интерфейса использовался React.

1.3 Методы семантического анализа текста 

Для извлечения ключевых характеристик товаров из отзывов были исследованы и сравнены два принципиально разных подхода. Частотный анализ продемонстрировал высокую эффективность благодаря особенностям его реализации. Для учета контекстных связей между словами из отзывов выбирались биграммы, после чего подсчитывалась частота повторения каждой из них в описании продукта. Кроме того, на этапе предобработки были удалены названия товаров, а описание товара принималось как краткое описание канонических характеристик продукта, что позволило избежать случайного добавления неподходящих слов в результаты обработки.

Альтернативный подход на основе распознавания именованных сущностей (NER) с использованием моделей DeepPavlov и SimpleTransformers показал низкую эффективность. Это объясняется тем, что в отзывах именованные объекты не всегда являются характеристиками элемента. Чтобы решить данную проблему, был создан датасет из пользовательских отзывов, на котором модели были дообучены для достижения желаемых результатов. Но и это не помогло добиться эффективного определения ключевых характеристик товаров, вследствие чего был сделан выбор в пользу использования частотного анализа.

Полученные ключевые слова передаются на фильтрацию в LLM-модель, которая исключает несущественные или не связанные с товаром характеристики. Таким образом, остаются только релевантные слова. В качестве LLM-модели была выбрана модель YandexGPT 5 Lite.

1.4 Методы сентимент-анализа

Для определения эмоциональной окраски отзывов было проведено сравнительное тестирование библиотек RuBERT, TextBlob и DeepPavlov. RuBERT показал наилучшие результаты благодаря специализации на русском языке.

В итоге была разработана гибридная система, сочетающая два подхода к анализу тональности текста. Первая модель - sentimet_tool, в основе которой используются сверточные нейронные сети (CNN) и TF-IDF векторизация. Архитектура данной модели представлена на рисунке 1. Однако из-за ограничения по количеству слов, принимаемых на вход, была использована вторая модель - RuBERT.

 

Рисунок 1. Общая структура модуля классификации текста

 

Результаты исследования

Для анализа отзывов использовался частотный анализ с выделением биграмм. Для определения эмоциональной окраски отзыва использовалась комбинация двух моделей - RuBERT и sentiment_tool. Такое сочетание позволяет учитывать языковые особенности и контекстуальное сочетание текста.

В результате проведенного исследования создано и развернуто на сервере факультета веб-приложение для анализа пользовательских отзывов. Функционал разработанного приложения позволяет пользователям просматривать аналитику по товарам, выбранным по результатам поиска. На странице товара также представлены выделенные ключевые слова, полученные в результате частотного анализа, гистограмма распределения тональности отзывов во времени и общие данные о товаре.

Выводы и дальнейшие перспективы исследования

Проведенное исследование и последующая разработка позволили получить комплексную систему анализа пользовательских отзывов на русском языке, основанную на современных методах обработки естественного языка. Были проанализированы различные подходы, что позволило определить лучшие инструменты для обработки данных.

Полученные результаты создают возможности для дальнейшего развития автоматизации анализа пользовательского контента на русскоязычном рынке.

Автоматизация этого процесса позволит компаниям быстрее реагировать на отзывы, создавать более качественные продукты и повышать удовлетворенность клиентов. Потребители, использующие этот сервис, получат возможность принимать более взвешенные решения о покупке, поскольку будут знать, как сильные, так и слабые стороны товара.

Дальнейшая работа включает в себя адаптацию предложенных методов к различным языкам и типам контента, что позволит расширить сферу применения этих решений. Дополнения могут быть ориентированы на оптимизацию обработки контекстно-зависимых фраз и учет культурных особенностей при анализе настроений.

 

Список литературы:

  1. AL-Smadi M. Paraphrase identification and semantic text similarity analysis in Arabic news tweets using lexical, syntactic, and semantic features // Inf Process Manag. – 2017. Vol. 53. №3. – P. 640–652.
  2. Kreimeyer K. Natural language processing systems for capturing and standardizing unstructured clinical information: A systematic review // J Biomed Inform. – 2017. Vol. 73. – P. 14–29.
  3. Kunal S. Textual Dissection of Live Twitter Reviews using Naive Bayes // Procedia Computer Science. – 2018. – P. 307–313.
  4. Liang C. BOND: BERT-Assisted Open-Domain Named Entity Recognition with Distant Supervision // Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. – 2020. – P. 1054–1064.
  5. Любченко М. А. Об одном опыте анализа данных и извлечения информации о программном продукте // Системная инженерия и информационные технологии. – 2021. Т. 3, №2. – С. 75–80.
  6. Mas Diyasa I. G. S. Twitter Sentiment Analysis as an Evaluation and Service Base On Python Textblob // IOP Conf Ser Mater Sci Eng. – 2021. Vol. 1125. №1.
  7. Oswal S. Named Entity Recognition and Aspect based Sentiment Analysis // Int J Comput Appl. – 2019. Vol. 178. №46. – P. 18–23.
  8. Pan S. J., Yang Q. A survey on transfer learning // IEEE Trans Knowl Data Eng. – 2010. Vol. 22. №10. – P. 1345–1359.
  9. Ramachandran D., Parvathi R. Analysis of Twitter Specific Preprocessing Technique for Tweets // Procedia Computer Science. – 2019. – P. 245–251.
  10. Shahana P. H., Omman B. Evaluation of features on sentimental analysis // Procedia Computer Science. – 2015. – P. 1585–1592.
  11. Sidorov N., Slastnikov S. Some Features of Sentiment Analysis for Russian Language Posts and Comments from Social Networks // J Phys Conf Ser. – 2021. Vol. 1740. №1.
  12. Souza F., Nogueira R., Lotufo R. Portuguese Named Entity Recognition using BERT-CRF. – 2019.
  13. Тюрин Д. В., Волкова А. О. Особенности поведения потребителей в интернет-шопинге // Практический маркетинг. – 2021.
  14. Vasilyev V. Semantic Text Analysis Technology Application in Assessing Current Threats and Software Vulnerabilities // IFAC-PapersOnLine. – 2021. Vol. 54. №13. – P. 599–604.
  15. Xia Y. MPE3: Learning meta-prompt with entity-enhanced semantics for few-shot named entity recognition // Neurocomputing. – 2025. Vol. 620. – P. 129031.
  16. Zhao L. A BERT based Sentiment Analysis and Key Entity Detection Approach for Online Financial Texts // Proceedings of the 2021 IEEE 24th International Conference on Computer Supported Cooperative Work in Design, CSCWD. – 2021. – P. 1233–1238.
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
Диплом Выбор редакционной коллегии

Оставить комментарий