Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: LIV Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 29 июня 2017 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Пичугов Е.В. АГРЕГАЦИЯ МНЕНИЙ ПОЛЬЗОВАТЕЛЕЙ СОЦИАЛЬНЫХ СЕТЕЙ ОТНОСИТЕЛЬНО НОВИНОК КИНОПРОКАТА С ИСПОЛЬЗОВАНИЕМ ИНСТРУМЕНТОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. LIV междунар. студ. науч.-практ. конф. № 6(53). URL: https://sibac.info/archive/technic/6(53).pdf (дата обращения: 23.12.2024)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

АГРЕГАЦИЯ МНЕНИЙ ПОЛЬЗОВАТЕЛЕЙ СОЦИАЛЬНЫХ СЕТЕЙ ОТНОСИТЕЛЬНО НОВИНОК КИНОПРОКАТА С ИСПОЛЬЗОВАНИЕМ ИНСТРУМЕНТОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ

Пичугов Егор Владимирович

магистрант 1 курса, Институт Информационных технологий, ЧелГУ,

Россия, г. Челябинск

Митянина Анастасия Владимировна

научный руководитель,

преподаватель, Институт Информационных технологий, ЧелГУ,

Россия, г. Челябинск

Данная работа представляет собой исследование, направленное как на изучение феномена социальных сетей в качестве инструмента управления социально-экономического характера, так и, в первую очередь, на выявление существующих решений по автоматизации процесса мониторинга публикаций в социальных сетях (в частности, содержащих мнения о новинках кинопроката) средствами анализа тональности текстов. В тексте представлены самые результативные из решений, изученных в ходе подготовки данной работы. На их основе строится концепт предлагаемой системы-агрегатора, выбираются данные для обучающей и тестовой выборки, метод исследования, первичные набор требований и программный инструментарий.

Введение

По данным «Левада-центра» в результате опроса в декабре 2016 года социальные сети в России использует 60 % граждан, что на 20 % больше, чем 5 лет назад [1]. В Соединенных Штатах показатели еще выше: 7 из 10 американцев активно используют средства социальных сервисов [2]. Если говорить о картине в целом по миру, то почти треть населения Земли имеет активный профиль как минимум в одной социальной сети [3]. При этом среднестатистический интернет-пользователь владеет аккаунтом в 7 социальных сетях, что в 2,5 раза больше, чем 5 лет назад [4].

Из приведенных выше показателей можно сделать вывод, что социальные сети в своем текущем состоянии являются крайне эффективным инструментом по выявлению актуальных тенденций в социуме, в том числе относительно таких узко-специализированных тем, как, например, эмоциональное отношение пользователей к новинкам кинопроката.

Выявление подобных тенденций посредством мониторинга общественного мнения является важным и актуальным инструментом управления, который можно применять в социальном, экономическом или иных аспектах. С точки же зрения конечного пользователя предлагаемой системы-агрегатора, данные мониторинга позволят пользователям в простой и понятной форме получить необходимое представление о реакции общественности на очередную новинку кинопроката, и на этом основании принять собственное решение относительно необходимости просмотра отдельно взятой кинокартины. Похожая практика уже используется несколькими интернет-ресурсами, агрегирующими рецензии профессиональных журналистов, однако мнение последних невсегда должным образом коррелирует с мнением среднестатистического зрителя.

Поскольку ежедневно пользователи оставляют в своих профилях миллионы публикаций, становится невозможным обработать эти данные вручную при проведении исследования общественного мнения. В связи с чем становится очевидна потребность в методах автоматизации процесса мониторинга с использованием инструментов интеллектуального анализа данных, позволяющих за приемлемое время обрабатывать большие объемы информации, анализировать и агрегировать содержимое публикаций пользователей в понятном и доступном представлении. Поскольку именно понимание смысла публикаций, их эмоциональной окраски, является наиболее важным и сложным элементом автоматизированной обработки, необходимо применение анализа тональности текстов.

1. Анализ существующих решений

1.1 Научные исследования

Исследования в области мониторинга общественного мнения, в том числе и непосредственно связанного с публикациями мнений о кинокартинах, уже производились ранее другими исследователями. Далее будут приведены наиболее результативные исследования, на основе результатов которых был выбран набор методов и инструментов для собственного исследования и последующего создания системы-агрегатора.

1.1.1 Deep Convolutional Neural Networks for Sentiment Analysis of Short Texts

Исследование с применением сверточных нейронных сетей проводилось специалистами исследовательского центра компании IBM (США) [6]. Обучающая выборка содержала 1,6 млн. публикаций из социальной сети Twitter. В своей работе авторы использовали извлечение признаков уровня символов, слов и предложений (character-, word-, sentence-level embeddings). Результаты представлены в таблице 1.

 

Таблица 1.

Эффективность использованных моделей

Модель

Точность

CharSCNN

86,4%

SCNN

85,2%

 

1.1.2 Ensemble of generative and discriminative techniques for sentiment analysis of movie reviews

Исследование проводилось совместными усилиями специалистов Монреальского университета (Канада) и лабораторией исследования искусственного интеллекта компании Facebook (США) [5]. В качестве набора данных было использовано 50 тысяч кино-обзоров пользователей интернет-ресурса IMDb [6], которые были размечены на положительные и отрицательные. Половина обзоров из набора была задействована в качестве обучающей выборки. Рассматривались одиночные модели и их комбинации. Лучше всего себя показала комбинация всех использованных в исследовании моделей, включающая в себя рекуррентную нейронную сеть с одним скрытым слоем, модификацию классификатора методом опорных векторов NB-SVM (SVM with Naive Bayes features) с триграммами в качестве векторов вхождения и Sentence Vectors. Результаты представлены в таблицах 2 и 3.

 

Таблица 2.

Эффективность использованных одиночных моделей

Модель

Точность

N-gram

86,5%

RNN-LM

86,6%

Sentence Vectors

90,6%

NB-SVM Trigram

91,59%

 

Таблица 3.

Эффективность использованных ансамблевых моделей

Ансамбль

Точность

RNN-LM + NB-SVM Trigram

92,11%

RNN-LM + Sentence Vectors

91,68%

Sentence Vectors + NB-SVM Trigram

92,46%

Все

92,58%

 

1.2 Реализованные продукты

Помимо научных исследований, существуют ряд реализованных решений с обработкой результатов по ключевым словам в режиме реального времени. Однако, все они обладают рядом значимых недостатков в своей реализации и в точности обрабатываемых результатов.

1.2.1 sentiment140

Так, например, сервис sentiment140 [7] на практике показал низкую точность семантического анализа, при этом базируясь на критически малом количестве публикаций социальной сети Twitter. Пример агрегирования по ключевым словам сервиса представлен на рисунке 1. Также на рисунке 2 представлена выборка публикаций, отмеченных сервисом как позитивные, однако, по содержанию этому совершенно не соответствующие. Очевидно, что на таком малом количестве публикаций, использованных для анализа сервисом sentiment140, каждый неверно проанализированный текст публикации критически искажает общий результат. Применяемые сервисом методы обработки данных неизвестны.

 

Рисунок 1. Пример работы сервиса sentiment140

 

Рисунок 2. Публикации, отмеченные как позитивные сервисом sentiment140

 

К дополнительным недостаткам сервиса стоит отнести необходимость авторизоваться в twitter-аккаунте, нестабильную работу сервиса и всего 2 эмоциональные зоны (позитивная и негативная, нейтральная отсутствует).

1.2.2 sentiment viz

Схожими недостатками обладает и сервис sentiment viz [8], за исключением того, что последний визуализирует 4 эмоциональные зоны с делением на 20 подзон. Сервис не применяет методы машинного обучения в своей работе, используя готовые словари, которые сообщают о настроении набора слов по одному или нескольким эмоциональным измерениям [9]. Пример работы сервиса представлен на рисунке 3.

 

Рисунок 3. Пример работы сервиса sentiment viz

 

2. Концепт предлагаемой системы-агрегатора

В ходе анализа существующих решений, представленного в 1, был сделан вывод о том, что при наличии научных исследований с высокими результатами точности анализа тональности публикаций, практическая реализация данной задачи, продуктом которой может воспользоваться конечной пользователь, оставляет желать лучшего. Поэтому создание предлагаемой системы-агрегатора является актуальной и потенциально востребованной задачей.

2.1 Набор данных для исследования

В качестве обучающей выборки будет использоваться набор данных, содержащий на данный момент 50 тысяч рецензий с интернет-ресурса Кинопоиск [10], размеченных на 3 эмоциональные зоны: позитивная, негативная и нейтральная. Пропущенных признаков и дубликатов в наборе нет, очистка данных не требуется. К моменту начала непосредственной разработки системы-агрегатора ожидается, что набор данных будет существенно увеличен.

В качестве тестовых данных будут использованы публикации из социальных сетей Facebook, Twitter и Вконтакте. Публикации будут собираться разработанной специально для этой цели программой для парсинга по наборам ключевым слов, которая будет является полноценным модулем системы-агрегатора, скрытым от конечного пользователя. Не исключается, что рецензии пользователей с интернет-ресурсов IMDb и Кинопоиск также будут использоваться в тестовой выборке. В отличие от сервисов, представленных в 1.2, тестовые данные будут собираться заранее, а не в режиме реального времени по запросу конечного пользователя. Одной из причин этого является невозможность в короткие сроки получить через API социальных сетей большие объемы данных. Поэтому публикации по каждой отдельной новинке кинопроката будут собираться заблаговременно, а сам процесс парсинга будет проходить в несколько этапов с промежутками по времени. Для дальнейшего использования системой-агрегатором готовые данные будут хранится в базе данных.

2.2 Метод исследования

На основании приведенных примеров в 1.1, в исследовании будут опробованы комбинации следующих инструментов: метод опорных векторов (в частности, его описанная выше модификация NB-SVM), математический аппарат искусственных нейронных сетей: сверточных и рекуррентных.

Исследование будет представлять собой последовательное применение приведенных выше инструментов к обучающей выборке с разными параметрами. Одиночные модели будут использованы на этапе эксперимента, однако очевидно, что комбинация методов, как правило, дает более точный результат.

В качестве метрики для выявления наиболее результативной модели будет использована F-мера, которая учитывает влияние точности и полноты классификатора на результаты работы. Наиболее результативная модель будет использована на дальнейших этапах разработки системы-агрегатора. В случае равных показателей у моделей предпочтение будет отдано модели с наименьшим временем выполнения.

2.3 Технологическое решение

Перед началом этапа полноценного проектирования системы-агрегатора составлен перечень первичных требований и программный инструментарий.

Система должна автоматизировано извлекать, хранить и анализировать пользовательские публикации из социальных сетей по заданным ключевым словам и наборам ключевых слов, а также формировать комплексную оценку в ходе выполнения анализа тональности данных и иметь высокий процент точности результатов, сравнимый по результативности с исследованиями, представленными в 1.1. Система должна осуществлять анализ набора данных на русском и английском языках, а также должна иметь наглядное визуальное, понятное и единотрактуемое представление агрегированной оценки по каждой отдельно взятой новинке кинопроката.

В качестве основного языка программирования будет задействован Python 3.x, поскольку для последнего существует большое количество многофункциональных библиотек для создания нейронных сетей и использования других инструментов интеллектуального анализа данных. В первичный набор библиотек для Python, необходимых для данного исследования, входят scikit-learn, keras, theano, pandas, numpy.

В ходе реализации будут использованы методики построения высоконагруженных распределенных систем с поддержкой хранения и обработки больших объемов данных.

 

Список литературы:

  1. Аналитический центр Юрия Левады (включено в реестр иностранных агентов), За пять лет общение в соцсетях выросло, доступ: http://www.levada.ru/2017/01/24/za-pyat-let-obshhenie-v-sotssetyah-vyroslo/
  2. Pew Research Center, Social Media Fact Sheet, доступ: http://www.pewinternet.org/fact-sheet/social-media/
  3. E-marketer, Nearly One-Third of the World Will Use Social Networks Regularly This Year, доступ: https://www.emarketer.com/Article/Nearly-One-Third-of-World-Will-Use-Social-Networks-Regularly-This-Year/1014157
  4. Global Web Index, Internet users have average of 7 social accounts, доступ: http://blog.globalwebindex.net/chart-of-the-day/internet-users-have-average-of-7-social-accounts/
  5. Mesnil G., Mikolov T., Ranzato M., (2015), Ensemble of generative and discriminative techniques for sentiment analysis of movie reviews, доступ: https://www.researchgate.net/publication/269721857_Ensemble_of_Generative_and_Discriminative_Techniques_for_Sentiment_Analysis_of_Movie_Reviews
  6. Интернет-ресурс Internet Movie Database (IMDb), доступ: http://www.imdb.com/
  7. Интернет-ресурс Sentiment140, доступ: http://www.sentiment140.com
  8. Интернет-ресурс Sentiment viz, доступ: https://www.csc2.ncsu.edu/faculty/healey/tweet_viz/tweet_app/
  9. How sentiment viz works, доступ: https://www.csc2.ncsu.edu/faculty/healey/tweet_viz/
  10. Интернет-ресурс Кинопоиск, доступ: http://www.kinopoisk.ru/
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.