Статья опубликована в рамках: XXIV Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 03 июля 2017 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
ИССЛЕДОВАНИЕ МЕТОДОВ АВТОМАТИЧЕСКОГО АНАЛИЗА ТОНАЛЬНОСТИ ТЕКСТА
В последнее время в Интернете получили стремительный рост социальные сети, такие как Facebook и Twitter стали чрезвычайно популярны с момента их появления. Сегодня миллионы людей делятся своими впечатлениями о событиях в мире со своими друзьями и знакомыми в социальных сетях.
Одной из особенностей таких социальных сетей является поиск нужных контактов и установление связей между людьми. Для анализа истории сообщений пользователей может использоваться анализ тональности текста.
Распознавание эмоциональной окраски текста является одной из задач классификации. Такая задача может применяться не только для классификации текста, но и для задач искусственного интеллекта. Анализ тональности текста ( ) – это область компьютерной лингвистики, занимающаяся выделением из текстов эмоционально окрашенной лексики или эмоциональной оценки автора. При помощи анализа тональности текста коммерческие компании могут узнать мнение покупателей, о каком либо продукте. Эти данные могут быть использованы для повышения качества продукта, определения целевой аудитории, а также для определения главных достоинств и недостатков конкурентов.
На данный момент существует два чаще всего используемых подхода к проблеме анализа тональности текстов: подход, основанный на методах машинного обучения и подход, основанный на использовании словарей тональной лексики.
Рисунок 1. Подходы, применяемые для определения тональности текста
Подход, основанный на использовании словарей тональности, заключается в анализе тональности отдельных слов (термов) в тексте и последующее определение тональности всего текста согласно оценкам отдельных слов, используемых в этом тексте.
В подходе, основанном на машинном обучении, анализ тональности заключается в задаче классификации текстов, которая может быть решена при помощи обучения классификатора на заранее размеченной коллекции текстов.
Каждый из этих двух подходов имеет свои преимущества и недостатки. Сейчас существуют, методы, основанные на применении словарей тональности которые не нуждаются в обучающей коллекции, то есть больше не требуется ручная разметка текстов. Кроме того, данные методы не нуждаются в составлении обучающей функции, а также, «решения», принимаемые классификатором могут быть легко объяснены. В таком случае для данных методов необходимы предварительно размеченные словари тональности, которые так же обязаны учитывать предметную область исследуемого текста. В методах машинного обучения не используются словари тональности. Как показывает практика, классификаторы демонстрируют высокое качество классификации.
Одной из наиболее значимых проблем в области компьютерных алгоритмов является проблема извлечения «смысла» из текста на естественном языке и представление его в удобном для обработки компьютером виде. Наиболее известным и простым способом представления знаний является векторная модель.
Векторная модель – это представление коллекции документов в информационном поиске векторами из одного общего для всей коллекции векторного пространства.
Существует две основных модели представления текста:
- Bag of Words - это модель часто используемая при обработке текстов, представляющая собой неупорядоченный набор слов, входящих в обрабатываемый текст.
- TF-IDF - статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции.
Был проведен анализ задач классификации и определены наиболее популярные классификаторы:
- «Логистическая регрессия – это статистическая модель, используемая для предсказания вероятности возникновения некоторого события путём подгонки данных к логистической кривой. Логистическая регрессия применяется для предсказания вероятности возникновения некоторого события по значениям множества признаков». [1, с. 72]
- «RF (random forest) – это множество решающих деревьев. В задаче регрессии их ответы усредняются, в задаче классификации принимается решение голосованием по большинству». [2, с. 109]
- «Байесовский подход к классификации основан на теореме, утверждающей, что если плотности распределения каждого из классов известны, то искомый алгоритм можно выписать в явном аналитическом виде. Более того, этот алгоритм оптимален, то есть обладает минимальной вероятностью ошибок». [3, с. 56]
На основе полученных данных в ходе исследования был проведен эксперимент по сравнению двух видов алгоритмов классификации Бинарной и иерархической классификации текстовых сообщений в социальной сети Twitter.
«Twitter – социальная сеть для публичного обмена сообщениями при помощи веб-интерфейса, SMS, средств мгновенного обмена сообщениями или сторонних программ-клиентов». [4]
Для использования во внешних программных продуктах текстовых сообщений (твиттов) из твитера использовался Twitter API – это набор готовых классов, и методов, предоставляемых твитером.
В качестве языка разработки был выбран Python. «Python – это высокоуровневый язык программирования общего назначения, ориентированный на повышение производительности разработчика и читаемости кода». [5, с. 302]
В качестве среды разработки была выбрана JupyterNotebook. Jupyter Notebook – это веб-среда, которая позволяет выполнять интерактивные вычисления в документах для ноутбуков. Это позволяет создавать и обмениваться документами, которые содержат живой код, уравнения, визуализацию и пояснительный текст.
Алгоритм бинарной классификации предполагает разбиение оценок системой только на два вида – позитивный/негативный текст.
Для тестирования точности алгоритмов классификации, был использован метод перекрестной проверки (скользящий контроль, cross – validation). В рамках этой процедуры фиксируется некоторое множество разбиений исходной выборки на две подгруппы: обучающую и контрольную. На рисунке 2 показана точность классификации трех типов классификаторов на тестовых данных.
Рисунок 2. Точность классификации
Как видно из рисунка 2, что логистическая регрессия имеет наибольшую точность классификации.
Эмоциональная окраска твиттов может быть не только положительной или отрицательной. На самом деле всегда присутствуют твитты, которые вообще никак не окрашены эмоционально, т.е. они нейтральны или нерелевантные и просто содержат информацию. Для классификации текстовых сообщений на три класса: «позитивные», «негативные» и «нейтральные», применим иерархический подход.
В представленном алгоритме иерархической классификации поиск нейтральных твиттов осуществляется на основе корпуса нейтральных и эмоционально окрашенных слов Liu and Hu opinion lexicon.
На рисунке 3 показана точность классификации трех типов классификаторов на тестовых данных.
Рисунок 3. Точность классификации
Как видно из рисунка 3, что логистическая регрессия имеет наибольшую точность классификации.
При сравнении двух типов классификации (рисунок 4) можно сделать вывод, что иерархическая классификация в среднем на 5% лучше бинарной.
Рисунок 4. Сравнение видов классификации
Таким образом, в настоящей работе рассмотрены наиболее популярные алгоритмы классификации для анализа тональности текстовых сообщений: первый – алгоритм бинарной классификации текстовых сообщений, второй – алгоритм иерархической классификации. Был определен наиболее эффективный алгоритм автоматического анализа тональности текстовых сообщений в Twitter. Так же были рассмотрены подходы, применяемые для определения тональности текста, и проанализированы векторные модели представления текста.
Список литературы:
- Боярский К. К. Введение в компьютерную лингвистику: учеб. пособие – СПб: НИУ ИТМО, 2013. – 72 с.
- Hastie T., Tibshirani R., Friedman J. Chapter 15. Random Forests // The Elements of Statistical Learning: Data Mining, Inference, and Prediction. - 2nd ed. - Springer-Verlag, 2009 -109 с.
- Субботин С. В., Большаков Д. Ю. Применение байесовского классификатора для распознавания классов целей. // «Журнал Радиоэлектроники», Изд. 4е – 2006. – 56 с.
- Храмов Д. Использование Twitter API для сбора данных. URL: http://dkhramov.dp.ua/images/edu/Stu.WebMining/ch17_twitter.pdf (дата обращения 30.03.2017).
- Коэльо Л.П., Ричарт В. Построение систем машинного обучения на языке Python. // «Машинное обучение», Изд. 2е – 2016 -302 с.
дипломов
Оставить комментарий