Статья опубликована в рамках: X Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 01 декабря 2016 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
РАБОТА С БОЛЬШИМИ ДАННЫМИ НА ПРИМЕРЕ АНАЛИЗА ГРУППЫ СОЦИАЛЬНОЙ СЕТИ
Аннотация
В данной работе предложен новый метод для анализа данных онлайновых социальных сетей на примере сайта Вконтакте.
В качестве сырого набора данных (Raw data set) нами был собран материал о 13372 студентах Самарского университета, на основе которого мы приводим некоторые статистики.
Используя алгоритм кластеризации k-means и взяв в качестве объектов для кластеризации координаты населенных пунктов, из которых приехали студенты, нами были выявлены группы пользователей, объединенных по новому признаку.
Введение
На текущий момент в сфере IT доступно огромное количество информации. Эта информация сама по себе бесполезна, пока она не будет превращена в полезную. Необходимо проанализировать это огромное количество информации для получения полезных данных.
Добыча данных (Data mining, дата-майнинг) – это процедура извлечения информации из большого набор данных. Другими словами, можно сказать, что добыча данных – это извлечение знаний из этих данных. Но извлечение информации – не единственное, что нам нужно произвести. Добыча данных так же включает в себя фильтрацию данных (Data Cleaning), интеграцию данных (Data Integration), изменение данных (Data Transformation), выделение структур (Pattern Evaluation) и представление данных (Data Presentation).
Дата-майнинг ставит перед собой задачи: классификации, кластеризации, визуализации, прогнозирования, ассоциации, анализа.
Добыча данных широко используется в различных областях. Несмотря на то, что в настоящий момент имеется несколько коммерческих система для дата-майнинга, в этой сфере все еще имеются некоторые нерешенные проблемы.
Ниже представлен краткий список областей, где добыча данных особенно активно используется:
- Анализ финансовых показателей
- Сфера продаж
- Телекоммуникации
- Анализ биологических данных
- Некоторые другие научные приложения
Классификация
Это наиболее простая и распространенная задача добычи данных. Каждый объект можно отнести к тому или иному классу по набору признаков.
Для наших экспериментов мы собрали данные из социальной сети Вконтакте с помощью платформы Open API [1]. Каждая рассматриваемая запись содержит следующие поля: userid (идентификатор пользователя в системе), sex (полbdate (дата рождения), country (страна), city (город), home_town (родной город), universities (ВУЗ). Из этого множества мы отобрали три выборки по значению поля ВУЗ, а именно студентов объединенного Самарского университета, а также двух бывших университетов: СГАУ и СамГУ, которые сейчас входят в состав Самарского университета.
Возьмем один признак – факультет (институт) студента и построим диаграмму распределения студентов (рисунок 1).
Рисунок 1. Диаграмма распределения студентов Самарского университета по факультетам
Выберем новый признак – возраст студента. Построим диаграмму распределения по возрастам (рисунок 2). В выборке участвовали студенты от 20 до 26 лет.
Рисунок 2. Распределение студентов Самарского университета по возрасту
Исходя из анализа приведенной выше диаграммы средний возраст студента Самарского университета – 23 года.
Выберем новый признак – пол студента. Построим диаграмму (рисунок 3).
Рисунок 3. Распределение студентов Самарского университета по половому признаку
Посмотрим на соотношение мужчин и женщин на самых многочисленных факультетах (рисунок 4).
Рисунок 4. Распределение студентов факультетов Самарского университета по половому признаку
Кластеризация
Кластеризация - логическое продолжение классификации. Эта задача более сложная, так как особенность кластеризации состоит в том, что классы объектов изначально не определены. Результатом кластеризации является разбиение объектов на группы. Одним из самых популярных методов кластеризации является метод k-means.
K-means – один из обучающихся алгоритмов, решающих известную проблему разбиения группы объектов на классы. Процедура достаточно просто и понятно разделяет данное множество на заранее заданное количество (k) кластеров.
Основная идея заключается следующем. Сначала мы определяем k центров, по одному на каждый кластер. Эти центры должны быть расположены определенным образом, потому что разное их размещение влечет за собой разный результат. Наилучшим вариантом является их размещение как можно дальше друг от друга. На следующем шаге мы соотносим каждую точку данного множества с ближайшим центром. Когда все точки отнесены к какому-либо из k центров мы считаем первый шаг завершенным – получено начальное группирование точек. Теперь нам необходимо посчитать новые центры кластеров, полученных на предыдущем шаге. Затем вновь соотносим точки с ближайшим центром и проходим все шаги сначала – у нас получился цикл, который продолжается до тех пор, пока центры кластеров не перестанут смещаться [2, c.38].
В качестве объектов для кластеризации возьмем координаты населенных пунктов, из которых приехали студенты. По оси X отложим широту, а по оси Y – долготу (рисунок 5).
Рисунок 5. Визуализация расположения населенных пунктов
При помощи алгоритма k-means разобьем точки на 6 кластеров (рисунок 6):
Рисунок 6. Кластеризация населенных пунктов
Как видно из рисунка выше, алгоритм справился со своей задачей: группы близко расположенных точек объединены в один кластер.
Заключение
В данной работе нами были исследованы основные задачи дата-майнинга –классификация и кластеризация на примере пользователей социальной сети, обучающихся в одном университете.
В заключении мы приходим к выводу, что возможно использовать эти методы для выявления групп с общими признаками и использовать их в дальнейшем для формирования рекомендаций либо решения других задач.
Список литературы:
- Документация об использовании API Вконтакте. [электронный ресурс] — Режим доступа. — URL:https://vk.com/dev/manuals (дата обращения 26.11.2016).
- Миркин Б. Г. Методы кластер-анализа для поддержки принятия решений. М.: Изд. дом Национального исследовательского университета «Высшая школа экономики», 2011. – 88 с.
дипломов
Оставить комментарий