Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: XLVIII Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 26 декабря 2016 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Руденко А.А. АНАЛИЗ МЕТОДОВ АГРЕГАЦИИ ДАННЫХ ДЛЯ СОЗДАНИЯ НЕОБХОДИМЫХ ПАКЕТОВ ДАННЫХ ПОЛЬЗОВАТЕЛЯ СОЦИАЛЬНЫХ СЕТЕЙ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. XLVIII междунар. студ. науч.-практ. конф. № 11(47). URL: https://sibac.info/archive/technic/11(47).pdf (дата обращения: 22.12.2024)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

АНАЛИЗ МЕТОДОВ АГРЕГАЦИИ ДАННЫХ ДЛЯ СОЗДАНИЯ НЕОБХОДИМЫХ ПАКЕТОВ ДАННЫХ ПОЛЬЗОВАТЕЛЯ СОЦИАЛЬНЫХ СЕТЕЙ

Руденко Алина Анатольевна

студент, кафедра Программной Инженерии ХНУРЭ, г. Харьков

На сегодняшний день существует большое количество социальных сетевых приложений, доступных в сети Интернет. Среди наиболее популярных из них такие системы, как Facebook, LinkedIn, Google+, My Space и т.д. Аккаунты в социальных сетях есть у миллионов пользователей. Также важно заметить, что каждый среднестатистический пользователь слциального медиа имеет профиль в более чем одной из сетей. Некоторые данные из профиля пользователя социальной сети являются конфиденциальными, а некоторые - открытыми. Большинство подобных сайтов предлагают возможность настройки параметров конфиденциальности, таким образом человек сам регулирует достпуность совей персональной информации.

Из всего вышесказанного следует, что сегодня существует огромное количество открытых, доступных данных, которые можно получить с помощью сервисов социальных сетей. Подобная информация может быть объединена и использована для создания персонального пакета данных пользователя, а также для определения способа взаимодействия с ним.

Далее рассмотрим подробнее платформы агрегации данных, которые применяются для информации из социальных сетях, методы обработки текстовых и сетевых данных, методы идентификации пользователей различных социальных сетей, а также методы поиска сообществ в сетях.

Агрегация данных, которая базируется на веб-платформах, включает в себя агрегирование общедоступных данных о персоне, взятых с сайтов социальных сетей, таких как Facebook, LinkedIn и т.д. Платформа имеет возможность взаимодействовать с поставщиками социальных сетей для получения данных в режиме реального времени, основываясь на таких ключевых личных данных, как, например, имя. Информация о связях пользователя подобного сервиса может быть использована для создания так называемой виртуальной социальной сети, объединяющей пользователей по набору определенных критериев.

При заполнении личного профиля в социальной сети люди. Котрые пользуются этим сервисом, очень часто намеренно или нет забывают заполнять некоторые поля или предостовляют ложные факты своей биографии, интересы и предпочтения. Кроме того, в тематических сетях (Twitter, YouTube) профиль пользователя часто ограничен некоторым набором базовых атрибутов, которого недостаточно для решения большинства задач, которые могут предусматривать персонализацию результатов.

Таким образом, актуальными являются методы частичной идентификации пользователей, которые создали сообщения, основываясь на значениях их демографических атрибутов. Такие атрибуты подлежат разделению на так называемые категориальные данные (к ним относятся пол, раса, национальность, семейный статус, образование, профессия, трудоустройство, религиозные и политические взгляды) и численные данные (возраст).

Методология определения демографических атрибутов пользователей социальной сети по контенту принадлежащих им сообщений состоит из следующих этапов: создание основного пакета сведений; подготовительная обработка текстовых данных;создание пространства признаков описания; фильтрация информативных признаков; машинное обучение; классификация.

Все вышеописанные этапы, за исключением первого, выполняются для каждого атрибута.

На этапе построения базового набора данных проводится отбор показателей пользователей из источников – социальных сетей. Для каждого человека в начале запрашивается только его личный профиль.

На этапе предварительной обработки текстовых данных к показателям набора, полученного на проведенном ранее этапе, применяется метод нахождения языковой принадлежности текста. После этого информация пользователей проходит процедуру распределения в различные наборы в зависимости от выясненого языка. Кроме того, на этом этапе происходит  фильтрация сообщений, авторство которых не принадлежит рассматриваемому человеку. То есть, единицей набора сведений для каждого показателя и языка будет являться набор строк, полученных из текстовых данных сообщений и профиля конкретного пользователя.

На этапе построения пространства признаков описания, основываясь на сообщениях пользователей, определяются лингвистические признаки. Из полученных ключевых параметров создается набор уникальных признаков, представленых как N-грамма,  размером от 1 до 3. Важным фактом является то, что порядок ключей при таком построении учитывается. Каждый из типов признаков представляется парой подтипов: с учетом регистра символов и без оного. Итоговый вектор признаков для пользователя бинарен, то есть содержит только сведенья о наличии или отсутствии признака в его исследуемых данных. Количество экземпляров одного признака не учитывается.

На этапе получения информативных признаков используется метод, который основывается на подсчете взаимных условных показателей. Итеративно выполянется отбор признаков, в которых содержится наибольший объем информации о значении атрибута и при этом он существенно отличается от признаков, избранных ранее. Таким образом, каждый признак набора, который будет получен в результате, является высоко информативным и слабо зависит от других признаков.

На этапе обучения выполняется построение модели классификации с использованием пассивно-агрессивного алгоритма [4].

На этапе классификации в качестве исходных данных используются текстовые показатели сообщений и атрибуты профиля пользователя. На основании этих данных запускается в работу алгоритм, который выполянет классификацию согласно с заданным языком и атрибутом. В качестве результата будет выступать значение атрибута выбранного пользователя.

Если говорить о такой социальной сети, как Twitter, для поиска событий в наборе сообщений этой социальной сети разработана специальная система, чья работа основана на выполнении следующих этапов [3,7]:

  • поиск данных для каждого ключего показателя (последовательности символов) основываясь на информации о частоте его посещения системы;
  • применение вейвлетного анализа к полученным наборам показателей;
  • удаление ключей с ошибочной или незначительной информацией с использованием автокорелляции;
  • создание матрицы кросс-корелляции ключей;
  • поиск событий путем кластеризации полученной матрицы;
  • поиск сообщений, описывающих каждое подобное событие с использованием метода мультидокументального реферирования.

Одной из фундаментальных проблем при использовании данных о пользователе, полученной из социальных сетей, является ее фрагментированность.

Идентификация пользователя в социальных сетях позволяет построить более полную картину о социальном положении пользователя в сети Интернет. Определение аккаунтов, которые принадлежат одному человеку в нескольких социальных сетях, позволяет построить максимально наполненный социальный граф. Это может быть полезно при решении многих задачах, таких как интернет-реклама, рекомендательные системы и т.д.

Так как поиск аккаунтов в сетях в общем случае требует наличия правдивых данных, целесообразно ограничить пространство поиска.

Задача определния людей, использующих сервисы социальных сетей, в различных сервисах состоит в сопоставлении профилей пользователей в рамках наборов контактов некоторого определенного центрального пользователя.

Была разработана методика [1, 6] решения проблемы определения пользователей разных социальных медиа. Эта задача в общем случае сводится к поиску разных вариантов виртуальных личностей одного и того же человека в нескольких социальных медиа. Основываясь на графической вероятностной модели условного произвольного поля разработана модель, основанная на сходстве виртуальных персоналий пользователей по атрибутам их аккаунтов и  взаиможействии с другими пользователями. Описанный метод использует социальные связи рассматриваемых социальных сетей через сравнение уникальных списков контактов, комбинируя их с информацией показателей аккаунтов, благодаря чему он лишен несокльких недостатков существующих методов определения пользователей.

Поиск сообществ пользователей - важный инструмент анализа социальных сетей. Он позволяет исследовать модульную организацию сети и использовать полученные данные для решения задач [5]. Например, знание о структуре сообществ очень важны для расчета условного расстояния между пользователями в социальном графе, некоторых аналитических приложений, оптимизации потоков данных и т.д.

Для нахождения неявных групп  пользователей социальных сетей на основе социальных связей между ними используется алгоритм, который локально имитирует общение между парами индивидуумов, и моделирует  глобально процесс инфекции. Основой алгоритма является процесс обмена метками сообществ между вершинами графа, основываясь на динамических правилах взаимодействия, в ходе которого поощряется объединения сообществ ближайших контактов отдельных пользователей в глобальные сообщества.

Особенностями данного метода являются его приспособление как для ориентированных, так и для неориентированных графов, учет коефициентов на ребрах, поиск как рядовых, так и особенных сообществ; поиск локальных (среди ближайших связей пользователя) и глобальных группировок, невысокая вычислительная сложность; возможность распределенной реализации [2].

Исследования и предложены модели, подходы позволят стейкхолдерам электронного бизнеса получать представление о пользователе на основе полученной информации и с помощью быстрого, последовательного и интерактивного доступа к информации повысить эффективность ведения бизнеса для определенного сегмента потребителей - пользователей социальных сетей, что будет способствовать распространению и развитию электронного бизнеса с помощью данных социальных сетей.

 

Список литературы:

  1. Коршунов А. и др. Определение демографических атрибутов пользователей микроблогов // Труды Института системного программирования РАН, том 25, 2013. DOI: 10.15514/ISPRAS-2013-25-10.
  2. Grzegorz Malewicz, Matthew Austern, Aart Bik, James Dehnert, Ilan Horn, Naty Leiser, Grzegorz Czajkowski. Pregel [Text] / А system for largescale graph processing. Proceedings of the 2010 ACM SIGMOD International Conference on Management of data.
  3. Jianshu Weng, Bu-Sung Lee [Text] / Event Detection in Twitter // ICWSM 2011.
  4. Koby Crammer, Ofer Dekel, Joseph Keshet, Shai Shalev-Shwartz, Yoram Singer. [Text]/  Online Passive-Aggressive Algorithms // JMLR, 7(Mar):551–585, 2006.
  5. Nazar Buzun, Anton Korshunov. [Text] / Innovative Methods and Measures in Overlapping Community Detection // Proceedings of the International Workshop on Experimental Economics and Machine Learning (EEML 2012), Brussel, Belgium
  6. Sergey, Bartunov [Text] /. Joint Link-Attribute User Identity Resolution in Online Social Networks // Proceedings of The Sixth SIGKDD Workshop on Social Network Mining and Analysis (SNAKDD’12)
  7. Zhu, Xiaojin and Goldberg, Andrew and Gael, Jurgen Van and Andrzejewski, David [Text] / Improving Diversity in Ranking using Absorbing Random Walks // HLT-NAACL, 97-104, 2007.
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.