Поздравляем с Новым Годом!
   
Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: LVII Международной научно-практической конференции «Инновации в науке» (Россия, г. Новосибирск, 30 мая 2016 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции часть 1, Сборник статей конференции часть 2

Библиографическое описание:
Галимов Р.Р., Стефанова И.А. СПОСОБЫ ПОЛУЧЕНИЯ ДАННЫХ ИЗ СОЦИАЛЬНЫХ СЕТЕЙ ДЛЯ ПОИСКА ПОТЕНЦИАЛЬНЫХ АБИТУРИЕНТОВ // Инновации в науке: сб. ст. по матер. LVII междунар. науч.-практ. конф. № 5(54). Часть I. – Новосибирск: СибАК, 2016. – С. 37-41.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

СПОСОБЫ ПОЛУЧЕНИЯ ДАННЫХ ИЗ СОЦИАЛЬНЫХ СЕТЕЙ ДЛЯ ПОИСКА ПОТЕНЦИАЛЬНЫХ АБИТУРИЕНТОВ

Галимов Роман Русланович

канд. техн. наук, доц. Поволжского государственного университета телекоммуникаций и информатики,

РФ, гСамара

Стефанова Ирина Алексеевна

канд. техн. наук, доц. Поволжского государственного университета телекоммуникаций и информатики,

РФ, гСамара

METHODS OF OBTAINING DATA FROM SOCIAL NETWORKS TO SEARCH FOR POTENTIAL APPLICANTS

Roman Galimov

postgraduate student of Volga Region State University of Telecommunications and Informatics,

Russia, Samara

Irina Stefanova

phD (Science), assistant professor of Volga Region State University of Telecommunications and Informatics,

Russia, Samara

 

АННОТАЦИЯ

В статье рассматривается техническая возможность получения данных о потенциальных абитуриентах из социальных сетей для последующего использования этой информации в ВУЗах, а также анализируются различные способы достижения этой цели.

ABSTRACT

The article discusses technical possibility of collecting data about prospective students from social networking. Further this information could be used in Universities. The authors analyze different ways of creating the target technical support.

 

Ключевые слова: Социальная сеть, поиск людей, программное обеспечение, абитуриент, анализ информации, HTTP, HTML, JSON, VK API.

Keywords: Social network, people search, software, prospective student, analysis of information, HTTP, HTML, JSON, VK API.

 

С недавнего времени вопросом, как привлечь абитуриентов в свое учебное заведение, озабочены многие учебные заведения нашей страны. Дни открытых дверей, профориентационная работа среди выпускников школ, размещение полезной информации на сайтах своего ВУЗа или колледжа – вот тот стандартный перечень мероприятий, через которые проходят, как правило, все учебные заведения, в поисках привлечения потенциальных абитуриентов для поступления и дальнейшего обучения их в своих стенах.

Но, как показывает практика, этих мероприятий в период острой конкуренции между многопрофильными учебными заведениями для решения поставленной задачи, как правило, не хватает. В этом деле на помощь могут прийти такое популярное средство для общения, как социальные сети. Но, для поиска потенциальных абитуриентов в социальных сетях на сегодняшний день нет готового решения [1], так как в социальных сетях не предусмотрена возможность анализа полученной при поиске информации.

Поэтому, для создания собственного инструмента, выполняющего данную задачу, необходимо разработать программное обеспечение, удовлетворяющее следующим требованиям:

  • инструмент должен обладать интуитивно понятным графическим интерфейсом;
  • работа с инструментом должна быть простой и не требовать от пользователя особых технических навыков;
  • поиск должен проходить массово, с выборкой результатов по ряду заданных критериев;
  • полученные результаты необходимо анализировать на пригодность их использования для решения поставленной задачи.

Первая задача, которую необходимо решить в рамках проектирования такой системы – проверить техническую возможность получения данных из социальных сетей, найти несколько способов достижения этой цели, проанализировать их и найти лучшее, которое и использовать в дальнейшем.

Самое тривиальное решение, не требующее использования внешних сервисов (разумеется, за исключением самой социальной сети), – отправка запросов по HTTP протоколу на адрес сайта таким же образом, как это делает веб-браузер, и дальнейший анализ ответа сервера, который представляет собой HTML-код страницы, содержащий всю нужную нам информацию. Подобный анализ в среде разработчиков принято называть парсингом [3].

В общем смысле, парсинг – это линейное сопоставление последовательности слов с правилами языка. Понятие «язык» можно рассматривать в самом широком контексте. Это может быть человеческий язык (например, русский), используемый для общения людей. А может быть и формализированный язык, в частности, любой язык программирования.

Парсинг сайтов – последовательный синтаксический анализ информации, размещённой на интернет-страницах. Сам текст интернет-страниц – это иерархичный набор данных, структурированный с помощью человеческих и компьютерных языков. На языке, удобном для человека, предоставлена информация, знания, ради которых, собственно, люди и пользуются Интернетом. Компьютерные же языки (например, HTML, JavaScript, CSS) определяют, как информация выглядит на мониторе для удобства ее восприятия человеком.

Парсинг сайтов является эффективным решением для автоматизации сбора и изменения полученной в социальных сетях информации.

По сравнению с человеком, компьютерная программа-парсер способна выполнить следующие действия:

  • быстро обойти тысячи веб-страниц;
  • аккуратно отделить техническую информацию от «человеческой»;
  • выполнить фильтрацию, то есть безошибочно отобрать нужное и отбросить лишнее;
  • эффективно упаковать конечные данные и представить в требуемом виде.

Как известно, методов парсинга много: это и регулярные выражения, и обыкновенный поиск подстроки средствами языка. Все эти способы имеют один большой недостаток – при небольших изменениях на сайте необходимо править саму программу-парсер. Решением этой проблемы может служить использование сторонней библиотеки, например, HtmlAgilityPack, позволяющей построить DOM-дерево (от англ. Document Object Model – «объектная модель документа») полученной страницы, которое затем можно обрабатывать при помощи XPATH (от англ. XML Path Language, язык запросов к элементам документа).

После устранения проблем анализа страницы конкретного сайта, остаются ещё следующие проблемы, которые весьма сложно решить. Это:

  • большой объем кода парсинга;
  • добавление поддержки различных социальных сетей, которые приводят к еще большему увеличению кода;
  • сложнореализуемый массовый поиск, так как исходными данными должен являться URL-адрес страницы конкретного пользователя.

Проблему поддержки различных социальных сетей можно решить, просто остановившись на одной из них. Текущая ситуация в этой области позволяет сделать выбор: в России, например, самой популярной сетью является «ВКонтакте». По статистическим данным самой компании, в ней зарегистрировано более 230 миллионов человек, причем 55 миллионов из них заходят на сайт каждый день. Если потенциального абитуриента не удалось найти «ВКонтакте», то его вряд ли удастся найти где-то еще, и, исходя из этого, добавлять поддержку различных социальных сетей при поиске нужной информации становится излишним.

Остановившись уже на конкретной сети, появляется еще одна возможность для поиска – использование готового API (от англ. Application Programming Interface – интерфейс программирования приложений).

Согласно документации VK API [2], работа с ним осуществляется при помощи HTTPS запросов к серверу-обработчику, который в ответ высылает JSON-объект (от англ. JavaScript Object Notation). Преимущества такого подхода очевидны. JSON – простой формат обмена данными, удобный для чтения, как человеком, так и компьютером. Он основан на подмножестве языка программирования JavaScript, определенного в стандарте ECMA-262 3rd Edition – December 1999 [4]. Формат полностью независим от языка реализации. Эти свойства делают JSON идеальным языком обмена данными.

Как отмечалось выше, главная проблема простого парсера – сложная реализация массового поиска – тоже переходит в зону ответственности внешнего API, в то время как системе остается лишь верно посылать запросы и анализировать полученные результаты.

Таким образом, отказ от поддержки множества социальных сетей позволяет на данном этапе решить большую часть выявленных проблем: работа с VK API позволит разработать простую и мощную автоматизированную систему по сбору и анализу данных. Данная программная реализация может быть использована учебными заведениями для привлечения в них абитуриентов.

 

Список литературы:

  1. Галимов Р. Социальные сети как источник информации об абитуриентах [Текст] // Символ науки – 2016. – № 1. С. 40.
  2. Запросы к API – Разработчикам – [Электронный ресурс]: URL https://new.vk.com/dev/api_requests (Дата обращения: 25.05.2016).
  3. Парсинг html-сайтов – [Электронный ресурс]: URL http://parsing.valemak.com (Дата обращения: 18.05.2016).
  4. JSON – [Электронный ресурс]: URL http://www.json.org/json-ru.html (Дата обращения: 16.05.2016).
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий