Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: LXXV Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 11 марта 2019 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Калытюк И.С. РАЗРАБОТКА И ИССЛЕДОВАНИЕ АЛГОРИТМА ИЗВЛЕЧЕНИЯ ДАННЫХ ГЕОЛОКАЦИИ В СОЦИАЛЬНЫХ СЕТЯХ: РЕЗУЛЬТАТЫ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. LXXV междунар. студ. науч.-практ. конф. № 3(74). URL: https://sibac.info/archive/technic/3(74).pdf (дата обращения: 20.04.2024)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

РАЗРАБОТКА И ИССЛЕДОВАНИЕ АЛГОРИТМА ИЗВЛЕЧЕНИЯ ДАННЫХ ГЕОЛОКАЦИИ В СОЦИАЛЬНЫХ СЕТЯХ: РЕЗУЛЬТАТЫ

Калытюк Иван Сергеевич

магистрант 2 курса, кафедра автоматики НГТУ,

РФ, г. Новосибирск

Гунько Андрей Васильевич

научный руководитель,

канд. техн. наук, доцент НГТУ,

РФ, г. Новосибирск

Описание реализации алгоритма

В соответствии с постановкой задачи [1] реализована система, которая использует API социальных сетей и позволяет по открытым данным с этих сайтов получить информацию о геолокационных данных различных пользователей.

Цель эксперимента

Целью эксперимента является доказательство того, что разработанная система выполняет свое предназначение при различных входных данных, заданных при его проведении. Также, по итогам проводимых испытаний, можно получить новые данные, которые записываются в базу данных системы, и которые можно использовать в будущем.

В ходе эксперимента следует проверить, корректно ли производятся запросы к базе данных, соответствуют ли действительности результаты, отображаемые на web-странице и оценить результаты и их точность.

Выбор входных и выходных параметров

Для эксперимента выбирается следующий выходной параметр – количество найденных фото. Каждому фото соответствуют следующие параметры: ID (идентификатор) найденного фото, ID (идентификатор) запроса по местоположению (0 при поиске по никнейму), ID (идентификатор) запроса по никнейму (0 при поиске по местоположению), метод поиска, ссылка на фото, само фото, социальная сеть, в которой размещена фотография, логин пользователя, имя пользователя, фамилия пользователя, широта, долгота.

В случае поиска по местоположению задаются следующие входные параметры: широта, долгота и радиус поиска. В случае поиска по никнейму задаются такие входные параметры, как: социальная сеть и логин пользователя.

Также могут возникнуть следующие внешние возмущения:

  • Закрытый аккаунт пользователя;
  • У фотографии отсутствует геоинформация;
  • У пользователя не указана имя и фамилия.

Установка необходимой точности результатов

Необходимо выбрать определенное количество испытаний, при котором можно будет говорить, что система обрабатывает данные корректно и результаты соответствуют действительности. Рекомендуется выбрать такое количество испытаний, при котором возможен разбор различных ситуаций, которые вызываются внешними возмущениями. [2]

В случае поиска по никнейму необходимо разобрать, как минимум, 2 ситуации: поиск по социальной сети «Вконтакте» и поиск по социальной сети «Instagram».

Учитывая существование закрытых и открытых аккаунтов в данных социальных сетях, следует провести по одному испытанию на закрытых аккаунтах (чтобы показать, что данные в этом случае получить невозможно) и по одному на открытых аккаунтах для каждой социальной сети. Также, учитывая возможность неуказанных данных пользователя, дополнительно можно предложить испытание с удаленными именем и фамилией в «Instagram».

Возможность сокрытия/удаления данных геолокации можно внедрить в любое из этих испытаний, например, удалив данную информацию из нескольких загруженных фотографий. Возможна ситуация, когда данные геолокации изначально отсутствуют в фото.

В случае поиска по местоположению необходимо разобрать 3 варианта поиска: с маленьким радиусом (например, 50 метров – допустимая погрешность для служб геолокации), со средним радиусом (например, 500 метров) и с большим радиусом (1000 метров). Также, нужно разобрать различные ситуации: местоположение с предположительно средним количеством фото поблизости (геопозиция в районе жилой застройки), местоположение с предположительно маленьким количеством фото поблизости (к примеру, геопозиция в районе за городом) и местоположение с предположительно большим количеством фото поблизости (к примеру, геопозиция около торгового центра).

Для корректной оценки результатов по результатам поиска по местоположению будем использовать следующую формулу:

 

где long1 – значение долготы первой точки;

lat1 – значение широты первой точки;

long2 – значение долготы второй точки;

lat2 – значение широты второй точки;

R – радиус Земли = 6371000.

Формула (1) позволит нам оценить расстояние между двумя точками в метрах. За первую точку будет браться указанное местоположение, за вторую – результирующее значение, записанное в базе данных. Следует помнить, что данные в базе данных записываются в градусах, а не в радианах, которые применяются в данной формуле. Для этого можно воспользоваться функцией deg2rad PHP, чтобы привести данные к нужному виду.

План эксперимента

Определим порядок испытаний:

  1. Поиск по никнейму (закрытый аккаунт «VK»);
  2. Поиск по никнейму (закрытый аккаунт «Instagram»);
  3. Поиск по никнейму (открытый аккаунт «VK»);
  4. Поиск по никнейму (открытый аккаунт «Instagram»);
  5. Поиск по никнейму (открытый аккаунт «Instagram» с удаленными именем/фамилией);
    1. Поиск по местоположению в районе жилой застройки (радиус поиска – 50 м, 500 м, 1000 м);
    2. Поиск по местоположению за городом (радиус поиска – 50 м, 500 м, 1000 м);
    3. Поиск по местоположению около торгового центра (радиус поиска – 50 м, 500 м, 1000 м);

В аккаунте «Instagram», по которому будут проводиться испытания, заранее были удалены геолокационные данные из двух фотографий для того, чтобы не проводить дополнительные испытания для данной ситуации.

Результаты

Во время проведения испытаний №1 и №2 было протестировано, как система работает с закрытыми аккаунтами социальных сетей. В обоих случаях получены открытые данные – имя и фамилия, но не получено ни одной фотографии. Можно сделать вывод, что при правильных настройках приватности, данные из социальных сетей получить попросту невозможно.

Во время проведения испытаний №3 и №4 было отмечено, что при открытом аккаунте социальной сети можно получить данные о всех фотографиях, которые были загружены пользователем. Однако, возможна ситуация, когда данных геолокации у фотографий может не быть – пользователь оставляет за собой право удалить эту информацию.

По итогам испытания №5 можно сделать следующий вывод: некоторые данные, связанные с аккаунтом, не всегда доступны. Пользователь может скрыть, либо удалить подобную информацию. Но подобное возможно только в случае с «Instagram», так как «Вконтакте» не позволяет оставлять поля «Имя» и «Фамилия» пустыми.

По итогам испытаний №6 – №14 можно сказать, что при поиске по местоположению можно получить данные о любых фотографиях, которые имеют геолокационные данные и опубликованы с открытых аккаунтов социальных сетей.

Предположения по количеству найденных фото были подтверждены результатами поиска. В случае поиска за городом количество фото варьировалось от 1 до 51, даже при выборе радиуса в 1000 метров. В случае поиска в районе жилой застройки, количество фото заметно увеличилось с 43 до 195 при увеличении радиуса с 500 до 1000 метров – это связано с тем, что в данном радиусе были включены результаты близлежащих микрорайонов. В случае же поиска в районе торгового центра количество фото резко выросло с 11 до 1378 при увеличении радиуса с 50 до 500 метров – из-за того, что радиус в 500 метров затрагивает весь ТЦ.

Однако было замечено, что точность запросов по местоположению имеет некоторую погрешность. Возможно, это связано с некоторой неточностью самих API – в самой документации API VK отмечено, что возможна погрешность при подобных запросах.

Сводная таблица результатов представлена в Табл. 1.

Таблица 1.

Результаты испытаний поисковых запросов по местоположению.

№ испытания

Количество найденных фото (шт.)

Попали в радиус поиска (шт.)

Не попали в радиус поиска (шт.)

Максимальное расстояние от центра (м)

Процент точности (%)

6

4

4

0

100

7

43

41

2

523

95

8

195

174

21

1074

89

9

1

1

0

100

10

19

18

1

514

95

11

51

44

7

1051

86

12

11

10

1

54

91

13

1378

1088

290

563

79

14

1834

1375

459

1106

75

 

Средняя точность при радиусе поиска в 50 метров – 97 %, средняя точность при радиусе поиска в 500 метров – 89 %, средняя точность при радиусе поиска в 1000 метров – 83 %, общая средняя точность – 90 %.

Среднее отклонение от необходимой области при радиусе поиска в 50 метров – 4 метра, среднее отклонение от необходимой области при радиусе поиска в 500 метров – 33 метра, среднее отклонение от необходимой области при радиусе поиска в 1000 метров – 77 метров, общее среднее отклонение от необходимой области для всех испытаний – 47 метров.

Выводы

В целом, можно считать, что система справляется с задачами, которые ей необходимо выполнять. Взаимодействие с базой данных, отображение результатов на странице работает полностью корректно. Результаты по итогам тестов также показаны хорошие, средняя точность системы оценивается в 90% – необходимо обращать внимание на некоторые погрешности при поиске по местоположению. Также не стоит забывать, что правильные настройки приватности не позволят получить определенные данные от определенных пользователей.

 

Список литературы

  1. Калытюк И.С. РАЗРАБОТКА И ИССЛЕДОВАНИЕ АЛГОРИТМА ИЗВЛЕЧЕНИЯ ДАННЫХ ГЕОЛОКАЦИИ В СОЦИАЛЬНЫХ СЕТЯХ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. LXXI междунар. студ. науч.-практ. конф. № 11(70). URL: https://sibac.info/archive/technic/11(70).pdf (Дата обращения: 28.02.2019).
  2. Планирование эксперимента [Электронный ресурс] // Центр Статистического Анализа. – Режим доступа: http://www.statmethods.ru/konsalting/statistics-metody/127-planirovanie-eksperimentov.html – Заглавие с экрана. – (Дата обращения: 28.02.2019).
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.