Статья опубликована в рамках: Научного журнала «Студенческий» № 8(8)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2

Библиографическое описание:

Абжетова А.А., Папшев С.В. КЛАСТЕРИЗАЦИЯ СТРАНИЦ ВЕБ-САЙТА НА ОСНОВЕ МЕТАДАННЫХ ВЕБ-АНАЛИТИКИ // Студенческий: электрон. научн. журн. 2017. № 8(8). URL: https://sibac.info/journal/student/8/79760 (дата обращения: 15.07.2026).

КЛАСТЕРИЗАЦИЯ СТРАНИЦ ВЕБ-САЙТА НА ОСНОВЕ МЕТАДАННЫХ ВЕБ-АНАЛИТИКИ

Абжетова Альбина Аслбековна

студент магистратуры института прикладных информационных технологий и коммуникаций, СГТУ имени Гагарина Ю.А.,

РФ, г.Саратов

Папшев Сергей Владимирович

канд. физ.-мат. наук, доц. кафедры информационно-коммуникационные системы и программная инженерия, СГТУ имени Гагарина Ю.А.,

РФ, г. Саратов

АННОТАЦИЯ

При исследовании эффективности работы веб-сайтов актуальна проблема ранжирования сайта по некоторым признакам. Частным случаем в данном анализе является кластеризация веб-документов в соответствии с некоторой метрикой. В таких случаях, известные лингвистические методы весьма затратны по времени, а для определения семантической близости между нетекстовыми веб-документами требуются новые подходы. В данной работе предложена методика кластеризации страниц веб-сайта на основе метаданных веб-статистики, характеризующих страницу сайта, и построено дальнейшее семантическое описание полученных кластеров, посредством анализа характеризующих их ключевых слов. В рамках данного подхода разработана методика решения задачи, подобран комплекс программ и средств автоматизированного получения ключевых слов для каждого кластера. Апробация метода проводится на примере образовательного сайта. В результате показано, что полученные множества ключевых слов позволяют содержательно описывать кластеры.

Ключевые слова: веб-сайт, семантическая кластеризация, метаданные, ключевые слова, веб-аналитика.

Введение

Всемирная паутина WWW в настоящее время является наиболее богатым источником информации и знаний. Она содержит огромное количество документов, данных, аудио- и видеофайлов. Однако пользователи Интернета сталкиваются с большими проблемами при поиске нужной им информации.

Кластеризация гипертекстового пространства может облегчить информационный поиск, увеличив число адекватных ссылок на поисковый запрос. Кроме того, использование алгоритмов кластеризации текстовых документов позволяет создать кластер схожих содержанию документов, которые могут быть использованы для последующей семантической обработки.

Кластеризация данных относят к задачам интеллектуального анализа данных. В настоящее время существует множество методов для такого анализа. К базовым методам анализа данных относят классификацию, моделирование и прогнозирование [5].

Ряд работ в области семантической кластеризации страниц веб-сайтов использует в качестве существенного элемента гипертекстовые связи между страницами. Так, например, в статье [7] представлена математическая модель гипертекстовой структуры в виде взвешенного редуцированного графа и предложен метод семантической кластеризации гипертекстовой структуры, использующий данные статистики переходов пользователей между страницами сайта. В работе [4] эксперименты по кластеризации страниц веб-сайта проводились также для графовой модели сайта, но с использованием алгоритмов MLC [6].

Однако большое достоинство общего кластерного анализа в том, что он позволяет осуществлять разбиение объектов не по одному параметру, а по целому набору признаков. Кроме того, кластерный анализ, в отличие от большинства математико-статистических методов, не накладывает никаких ограничений на вид и связи рассматриваемых объектов и позволяет рассматривать множество исходных данных практически произвольной природы [1].

Сбор данных о действиях пользователей на веб-сайте

Помимо содержания документа, существуют метаданные, относящиеся к дополнительной информации о содержимом или объекте. Применительно к веб-документам это может быть информация о количестве посещений пользователя, версия браузера с которого пришел пользователь, или информация о том, по каким ключевым словам пользователь попал на сайт и т.д. Для формирования целостной статистики, необходимо отслеживать действия пользователя на каждой странице веб-сайта.

На сегодняшний момент существует два основных способа сбора статистики исходных данных о посещаемости:

сбор информации с помощью программы анализа логов (лог-анализатор). В этом случае накапливаются журнальные файлы с данными о посещаемости сайта на отдельном компьютере. Все эти файлы аналитик сам собирает и анализирует. Самые популярные лог-анализаторы: Webalizer и WebTrends и другие.
использование сервиса обработки данных (счетчик интернет-статистики). Здесь все данные группируются в отдельном журнале загрузок элемента web-ресурса посторонним лицом (поставщиком счетчика), обрабатываются и передаются в читаемом виде пользователю сервиса. Самые популярные счетчики на сегодняшний момент средства такого рода: Google Analytics, Яндекс Метрика, Ливинтернет и другие [3].

В данной работе используется сервис Google Analytics — это бесплатный набор современных инструментов веб аналитики, предоставляемый известной корпорацией Google для создания детальной статистики посетителей сайтов.

К метаданным веб-аналитики, на основе которых проводилась кластеризация страниц веб-сайта, в рамках данной работы, относится следующая информация:

просмотры страниц – общее количество страниц, просмотренных посетителями. Учитываются повторные просмотры одной страницы.
уникальные просмотры страниц – это количество сеансов, в ходе которых определенная страница была просмотрена хотя бы один раз.
средняя длительность просмотра страницы – среднее количество времени, в течение которого пользователи просматривают заданную страницу/экран или набор страниц/экранов.
процент отказов – это процент посещений, в ходе которых было открыто не более одной страницы, т.е. при которых посетитель покидает сайт со страницы входа.
процент выходов – процент выходов с сайта, выполненных с указанной страницы или набора страниц [2].

На рисунке 1 изображен отчет по страницам сайта sstu.ru, который представлен с помощью сервиса Google Analytics.

Рисунок 1. Статистика по страницам веб-сайта sstu.ru. Каждая строка таблицы содержит набор метаданных для каждой страницы

Для получения данных из Google Analytics использовался сервис Query Explorer, который представляется по адресу: https://ga-dev-tools.appspot.com/query-explorer/. Данные были собраны с сайта www.sstu.ru, за период с 1 мая 2016 по 1 мая 2017.

Вычисления производились для первых 1000 строк, отсортированных по убыванию просмотров страницы.

После загрузки данных, они были преобразованы из формата tsv в xlsx, для дальнейшей кластеризации. Результаты преобразования представлены на рисунке 2.

Рисунок 2. Фрагмент таблицы с данными статистики по страницам веб-сайта, преобразованных в формат xlsx для более удобной последующей обработки

Семантическая кластеризация страниц веб-сайта

Кластеризация данных проводилась с помощью программного пакета Statistica. На сегодняшний день в продукте Statistica Data Miner представлен набор методов кластеризации с возможностью представления большого нобора графиков и процедур визуализации. Для эффективнго визуального представления данных для кластеризации был выбран метод агломеративной иерархической кластеризации. Результаты иерархической кластеризации в виде дендрограммы представлены на рисунке 3.

Рисунок 3. Дендограмма результатов кластеризации

На рисунке 4 представлен фрагмент таблицы разбиения страниц веб-сайта с помощью пакета Statistica, в последнем столбце указано к какому кластеру относится конкретная страница. В данном примере число кластеров равно 6.

Рисунок 4. Результаты разбиения веб-страниц сайта на 6 кластеров с помощью Statistica. Последний столбец таблицы «Membership» содержит информацию о номере кластера, к которому отнесена страница

В результате кластеризации мы получили набор шести кластеров (дендроидный алгоритм позволяет нам остановить кластеризацию на любом этапе). Далее необходимо было выяснить является ли разбиение случайным или можно выделить нечто семантически общее для каждого кластера. С этой целью был написан скрип на языке Python, который вычисляет плотность ключевых слов страницы без стоп-слов и выбирает только часто встречаемые используяя сайт seogift.ru – инструмент проверки плотности ключевых слов (параметр минимального числа вхождений слов можно указать при вызове скрипта). В результате выполнения скрипта, на выходе получаем объединение ключевых слов, характерных для каждого кластера и число вхождений слова в кластере. В таблице 1 приведен набор наиболее часто встречаемых ключевых слов характеризующих каждый кластер и семантическое описание каждого кластера на основе этих ключевых слов.

Таблица 1.

Набор часто встречаемых ключевых слов характеризующих каждый кластер и семантическое описание каждого кластера

Номер кластера	Ключевые слова и частота их появления в кластере	Семантическое описание кластера
Кластер 1:	испытаний = 14 приема = 35 году = 23 программам = 19 вступительных = 15	Прием в вуз, вступительные испытания
Кластер 2:	Опорный = 40 университет = 76 История = 39 развития = 46 Структура = 45 План = 46 университетского = 45 городка = 45 Контакты = 82 документы = 323	Общая информация об университете, контакты, нормативные документы, история, структура, управление
Кластер 3:	Студенты = 62 Контакты = 75 Ученый = 60 совет = 61 Сведения = 84 Научные = 87 науки = 102 Проект = 113 работа = 62 сети = 74 Новости = 82 наук = 109	Ученый совет, научная деятельность
Кластер 4:	подготовка = 120 Расписание = 99 занятий = 50 сессии = 98 Пара = 98 прак = 857 Физика = 87 лаб = 147 Иностранный = 93 язык = 123 Математика = 83 Игровые = 176 виды = 176 спорта = 176 Военная = 120	Расписание занятий, военная подготовка
Кластер 5:	Сведения = 74 Образовательные = 53 программы = 71 Научные = 66 науки = 76 Проект = 102 Центр = 79 образования = 92 обучение = 59 обучения = 62 заочная = 150 очная = 165	Образовательные программы
Кластер 6:	ИОС = 13	Информационно-образовательная среда

В результате мы получили набор кластеров и характерные для них ключевые слова. Было проведено семантическое описание каждого кластера на основе анализа ключевых слов. Данный метод можно представить в виде диаграммы последовательности действий (рисунок 5), в которой последовательно описаны шаги для реализации предложенного метода.

sequence

Рисунок 5. Диаграмма последовательности действий методики кластеризации страниц веб-сайта и семантического означивания кластеров

Заключение

Таким образом, в результате работы была предложена методика семантической кластеризации страниц веб-сайта на основе метаданных веб-аналитики, характеризующих страницу сайта, и дальнейшее семантическое описание полученных кластеров, посредством анализа ключевых слов.

На основе этого метода, подобран комплекс программ и автоматизирован способ получения ключевых слов для каждого кластера.

Результаты работы могут быть использованы для решения задачи семантической кластеризации, включая нетекстовые веб-документы, что является актуальным на предварительных этапах смысловой обработки информации в сети Интернет. Разработанная методика семантической кластеризации на основе метаданных веб-аналитики может быть использована как инструмент для решения широкого круга задач анализа информации в сети Интернет. Полученные с его помощью результаты кластеризации веб-документов позволяют судить о практической ценности данного инструмента и возможности его применения в области интеллектуального анализа гипертекстовой информации.

Список литературы:

Анализ данных и процессов: учеб. пособие А. А. Барсегян, М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров. — 3-е изд., перераб. и доп. — СПб.: БХВ-Петербург, 2009. — 512 с
Анализ данных с помощью отчета «Пути пользователей» [Электронный ресурс] — Режим доступа. – URL:https://support.google.com/analytics/answer/1713056 (дата обращения 5.06.2017)
Для чего нужна web аналитика? [Электронный ресурс]. – Режим доступа. – URL:http://www.workformation.ru/veb-analitika.html (дата обращения 10.06.2017)
Сытник А.А., Папшев С.В., Курчанова И.В. Сравнительный анализ некоторых методов семантической кластеризации гипертекста // Материалы XII Всероссийской научно-технической конференции «Теоретические и прикладные вопросы современных информационных технологий» (ТиПВСИТ 2015). Улан-Удэ, 11-18 августа 2015 г. – Улан-Удэ, Изд-во ВСГТУ, 2015. С. 51-56.
Beekmann F. Verfahren des Data Mining /F.Beekmann, P. Chamoni [Электронный ресурс]. — Режим доступа. – URL:http://link.springer.com/chapter/10.1007%2F3-540-33752-0_13#page-1 (дата обращения 10.06.2017)
MCL - a cluster algorithm for graphs. [Электронный ресурс]. — Режим доступа. – URL:http://micans.org/mcl/(дата обращения 15.06.2017)
Vladimir Salin, Maria Slastihina, Ivan Ermilov, René Speck, Sören Auer, and Sergey Papshev. Semantic Clustering of Website Based on its Hypertext Structure // Communications in Computer and Information Science. 6th International Conference, KESW 2015 Moscow, Russia, September 30 – October 2, 2015. Proceedings. Pp. 182-194.