Статья опубликована в рамках: XLVIII Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 26 декабря 2016 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
ИЗВЛЕЧЕНИЕ ЗНАНИЙ ИЗ WEB MINING
В настоящее время Интернет является наиболее богатым источником информации и знаний. Однако пользователи сталкиваются с проблемами, как при поиске необходимой информации, так и при анализе. Именно поэтому возникает потребность в использовании специализированных программных продуктов для извлечения полезных знаний из сети Интернет.
Выделяют несколько уровней информации:
- исходные данные;
- обработанные данные;
- знания.
Извлечение знаний заключается в получении знаний из огромных массивов данных. Извлечение данных — это процесс поиска, сбора, хранения информации.
Выделяют следующие проблемы работы с информацией из сети Интернет:
- Поиск значимой информации.
Поисковые системы применяются для поиска необходимой информации. Однако их использование имеет следующие недостатки:
- низкая повторяемость вызовов, связанная с невозможностью индексировать все веб-ресурсы;
- низкая точность результата.
- Выявление знаний из веб-ресурсов.
Данная проблема является частью проблемы поиска значимой информации, связана со сложным извлечением полезных знаний из множества полученной информации. Полученные знания представляют в виде деревьев, логических и семантических выражений.
- Персонализация информации.
Проблема персонализации информации связана с предоставлением пользователю интересной ему информации. Актуально для интернет-магазина, который должен при выборе товара "подсказывать" пользователю.
- Изучение индивидуального пользователя.
Проблема заключается в предоставлении пользователю именно той информации, которую он хочет получить. Для этого необходима настройка и персонализация поисковой системы для конкретного пользователя.
Перечисленных проблемы устраняются при помощи различных технологий, напрямую или косвенно разрешающие их. Web Mining развивается на пересечении дисциплин, таких как: обнаружение знаний в БД, эффективный поиск информации, машинное обучение, искусственный интеллект и обработка естественных языков [2].
Web Mining — это автоматическое обнаружение веб-документов, извлечение информации из веб-ресурсов и выявление общих закономерностей в Интернете, с использованием методов интеллектуального анализа данных [4].
Технология Web Mining включается в себя следующие этапы:
1. Поиск ресурсов.
2. Извлечение информации.
3. Обобщение.
4.Анализ.
Первый этап предполагает поиск различных источников по ключевым словам. Включает два класса: поиск документов и поиск сервисов.
Следующий этап – автоматическое извлечение конкретной информации. Иногда данные этап называют препроцессинг, включающий непосредственно подготовку найденных данных к анализу. Подготовка заключается в преобразовании текстов, с помощью извлечения словосочетаний и фраз, удаления стоп-слов [3].
На этапе обобщения – обнаружение общих шаблонов в отдельных и пересекающихся сайтах. К обработанной информации применяются методы Data Mining.
Последний этап–интерпретация полученных результатов.
Представлены общие шаги, необходимые для анализа данных, полученных из сети Интернет. В зависимости от поставленной задачи, каждый этап включает дополнительные конкретные процедуры.
В технологии Web Mining выделяют следующие категории (рис.1):
- извлечение Web-контента (Web Content Mining);
- извлечение Web-структур (Web Structure Mining);
- исследование использования Web-ресурсов (Web Usage Mining).
Данная технология в основном извлекает информацию в Интернет. Какой процесс произойдет для доступа к информации в Сети – это извлечение веб-контента. Многие страницы открыты для доступа к информации в Интернете. Извлечение контента содержит в себе методы извлечения значимой информации (содержание, данные, документы) из веб-ресурсов. Веб-документ содержит несколько типов данных. Некоторые из них частично структурированные (HTML-документы), другие более структурированные, (данные в таблицах или БД), но в основном, информация представлена в виде неструктурированных текстовых данных.
Технология Web Mining тесно связана с другими направлениями Data Mining. Для анализа текстовой информации применяют методы Text Mining. Для анализа изображений, видео используется Multimedia. Web Content Mining – аналог интеллектуального метода анализа данных для реляционных баз данных.
Процесс выявления структурной информации –Web Structure Mining. При извлечении Web-структур строятся модели, отображающие взаимосвязи веб-страниц. Модель основывается на топологии гиперссылок с описания этих ссылок или без. Данная модель полезна для генерации информации о сходстве и отношениях между сайтами. Содержание веб-страницы может быть представлено в древовидном формате, основанном на различных HTML и XML тегах. Задача данной категории Web Minig – автоматически извлечь DOM-структуру из документов.
Web Usage Mining анализирует информацию, сгенерированную в процессе взаимодействия пользователя с ресурсами. В отличие от первых двух категорий, работающих с первичной информацией, этот вид работает с вторичной информацией, К источникам такой информации относятся протоколы доступа серверов, протоколы браузеров, протоколы прокси-серверов, регистрационные данные, пользовательские запросы, клики и т.д.
На практике применяют все 3 категории Web Mining, как по отдельности, так и в сочетании друг с другом [1].
Рисунок 1. Категории Web Mining
Web Mining рассматривается в одном ряду с такими интернет-технологиями, как получение информации (IR—Information Retrieval) и извлечение информации (IE —Information Extraction).
Технология IE основана на извлечении необходимых фактов из Web-документов. IR технология основана на получении документов из Web-среды, релевантных запросу пользователей. Основным отличием данной технологии от IR является то, что работает она с самим документом и ищет в релевантную информацию, в то время как IR технология, работая с множеством документов, извлекает из релевантные документы.
Обобщая все вышесказанное, можно сделать вывод, что сегодня действительно существуют проблемы с процессом поиска и обработки неструктурированных данных. Технология Web Mining является новым перспективным направлением анализа ресурсов, получения знаний о посетителях сайта, описания социальных сетей и сообществ, а также для автоматического поиска и структуризации информации из интернета.
Список литературы:
- Баргесян А.А. Анализ данных и процессов: учеб.пособие. – 3-е изд. СПб: БХВ – Петербург, 2009. – 589 с.
- БОРИСОВА А.Н., ДОЛГОВА Т.Г. Технология Web Mining // Актуальные проблемы авиации и космонавтики. – 2015.–№11. [электронный ресурс] – Режим доступа.– URL: http://cyberleninka.ru/article/n/tehnologiya-web-mining (Дата обращения: 02.12.2016).
- ЛИФЕРЕНКО А.В., БЕЖИТСКИЙ С.С. О задачах применения web-mining // Актуальные проблемы авиации и космонавтики. – 2015. – №11. [электронный ресурс]– Режим доступа. – URL: http://cyberleninka.ru/article/n/o-zadachah-primeneniya-web-mining (Дата обращения: 02.12.2016).
- Web Mining: интеллектуальный анализ данных в сети Internet. – [электронный ресурс]. – Режим доступа. –https://sites.google.com/site/upravlenieznaniami/tehnologii-upravlenia-z.... (Дата обращения – 02.12.2016).
дипломов
Оставить комментарий