Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: XLVIII Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 26 декабря 2016 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Шелудкова Е.А. ИЗВЛЕЧЕНИЕ ЗНАНИЙ ИЗ WEB MINING // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. XLVIII междунар. студ. науч.-практ. конф. № 11(47). URL: https://sibac.info/archive/technic/11(47).pdf (дата обращения: 22.12.2024)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

ИЗВЛЕЧЕНИЕ ЗНАНИЙ ИЗ WEB MINING

Шелудкова Евгения Андреевна

студент, факультет «Элитного образования и магистратуры» ОмГТУ, г. Омск

В настоящее время Интернет является наиболее богатым источником информации и знаний. Однако пользователи  сталкиваются с проблемами, как при поиске необходимой информации, так и при анализе. Именно поэтому возникает потребность в использовании специализированных программных продуктов для извлечения полезных знаний из сети Интернет.

Выделяют несколько уровней информации:

  • исходные данные;
  • обработанные данные;
  • знания.

Извлечение знаний заключается в получении знаний из  огромных массивов данных. Извлечение данных — это процесс поиска, сбора, хранения информации.

Выделяют следующие проблемы работы с информацией из сети Интернет:

  1. Поиск значимой информации.

Поисковые системы применяются для поиска необходимой информации. Однако их использование имеет следующие недостатки:

  • низкая повторяемость вызовов, связанная с невозможностью индексировать все веб-ресурсы;
  • низкая точность результата.
  1. Выявление знаний из веб-ресурсов.

Данная проблема является частью проблемы поиска значимой информации, связана со сложным извлечением полезных знаний из множества полученной информации. Полученные знания представляют в виде деревьев, логических и семантических выражений.

  1. Персонализация информации.

Проблема персонализации информации связана с предоставлением пользователю интересной ему информации. Актуально для интернет-магазина, который должен при выборе товара "подсказывать" пользователю.

  1. Изучение индивидуального пользователя.

Проблема заключается в предоставлении пользователю именно той информации, которую он хочет получить. Для этого необходима настройка и персонализация поисковой системы для конкретного пользователя.

Перечисленных проблемы устраняются при помощи различных технологий, напрямую или косвенно разрешающие их. Web Mining развивается на пересечении дисциплин, таких как: обнаружение знаний в БД, эффективный поиск информации, машинное обучение, искусственный интеллект и обработка естественных языков [2].

Web Mining — это автоматическое обнаружение веб-документов, извлечение  информации из веб-ресурсов и выявление общих закономерностей в Интернете, с использованием методов интеллектуального анализа данных [4].

Технология Web Mining включается в себя следующие этапы:

1. Поиск ресурсов.

2. Извлечение информации.

3. Обобщение.

4.Анализ.

Первый этап предполагает поиск различных источников по ключевым словам. Включает два класса: поиск документов и поиск сервисов.

Следующий этап – автоматическое извлечение конкретной информации. Иногда данные этап называют препроцессинг, включающий непосредственно подготовку найденных данных к анализу. Подготовка заключается в преобразовании текстов, с помощью извлечения словосочетаний и фраз, удаления стоп-слов [3].

На этапе обобщения – обнаружение общих шаблонов в отдельных и пересекающихся сайтах. К обработанной информации применяются методы Data Mining.

Последний этап–интерпретация полученных результатов.

Представлены общие шаги, необходимые для анализа данных, полученных из сети Интернет. В зависимости от поставленной задачи, каждый этап включает дополнительные конкретные процедуры.

В технологии Web Mining выделяют следующие категории (рис.1):

  • извлечение Web-контента (Web Content Mining);
  • извлечение Web-структур (Web Structure Mining);
  • исследование использования Web-ресурсов (Web Usage Mining).

Данная технология в основном извлекает информацию в Интернет. Какой процесс произойдет для доступа к информации в Сети – это извлечение веб-контента. Многие страницы открыты для доступа к информации в Интернете. Извлечение контента содержит в себе методы извлечения значимой информации (содержание, данные, документы) из веб-ресурсов. Веб-документ содержит несколько типов данных. Некоторые из них частично структурированные (HTML-документы), другие более структурированные, (данные в таблицах или БД), но в основном, информация представлена в виде неструктурированных текстовых данных.

Технология Web Mining тесно связана с другими направлениями Data Mining. Для анализа текстовой информации применяют методы Text Mining. Для анализа изображений, видео используется Multimedia. Web Content Mining – аналог интеллектуального метода анализа данных для реляционных баз данных.

Процесс выявления структурной информации –Web Structure Mining. При извлечении Web-структур строятся модели, отображающие взаимосвязи веб-страниц. Модель основывается на топологии гиперссылок с описания этих ссылок или без. Данная модель полезна для генерации информации о сходстве и отношениях между сайтами. Содержание веб-страницы может быть представлено в древовидном формате, основанном на различных HTML и XML тегах. Задача данной категории Web Minig – автоматически извлечь DOM-структуру из документов.

Web Usage Mining анализирует информацию, сгенерированную в процессе взаимодействия пользователя с ресурсами. В отличие от первых двух категорий, работающих с первичной информацией, этот вид работает с вторичной информацией, К источникам такой информации относятся протоколы доступа серверов, протоколы браузеров, протоколы прокси-серверов, регистрационные данные, пользовательские запросы, клики и т.д.

На практике применяют все 3 категории Web Mining, как по отдельности, так и в сочетании друг с другом [1].

 

Рисунок 1. Категории Web Mining

 

Web Mining рассматривается в одном ряду с такими интернет-технологиями, как получение информации (IR—Information Retrieval) и извлечение информации (IE —Information Extraction).

Технология IE основана на извлечении необходимых фактов из Web-документов. IR технология основана на получении документов из Web-среды, релевантных запросу пользователей. Основным отличием данной технологии от IR является то, что работает она с самим документом и ищет в релевантную информацию, в то время как IR технология,  работая с множеством документов, извлекает из релевантные документы.

Обобщая все вышесказанное, можно сделать вывод, что сегодня действительно существуют проблемы с процессом поиска и обработки неструктурированных данных. Технология Web Mining является новым перспективным направлением анализа ресурсов, получения знаний о посетителях сайта, описания социальных сетей и сообществ, а также для автоматического поиска и структуризации информации из интернета.

 

Список литературы:

  1. Баргесян А.А. Анализ данных и процессов: учеб.пособие. – 3-е изд. СПб: БХВ – Петербург, 2009. – 589 с.
  2. БОРИСОВА А.Н., ДОЛГОВА Т.Г. Технология Web Mining // Актуальные проблемы авиации и космонавтики. – 2015.–№11. [электронный ресурс] – Режим доступа.– URL: http://cyberleninka.ru/article/n/tehnologiya-web-mining (Дата обращения: 02.12.2016).
  3. ЛИФЕРЕНКО А.В., БЕЖИТСКИЙ С.С. О задачах применения web-mining // Актуальные проблемы авиации и космонавтики. – 2015. – №11. [электронный ресурс]– Режим доступа. – URL: http://cyberleninka.ru/article/n/o-zadachah-primeneniya-web-mining (Дата обращения: 02.12.2016).
  4. Web Mining: интеллектуальный анализ данных в сети Internet. – [электронный ресурс]. – Режим доступа. –https://sites.google.com/site/upravlenieznaniami/tehnologii-upravlenia-z.... (Дата обращения – 02.12.2016).
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.