Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: IX Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 07 марта 2013 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Емцов В.С. ПРОБЛЕМА «ГРЯЗНЫХ ДАННЫХ» ПРИ ВНЕДРЕНИИ СРЕДСТВ DATA MINING // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. IX междунар. студ. науч.-практ. конф. № 9. URL: http://sibac.info/archive/technic/9.pdf (дата обращения: 09.08.2022)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
Диплом лауреата
отправлен участнику

ПРОБЛЕМА  «ГРЯЗНЫХ  ДАННЫХ»  ПРИ  ВНЕДРЕНИИ  СРЕДСТВ  DATA  MINING

Емцов  Вячеслав  Сергеевич

магистрант  2-го  курса,  кафедра  «Информационные  технологии»,  Балтийский  государственный  технический  университет  «Военмех»  им.  Д.Ф.  Устинова,  г.  Санкт-Петербург

E-mailzellion@yandex.ru

Снижко  Елена  Александровна

научный  руководитель,  канд.  пед.  наук,  доцент,  кафедра  «Информационные  системы  и  компьютерные  технологии»,  Балтийский  государственный  технический  университет  «Военмех»  им.  Д.Ф.  Устинова,  г.  Санкт-Петербург

 

Data  Mining  объединяет  в  себе  технологии  и  средства,  которые  имеют  одну  цель:  поиск  скрытых  зависимостей  в  разнородных  массивах  данных.  Данные  —  это  результат  фиксации  некоторой  информации.  Сами  данные,  в  свою  очередь,  могут  выступать  как  источник  новой  полезной  информации.  Средства  Data  Mining  позволяют  извлекать  такую  информацию.  Действительно  ценная  информация  должна  удовлетворять  следующим  требованиям  [1]:

·     информация  должна  быть  ранее  неизвестна;

·     информация  должна  быть  не  тривиальна;

·     информация  должна  быть  практически  полезна;

·     информация  должна  быть  доступна  для  интерпретации.

Эти  требования  определяют  суть  методов  Data  Mining.  Потребность  в  подобных  средствах  очевидна,  ведь  знание  некоторых  закономерностей  позволяет  с  лихвой  окупить  затраты  на  их  поиск.  По  этой  причине,  применение  средств  Data  Mining  становится  все  более  популярным  среди  крупных  компаний,  которые  заинтересованы  в  привлечении  новых  клиентов.  Внедрение  Data  Mining  на  производстве  —  весьма  дорогостоящий  и  трудоемкий  процесс.  Существует  ряд  нетривиальных  проблем,  для  решения  которых  требуется  индивидуальный  подход  для  каждой  конкретной  задачи.  Одной  из  таких  проблем  является  поддержание  высокого  уровня  качества  данных,  на  основе  которых  будет  формироваться  модель  поиска  взаимосвязей. 

Качество  данных  (data  quality)  —  это  критерий,  определяющий  полноту,  точность,  своевременность  и  возможность  интерпретации  данных  [2,  c.  237].  Данные  могут  быть  высокого  качества  и  низкого  качества,  последние  —  это  так  называемые  «грязные»  или  «плохие»  данные.  Для  повышения  качества  данных  их  «очищают».  Под  очисткой  данных  (data  cleaning,  data  cleansing  или  scrubbing)  подразумевается  выявление  и  удаление  ошибок,  несоответствий  и  конфликтов  в  данных  [2,  c.  240].  Очистка  необходима  для  повышения  качества  данных,  что,  в  свою  очередь,  повышает  скорость  и  качество  анализа  данных  методами  Data  Mining.  Можно  выделить  четыре  основных  группы  грязных  данных:

·     грязные  данные,  которые  могут  быть  автоматически  обнаружены  и  очищены;

·     данные,  появление  которых  может  быть  предотвращено;

·     данные,  которые  непригодны  для  автоматического  обнаружения  и  очистки;

·     данные,  появление  которых  невозможно  предотвратить.

Важно  понимать,  что  специальные  средства  очистки  могут  справиться  не  со  всеми  видами  грязных  данных.  К  наиболее  распространенным  видам  грязных  данных  можно  отнести  [3]: 

·     данные  с  пропущенными  значениями  атрибутов;

·     противоречивые  данные;

·     продублированные  данные;

·     шумы  и  выбросы. 

Пропущенные  значения  (missing  values)  могут  возникнуть,  когда,  по  какой-либо  причине,  атрибуту  объекта  не  присваивается  значение.  Например,  при  анкетировании  может  быть  не  указан  возраст.  Так  же,  некоторые  атрибуты  могут  быть  неприменимы  для  объектов  определенного  типа.  Например,  нет  смысла  указывать  атрибут  «годовой  доход»  для  ребенка. 

Пропущенные  значения  атрибутов  —  наиболее  актуальная  проблема  для  большинства  хранилищ  данных.  Большая  часть  методов  прогнозирования  (одна  из  задач  Data  Mining)  исходят  из  предположения,  что  данные  поступают  равномерным  потоком  без  пробелов.  На  практике  такое  встречается  крайне  редко,  т.  к.  базы  данных  хранилищ  могут  отличаться  по  структуре,  в  зависимости  от  законодательства  и  других  требований.  Поэтому,  прогнозирование  на  основе  таких  данных  реализуется  некачественно  или  со  значительными  ограничениями.  Эту  проблему  можно  решить  несколькими  способами. 

·     Исключить  объекты  с  пропущенными  значениями  из  обработки.

·     Рассчитать  новые  значения  для  пропущенных  атрибутов.

·     Игнорировать  пропущенные  значения  в  процессе  анализа.

·     Заменить  пропущенные  значения  атрибутов  на  вероятные  значения.

В  конечном  итоге,  в  наборе  данных  не  остается  объектов  с  пустыми  значениями  атрибутов,  что  приводит  к  повышению  общего  качества  данных. 

Еще  один  вид  грязных  данных  —  противоречивые  данные.  Противоречивость  может  возникнуть,  когда  данные  находятся  в  хранилище  в  несвязанном  виде.  Это  говорит  о  том,  что  база  данных  плохо  спроектирована.  Есть  несколько  вариантов,  как  поступить  с  противоречивыми  данными.

·     Исключать  объекты  с  противоречивыми  значениями  атрибутов  из  обработки.

·     Выбирать  из  множества  возможных  значений  атрибутов  единственное  значение.  Например,  вычислять  вероятность  появления  каждого  из  противоречивых  событий  и  выбирать  наиболее  вероятное  из  них.

Исключение  объектов  —  очень  грубый  способ,  но  при  этом,  самый  простой,  так  как  не  требует  применения  никаких  дополнительных  алгоритмов.  Второй  способ  сложнее  в  реализации,  но  является  более  правильным,  так  как,  позволяет  избежать  потери  данных.

Следующий  вид  грязных  данных  —  дубликаты  (duplicate  data).  Дубликатами  называются  записи  с  одинаковыми  значениями  всех  атрибутов. 

Дубликаты  иногда  используют,  чтобы  искусственно  повысить  значимость  определенных  записей,  но  в  большинстве  случаев,  наличие  дубликатов  негативно  сказывается  на  результатах  анализа.  Поэтому,  прежде  чем  начинать  работать  с  данными,  нужно  обработать  продублированные  записи.  Возможны  два  варианта  такой  обработки.  В  первом  случае  все  записи,  которые  имеют  дубликаты,  удаляются.  Такой  вариант  используется,  когда  наличие  дубликатов  полностью  обесценивает  информацию  или  вызывает  недоверие  к  ней.  Во  втором  случае,  из  группы  продублированных  записей  оставляют  только  одну.

Идентификация  дубликатов  так  же  является  проблемой,  поскольку  значения  некоторых  атрибутов  нужно  считать  одинаковыми,  даже  когда  они  не  совпадают  полностью.  Примером  может  служить  атрибут  «Имя».  Одно  и  то  же  имя  может  быть  записано  в  краткой,  в  полной  форме,  в  виде  инициалов  и  т.  д. 

Последний  вид  загрязненных  данных  —  это  шумы  и  выбросы.  Выбросами  называют  объекты  или  наблюдения,  которые  резко  выделяются  из  всего  набора.  Шумом  называют  сильные  отклонения  от  среднего  значения  в  наборе  данных.  Шум  в  данных  не  несет  никакой  полезной  скрытой  информации,  поэтому  его  стараются  минимизировать.  При  анализе  данных  шумы  и  выбросы  являются  достаточно  большой  проблемой,  поскольку  снижают  достоверность  результата  анализа.  Выбросы  могут  быть  единичными  или  представлять  целые  группы  объектов.  Основной  задачей  аналитика  является  обнаружение  таких  аномалий  и  оценка  степени  их  влияния  на  результаты  дальнейшего  анализа.  Если  выбросы  являются  информативной  частью  анализируемого  набора  данных,  используют  робастные  методы  и  процедуры.  Хорошо  зарекомендовала  себя  практика,  когда  анализ  проводится  в  два  этапа.  На  первом  этапе  проводится  анализ  всего  набора  данных,  включая  выбросы.  Второй  этап  —  анализ  очищенных  от  выбросов  данных.  Получение  результаты  сравниваются  и  на  их  основе  делаются  выводы  о  влиянии  выбросов  на  конечный  результат  анализа.  Чувствительность  к  выбросам  отличается,  в  зависимости  от  выбранных  методов  Data  Mining.  Этот  факт  необходимо  учитывать  при  выборе  метода  анализа  данных.  Процедуры  очистки  от  шумов  имеются  во  многих  современных  инструментах  Data  Mining. 

Как  уже  говорилось,  наличие  грязных  данных  в  общем  наборе,  негативным  образом  сказывается  на  результатах  Data  Mining.  Такие  результаты  могут  оказаться  ненадежными  и  бесполезными.  Однако,  наличие  таких  данных  не  обязательно  означает  необходимость  их  очистки  или  же  предотвращения  появления.  Всегда  должен  быть  разумный  выбор  между  наличием  грязных  данных  и  затратами,  необходимыми  для  их  очистки.

На  сегодняшний  день  проблема  очистки  данных  весьма  актуальна  и  интерес  к  ней  продолжает  расти.  Проблемами,  связанными  с  очисткой  данных,  занимается  целый  ряд  исследовательских  групп.  Не  удивительно,  ведь  от  качества  подготовленных  данных  напрямую  зависит  результат  Data  Mining.  Цена  ошибок  может  быть  очень  высокой  в  финансовом  плане,  поскольку  внедрение  средств  Data  Mining  на  производстве  стоит  недёшево.  Но  успешный  результат  Data  Mining  может  принести  крупной  компании  прибыль,  на  порядок  превышающую  затраты.  Потому  очистка  данных  играет  важнейшую  роль  при  внедрении  средств  Data  Mining.

 

Список  литературы:

  1. Барсегян  А.А.,  Куприянов  М.С.,  Степаненко  В.В.,  Холод  И.И.  Методы  и  модели  анализа  данных:  OLAP  и  Data  Mining  —  М.:  БХВ-Петербург,  2009.  —  336  с.
  2. Чубукова  И.А.  Data  Mining:  учебное  пособие.  2-е  изд.,  перераб.  —  М.:  Интернет-университет  информационных  технологий:  БИНОМ:  Лаборатория  знаний,  2008.  —  с.  239—252.
  3. Эрхард  Рам,  Хонг  Хай  До.  Очистка  данных:  проблемы  и  актуальные  подходы  //  журнал  BPM  World.  [Электронный  ресурс]  —  Режим  доступа.  —  URL:  http://www.iso.ru/rus/document5815.phtml  (дата  обращения  17.02.2013).
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
Диплом лауреата
отправлен участнику

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом