Статья опубликована в рамках: IX Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 07 марта 2013 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
- Условия публикаций
- Все статьи конференции
отправлен участнику
ПРОБЛЕМА «ГРЯЗНЫХ ДАННЫХ» ПРИ ВНЕДРЕНИИ СРЕДСТВ DATA MINING
Емцов Вячеслав Сергеевич
магистрант 2-го курса, кафедра «Информационные технологии», Балтийский государственный технический университет «Военмех» им. Д.Ф. Устинова, г. Санкт-Петербург
E-mail: zellion@yandex.ru
Снижко Елена Александровна
научный руководитель, канд. пед. наук, доцент, кафедра «Информационные системы и компьютерные технологии», Балтийский государственный технический университет «Военмех» им. Д.Ф. Устинова, г. Санкт-Петербург
Data Mining объединяет в себе технологии и средства, которые имеют одну цель: поиск скрытых зависимостей в разнородных массивах данных. Данные — это результат фиксации некоторой информации. Сами данные, в свою очередь, могут выступать как источник новой полезной информации. Средства Data Mining позволяют извлекать такую информацию. Действительно ценная информация должна удовлетворять следующим требованиям [1]:
· информация должна быть ранее неизвестна;
· информация должна быть не тривиальна;
· информация должна быть практически полезна;
· информация должна быть доступна для интерпретации.
Эти требования определяют суть методов Data Mining. Потребность в подобных средствах очевидна, ведь знание некоторых закономерностей позволяет с лихвой окупить затраты на их поиск. По этой причине, применение средств Data Mining становится все более популярным среди крупных компаний, которые заинтересованы в привлечении новых клиентов. Внедрение Data Mining на производстве — весьма дорогостоящий и трудоемкий процесс. Существует ряд нетривиальных проблем, для решения которых требуется индивидуальный подход для каждой конкретной задачи. Одной из таких проблем является поддержание высокого уровня качества данных, на основе которых будет формироваться модель поиска взаимосвязей.
Качество данных (data quality) — это критерий, определяющий полноту, точность, своевременность и возможность интерпретации данных [2, c. 237]. Данные могут быть высокого качества и низкого качества, последние — это так называемые «грязные» или «плохие» данные. Для повышения качества данных их «очищают». Под очисткой данных (data cleaning, data cleansing или scrubbing) подразумевается выявление и удаление ошибок, несоответствий и конфликтов в данных [2, c. 240]. Очистка необходима для повышения качества данных, что, в свою очередь, повышает скорость и качество анализа данных методами Data Mining. Можно выделить четыре основных группы грязных данных:
· грязные данные, которые могут быть автоматически обнаружены и очищены;
· данные, появление которых может быть предотвращено;
· данные, которые непригодны для автоматического обнаружения и очистки;
· данные, появление которых невозможно предотвратить.
Важно понимать, что специальные средства очистки могут справиться не со всеми видами грязных данных. К наиболее распространенным видам грязных данных можно отнести [3]:
· данные с пропущенными значениями атрибутов;
· противоречивые данные;
· продублированные данные;
· шумы и выбросы.
Пропущенные значения (missing values) могут возникнуть, когда, по какой-либо причине, атрибуту объекта не присваивается значение. Например, при анкетировании может быть не указан возраст. Так же, некоторые атрибуты могут быть неприменимы для объектов определенного типа. Например, нет смысла указывать атрибут «годовой доход» для ребенка.
Пропущенные значения атрибутов — наиболее актуальная проблема для большинства хранилищ данных. Большая часть методов прогнозирования (одна из задач Data Mining) исходят из предположения, что данные поступают равномерным потоком без пробелов. На практике такое встречается крайне редко, т. к. базы данных хранилищ могут отличаться по структуре, в зависимости от законодательства и других требований. Поэтому, прогнозирование на основе таких данных реализуется некачественно или со значительными ограничениями. Эту проблему можно решить несколькими способами.
· Исключить объекты с пропущенными значениями из обработки.
· Рассчитать новые значения для пропущенных атрибутов.
· Игнорировать пропущенные значения в процессе анализа.
· Заменить пропущенные значения атрибутов на вероятные значения.
В конечном итоге, в наборе данных не остается объектов с пустыми значениями атрибутов, что приводит к повышению общего качества данных.
Еще один вид грязных данных — противоречивые данные. Противоречивость может возникнуть, когда данные находятся в хранилище в несвязанном виде. Это говорит о том, что база данных плохо спроектирована. Есть несколько вариантов, как поступить с противоречивыми данными.
· Исключать объекты с противоречивыми значениями атрибутов из обработки.
· Выбирать из множества возможных значений атрибутов единственное значение. Например, вычислять вероятность появления каждого из противоречивых событий и выбирать наиболее вероятное из них.
Исключение объектов — очень грубый способ, но при этом, самый простой, так как не требует применения никаких дополнительных алгоритмов. Второй способ сложнее в реализации, но является более правильным, так как, позволяет избежать потери данных.
Следующий вид грязных данных — дубликаты (duplicate data). Дубликатами называются записи с одинаковыми значениями всех атрибутов.
Дубликаты иногда используют, чтобы искусственно повысить значимость определенных записей, но в большинстве случаев, наличие дубликатов негативно сказывается на результатах анализа. Поэтому, прежде чем начинать работать с данными, нужно обработать продублированные записи. Возможны два варианта такой обработки. В первом случае все записи, которые имеют дубликаты, удаляются. Такой вариант используется, когда наличие дубликатов полностью обесценивает информацию или вызывает недоверие к ней. Во втором случае, из группы продублированных записей оставляют только одну.
Идентификация дубликатов так же является проблемой, поскольку значения некоторых атрибутов нужно считать одинаковыми, даже когда они не совпадают полностью. Примером может служить атрибут «Имя». Одно и то же имя может быть записано в краткой, в полной форме, в виде инициалов и т. д.
Последний вид загрязненных данных — это шумы и выбросы. Выбросами называют объекты или наблюдения, которые резко выделяются из всего набора. Шумом называют сильные отклонения от среднего значения в наборе данных. Шум в данных не несет никакой полезной скрытой информации, поэтому его стараются минимизировать. При анализе данных шумы и выбросы являются достаточно большой проблемой, поскольку снижают достоверность результата анализа. Выбросы могут быть единичными или представлять целые группы объектов. Основной задачей аналитика является обнаружение таких аномалий и оценка степени их влияния на результаты дальнейшего анализа. Если выбросы являются информативной частью анализируемого набора данных, используют робастные методы и процедуры. Хорошо зарекомендовала себя практика, когда анализ проводится в два этапа. На первом этапе проводится анализ всего набора данных, включая выбросы. Второй этап — анализ очищенных от выбросов данных. Получение результаты сравниваются и на их основе делаются выводы о влиянии выбросов на конечный результат анализа. Чувствительность к выбросам отличается, в зависимости от выбранных методов Data Mining. Этот факт необходимо учитывать при выборе метода анализа данных. Процедуры очистки от шумов имеются во многих современных инструментах Data Mining.
Как уже говорилось, наличие грязных данных в общем наборе, негативным образом сказывается на результатах Data Mining. Такие результаты могут оказаться ненадежными и бесполезными. Однако, наличие таких данных не обязательно означает необходимость их очистки или же предотвращения появления. Всегда должен быть разумный выбор между наличием грязных данных и затратами, необходимыми для их очистки.
На сегодняшний день проблема очистки данных весьма актуальна и интерес к ней продолжает расти. Проблемами, связанными с очисткой данных, занимается целый ряд исследовательских групп. Не удивительно, ведь от качества подготовленных данных напрямую зависит результат Data Mining. Цена ошибок может быть очень высокой в финансовом плане, поскольку внедрение средств Data Mining на производстве стоит недёшево. Но успешный результат Data Mining может принести крупной компании прибыль, на порядок превышающую затраты. Потому очистка данных играет важнейшую роль при внедрении средств Data Mining.
Список литературы:
- Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining — М.: БХВ-Петербург, 2009. — 336 с.
- Чубукова И.А. Data Mining: учебное пособие. 2-е изд., перераб. — М.: Интернет-университет информационных технологий: БИНОМ: Лаборатория знаний, 2008. — с. 239—252.
- Эрхард Рам, Хонг Хай До. Очистка данных: проблемы и актуальные подходы // журнал BPM World. [Электронный ресурс] — Режим доступа. — URL: http://www.iso.ru/rus/document5815.phtml (дата обращения 17.02.2013).
отправлен участнику
Оставить комментарий