Поздравляем с Новым Годом!
   
Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: Научного журнала «Студенческий» № 12(224)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4

Библиографическое описание:
Кузнецов Р.С., Кильдибаев Е.В., Маннанова А.В. ОБЗОР ПОДХОДОВ И МЕТОДОВ ПОИСКА АНОМАЛИЙ В ТАБЛИЧНЫХ ДАННЫХ // Студенческий: электрон. научн. журн. 2023. № 12(224). URL: https://sibac.info/journal/student/224/283850 (дата обращения: 25.12.2024).

ОБЗОР ПОДХОДОВ И МЕТОДОВ ПОИСКА АНОМАЛИЙ В ТАБЛИЧНЫХ ДАННЫХ

Кузнецов Роман Сергеевич

магистрант, кафедра автоматизированных систем управления, Уфимский университет науки и технологий,

РФ, г. Уфа

Кильдибаев Евгений Владимирович

магистрант, кафедра автоматизированных систем управления, Уфимский университет науки и технологий,

РФ, г. Уфа

Маннанова Алсу Вазировна

магистрант, кафедра автоматизированных систем управления, Уфимский университет науки и технологий,

РФ, г. Уфа

Еникеев Рустем Радомирович

научный руководитель,

канд. наук, доц., кафедра автоматизированных систем управления, Уфимский университет науки и технологий,

РФ, гУфа

OVERVIEW OF TECHNIQUES AND APPROACHES IN ANOMALY DETECTION FOR TABULAR DATA

 

Roman Kuznetsov

master's student, Department of Automatic Control Systems, Ufa University of Science and Technology,

Russia, Ufa

Evgeny Kildibaev

master's student, Department of Automatic Control Systems, Ufa University of Science and Technology,

Russia, Ufa

Alsu Mannanova

master's student, Department of Automatic Control Systems, Ufa University of Science and Technology,

Russia, Ufa

Rustem Enikeev

scientific supervisor, candidate of sciences, associate professor, Department of automated control systems, Ufa University of Science and Technology,

Russia, Ufa

 

АННОТАЦИЯ

Целью написания данной статьи является изучение методов поиска аномалий в табличных данных. Поиск аномалий является одним из важнейших шагов по обеспечению качества данных и применяется в ряде промышленных областей. В статье дается определение понятию «аномалия», описывается процесс их поиска и приводится обзор основных методов его проведения.

ABSTRACT

The purpose of this article is to study the anomaly detection techniques. Anomaly detection is an important step in data quality management and is applied in many industrial fields.  This article defines a concept of “data anomaly”, it describes the process of anomaly detection and provides an overview of the main techniques used in this process.

 

Ключевые слова: информационно-аналитические системы, качество данных, поиск аномалий, выбросы, табличные данные, машинное обучение.

Keywords: information-analytical systems, data quality, anomaly detection, outliers, tabular data, machine learning.

 

Введение

В современном мире обеспечение достаточного уровня качества данных является первостепенной задачей для поддержки успешной деятельности любой организации или предприятия. Стремительно растущие объемы хранимых данных вызывают необходимость в обеспечении высокого процента качества этих данных для последующего анализа и обработки. Результаты подобного анализа выступают основой для принятия управленческих решений [2], поэтому недостаточное внимание к качеству исходной информации может привести к катастрофическим последствиям для компании – падению прибыли, временным потерям, репутационному ущербу и пр.

Одним из ключевых показателей качества данных является отсутствие выбросов или «аномалий» – экстремальных значений во входных данных, находящихся далеко за пределами других наблюдений. Данные аномалии могут возникать по многим причинам: к примеру, они могут быть вызваны ошибками ввода данных, ошибками измерения или систематическими искажениями данных. Процесс поиска таких значений получил название «поиск аномалий» или «выявление аномалий».

Процесс поиска аномальных данных (как при использовании искусственного интеллекта и статистических методов, так и «вручную» при работе аналитика) тесно связан с определением пределов допустимых значений и выявлением закономерностей между показателями. Это делает процесс поиска аномалий трудо- и времязатратным процессом, что, в свою очередь, порождает необходимость в тщательном выборе используемых методов и инструментария для их применения.

Актуальность

В связи со стремительным ростом объемов накапливаемых данных задачи обеспечения их качества приобретают особую актуальность, так как эти данные являются основой для принятия управленческих решений на предприятиях. Поиск аномалий данных является одним из важнейших шагов по обеспечению качества данных и позволяет автоматизировать процесс обработки данных. Он позволяет выявлять необычные события и поведение, которые могут быть связаны с проблемами безопасности, ошибками в работе оборудования или другими проблемами. Кроме того, поиск аномалий может быть применен для улучшения качества услуг, оптимизации бизнес-процессов, а также для подготовки данных к последующему созданию моделей машинного обучения.

Цель

Изучить процесс поиска аномалий в табличных данных и провести анализ существующих методов его проведения.

Задачи

Исходя из поставленной цели можно выделить следующие задачи:

  1. Рассмотреть процесс поиска аномалий;
  2. Провести анализ существующих методов поиска аномалий;
  3. Выявить их достоинства и недостатки.

Основная часть

Следует подчеркнуть, что единого понимания термина «аномалия данных» или «выброс» не существует, т.к. в зависимости от области применения под этим термином могут пониматься как несоответствующие диапазону допустимых значений числовые данные, так и пропуски, дубликаты, строки, содержащие опечатки, даты в неверном формате и т.д. Наиболее общим определением выброса, популярным в научной литературе, является определение, данное В. Барнеттом и Т. Льюисом в 1994 году [4]. В данной работе под выбросом понимается «наблюдение (или подмножество наблюдений), которое, как представляется, не согласуется с остальными наблюдениями из данного множества», т.е. те данные, вызывающие подозрения ввиду существенного отличия от большей части данных. Другие авторы в своих публикациях могут определять аномалии как ошибки классификации, шум и пр. [6].

Тем не менее, несмотря на размытость данного понятия, проблеме поиска аномалий в данных посвящено множество научных публикаций, а сам процесс занимает важную роль среди мероприятий по обеспечению общего качества данных для нужд промышленных предприятий. Выявление аномалий используется в таких областях, как банковское дело, медицина, нефтяная и атомная промышленность, авто- и авиастроение. Это помогает обнаруживать различного рода ошибки, необычные показатели, акты мошенничества, попытки взлома и т.д. Кроме того, поиск аномалий может применяться в качестве шага для последующего создания моделей машинного обучения, так как очищенные таким образом данные позволяют строить более устойчивые модели.

Существует множество подходов к поиску аномалий. Одними из самых простых (за исключением визуального анализа диаграмм, например, гистограмм и диаграмм рассеяния) являются статистические методы. К ним относится поиск выбросов с помощью стандартизированной оценки (z-оценки, z-score). Этот метод вычисляет среднее арифметическое и стандартное отклонение данных и затем определяет, насколько далеко каждая точка отклоняется от среднего значения в единицах стандартного отклонения. Если точка находится достаточно далеко от среднего значения (обычно больше, чем на 3 стандартных отклонения), то она может считаться аномальной.

Другой метод поиска аномалий на основе статистики получил название метода Тьюки. Он использует межквартильный размах (IQR) для определения аномалий. IQR – это разница между 1-м (Q1) и 3-м (Q3) квартилями данных (т.е. 25-м и 75-м перцентилем). Данный метод определяет верхнюю и нижние границы как Q3 + 1,5*IQR и Q1 – 1,5*IQR соответственно. Точки, находящиеся за пределами этих границ, могут считаться аномальными.

Кроме того, существует ряд критериев (критерий Граббса, критерий Диксона и др.), позволяющих определить выбросы в одномерном наборе данных с заданным уровнем значимости. Большая часть тестов, основанных на этих критериев, предназначена для данных, подчиняющихся нормальному закону распределения, поэтому перед их расчётом требуется проверить их на нормальное распределение, к примеру, по критерию Колмогорова-Смирнова.

Статистические тесты просты в применении, но зачастую ограничены условиями применения и тем, что они не учитывают взаимосвязи между атрибутами многомерных данных. Для того, чтобы обойти это ограничение, широко применяются методы машинного обучения. Реальные данные на предприятиях редко бывают размечены (“выброс/не выброс”), поэтому необходимо использовать методы обучения без учителя. В связи с этим возникает необходимость дальнейшей проверки результатов действия алгоритма, получения экспертных оценок о корректности выбора аномалий и их количестве относительно общего набора данных.

Одним из подвидов таких методов являются подходы, основанные на плотности (density-based). В их основе лежит предположение, что «нормальные» точки расположены близко друг к другу, а аномалии – далеко от скоплений нормальных точек [5]. Таким образом, мы сравниваем плотности окружения точек и принимаем точки с наиболее низкой плотностью за аномалии. Примером подобного алгоритма может служить локальный уровень выброса (local outlier factor, LOF).

В случае, если расстояние между значениями в признаках равнозначно или нормировано, могут применяться методы, основанные на расстоянии (distance-based), к которым относятся алгоритмы k-ближайших соседей, ABOD (angle-based outlier detection) и др. Ключевым понятием в данных алгоритмах является расстояние между точками или метрика, вычисляемая на основе расстоянии (евклидово расстояние, манхэттенское расстояние, расстояние Махаланобиса [3] и др.). В дальнейшем с помощью этих метрик определяется принадлежность записей к числу аномалий.

Другим крупным семейством подходов к поиску аномалий выступают методы, основанные на построении моделей данных. Одним из наиболее распространенных является метод опорных векторов (Support Vector Machine, SVM). В контексте задачи поиска аномалий применяется его модификация – одноклассовый метод опорных векторов. Данный метод подходит, если в обучающем наборе данные подчиняются нормальному распределению, а в тестовом содержат аномалии. Одноклассовый метод опорных векторов строит нелинейную поверхность вокруг начала координат, при этом существует возможность задать границу отсечения аномальных данных. Данный метод также может применяться в ситуациях, когда не доступен достаточный объем данных для классификации аномальных режимов работы. Характерной чертой этого метода является применение специальной функции, называемой ядром, для преобразования обучающей последовательности данных в более многомерное пространство признаков и построением разделяющей гиперплоскости (позволяющей нормальным данным быть отделенными от аномальных) в этом пространстве. Одноклассовый SVM очень чувствителен к выбору ядра, проблеме подбора данной функции в зависимости от входных данных и доли выбросов в обучающей выборке посвящено несколько научных работ [1].

Для нормально распределенных данных так же может быть применен метод «эллиптической оболочки» (Elliptic envelope). Данный алгоритм создает воображаемый эллипс вокруг точек датасета, оставляя выбросы за пределами «оболочки».

Другим подходом является так называемый метод изолирующего леса (isolation forest). Его идея основана на принципе Монте-Карло: проводится случайное разбиение пространства признаков, такое что в среднем изолированные точки отсекаются от нормальных, кластеризованных данных.  Окончательный результат усредняется по нескольким запускам алгоритма. Данный метод был разработан в 2007 году, и важность его открытия обусловлена его отличием от ранее известных алгоритмов поиска аномалий, в которых сначала моделировался критерий, по которому определялась принадлежность данных к норме. Метод изолирующего леса предлагает более быстрый поиск аномалий, основанный на бинарных деревьях, имеет линейную сложность и сравнительно низкие требования к памяти, тем самым характеризуя себя как отличный алгоритм для работы с данными больших объемов.

Кроме этого, в рассматриваемой задаче могут применяться методы кластеризации. Суть данных методов заключается в поиске значений, удаленных от центров кластеров на расстояние, превышающее пороговое значение. Примером подобного метода может послужить алгоритм DBSCAN (англ. density-based spatial clustering of applications with noise, основанная на плотности пространственная кластеризация для приложений с шумами). В отличии, к примеру, от вышеописанного одноклассового SVM, кластеризация позволяет выделить несколько подмножеств данных в случае, если в наборе данных нет ярко выраженного единого центра.

Сравнительный анализ исследуемых семейств методов поиска аномалий приведен в таблице 1.

Таблица 1.

Сравнительный анализ семейств методов

Семейство методов

Достоинства

Недостатки

Статистические методы

Простота использования и реализации;

Не требуют значительных вычислительных мощностей и построения модели;

Не учитывают взаимосвязь между атрибутами;

В ряде случаев – ограничения на возможность применения;

Методы, основанные на плотности

Не требуют построения модели;

Низкие требования к используемой памяти;

Высокие требования к вычислительным мощностям;

Методы, основанные на расстоянии

Не требуют построения модели;

Эффективны при низкой размерности данных;

Плохая масштабируемость при большом количестве атрибутов;

Методы, основанные на построении моделей

Возможность выявлять сложные взаимозависимости между атрибутами,

Высокая точность при корректном построении модели;

Высокая чувствительность к входным параметрам;

Сложная настройка;

 

Вывод

Выбор между многочисленными подходами к поиску аномальных данных представляет собой нетривиальную задачу. Для того, чтобы определить наиболее подходящий для заданных условий метод, необходимо учитывать специфику решаемой задачи, объем располагаемых вычислительных и временных ресурсов, требования к производительности и т.д. Методы, позволяющие выявить наиболее сложные взаимосвязи между атрибутами и наиболее тонко разграничить нормальные данные и аномалии, требуют более сложной настройки и больших временных затрат на создание и тестирование моделей.

 

Список литературы:

  1. Будынков А.Н., Масолкин С.И. Проблема выбора ядра в одноклассовом методе опорных векторов // Проблемы управления. 2015. №6.
  2. Мартышенко С. Н., Мартышенко Н. С. Метод обнаружения ошибок в эмпирических данных // Известия вузов. Северо-Кавказский регион. Серия: Технические науки. 2008. №1.
  3. Anomaly Detection I – Distance-Based Methods [Электронный ресурс] // DEV Community: сайт. – URL: https://dev.to/_aadidev/anomaly-detection-i-distance-based-methods-278g (дата обращения: 29.03.2023)
  4. Barnett V., Lewis T. Outliers in Statistical Data, 3rd Edition // Wiley. 1994.
  5. Chepenko D. A Density-based algorithm for outlier detection [Электронный ресурс] // Towards Data Science: сайт. – URL:  https://towardsdatascience.com/density-based-algorithm-for-outlier-detection-8f278d2f7983 (дата обращения: 29.03.2023)
  6. Hodge V.J., Austin J. A survey of outlier detection methodologies // Artificial Intelligence Review. 2004. №22.

Оставить комментарий