Статья опубликована в рамках: Научного журнала «Студенческий» № 11(307)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5
ОБНАРУЖЕНИЕ АНОМАЛИЙ В РАБОТЕ ИНФОРМАЦИОННЫХ СИСТЕМ МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ
ANOMALY DETECTION IN INFORMATION SYSTEMS USING MACHINE LEARNING METHODS
Aigiz Valitov
student, Ufa University of Science and Technology,
Russia, Ufa
АННОТАЦИЯ
Обнаружение аномалий – главная задача для обеспечения безопасности и устойчивости функционирования информационных систем. В статье рассматриваются основные математические методы машинного обучения, которые применяются для её решения: кластеризация, методы ближайших соседей, деревья решений, нейронные сети и статистические подходы.
Проведен сравнительный анализ программных инструментов, реализующих данные методы, с оценкой таких параметров, как точность, производительность, масштабируемость и удобство применения. Отдельно выделены преимущества и ограничения каждого метода.
Результаты могут быть полезны специалистам по информационной безопасности и разработчикам при выборе подходящих решений.
ABSTRACT
Anomaly detection is the main task to ensure the security and stability of information systems. The article discusses the main mathematical methods of machine learning that are used to solve it: clustering, nearest neighbor methods, decision trees, neural networks and statistical approaches.
A comparative analysis of software tools that implement these methods is carried out, evaluating such parameters as accuracy, performance, scalability and usability. The advantages and limitations of each method are highlighted separately.
The results may be useful for information security specialists and developers when choosing appropriate solutions.
Ключевые слова: обнаружение аномалий, машинное обучение, кластеризация, нейронные сети, деревья решений, анализ данных, программные инструменты, автоэнкодеры, k–средних, k–NN, Isolation Forest.
Keywords: anomaly detection, machine learning, clustering, neural networks, decision trees, data analysis, software tools, autoencoders, k–means, k–NN, Isolation Forest.
Введение. Современные информационные системы сталкиваются с ростом объемов данных, усложнением архитектуры и увеличением киберугроз. Согласно данным компании Kaspersky за 2024 год, около 30% инцидентов в информационных системах связаны с DdoS-атаками, тогда как остальные – с аппаратными сбоями и программными ошибкам. Эти обстоятельства указывают на важность своевременного обнаружения аномалий, которые могут указывать на попытки несанкционированного доступа, нарушения в передаче данных или скрытые неисправности.
Традиционные методы, основанные на пороговых значениях или ручном анализе, неэффективны для больших объемов данных в реальном времени из-за низкой адаптивности и частых ложных срабатываний. Методы машинного обучения предлагают более точное решение, но их эффективность зависит от выбора алгоритма и инструмента. Существующие подходы имеют ограничения: низкая точность на зашумленных данных, слабая масштабируемость и высокие требования к ресурсам.
Целью работы является анализ математических методов и программных средств обнаружения аномалий, определение их недостатков и разработка рекомендаций для применения в информационных системах.
Рисунок 1. Пример временного ряда сетевого трафика с аномалиями, связанными с DdoS-атакой
Обзор литературы. Современные исследования активно используют методы машинного обучения. Например, Bishop [1] в своей работе подчеркивает важность распознавания образов для анализа данных, что лежит в основе многих алгоритмов обнаружения аномалий. Hodge и Austin [3] в своем обзоре подчеркивают перспективность методов кластеризации и подходов, основанных на оценке плотности данных, для выявления выбросов.
Методы кластеризации
Кластеризация предполагает объединение данных в группы на основе их сходства, а аномалии определяются как объекты, не принадлежащие ни одной группе. Алгоритм k–средних (k–means) является одним из самых известных методов в этой категории. Метод минимизирует сумму квадратов расстояний от точек до центров кластеров: , где k – число кластеров, Si – множество точек в кластере i, mi – центроид. Он эффективен для данных с четко выраженной структурой, но чувствителен к выбросам и требует предварительного задания числа кластеров [2]. Алгоритм DBSCAN, напротив, не требует указания числа кластеров и хорошо справляется с данными различной плотности, что делает его более гибким для задач обнаружения аномалий.
Методы на основе ближайших соседей
Такие подходы как k–NN, оценивают аномалии на основе плотности окружающих точек. Если точка находится далеко от своих ближайших соседей, она считается аномальной. Расстояние до k–го соседа определяется как: , где Nk(x) – множество ближайших соседей точки. Этот подход прост в реализации, но его вычислительная сложность возрастает с увеличением объема данных, что ограничивает его применение в больших системах [3].
Методы на основе деревьев решений
Алгоритм Isolation Forest, разработанный Liu и Ting [4], использует случайное разделение данных для изоляции аномалий. Аномальные точки требуют меньше разделений для изоляции, что делает этот метод эффективным для больших наборов данных. Его преимущество – высокая производительность и низкая чувствительность к шуму.
Нейронные сети
Нейронные сети, в частности автоэнкодеры, обучаются воссоздавать нормальные данные, а аномалии выявляются по высокой ошибке восстановления: , где x̂ – восстановленные данные. Этот подход особенно полезен для сложных данных, таких как временные ряды или изображения, но требует значительных вычислительных ресурсов и больших объемов данных для обучения [1].
Методы статистического анализа
Статистические методы, такие как анализ главных компонент (PCA), уменьшают размерность данных и выявляют отклонения от основной структуры. PCA эффективен для линейных данных, но может быть менее точным при работе с нелинейными зависимостями [2].
Сравнительный анализ программных инструментов. В данной работе рассмотрены основные инструменты: Scikit–learn (k–means, k–NN, Isolation Forest), TensorFlow (автоэнкодеры), и ELKI (DBSCAN). Критерии оценки включали точность, производительность, масштабируемость и удобство использования.
- Scikit–learn:
- Точность: Высокая для k–means и Isolation Forest при четкой структуре данных.
- Производительность: Хорошая для средних объемов данных, но k–NN замедляется на больших наборах.
- Масштабируемость: Ограничена для k–NN из–за вычислительной сложности.
- Удобство: Отличная документация и простота интеграции.
- TensorFlow:
- Точность: Высокая для автоэнкодеров при наличии больших обучающих данных.
- Производительность: Низкая без GPU.
- Масштабируемость: Отличная при использовании распределенных систем.
- Удобство: Требует навыков программирования и настройки моделей.
- ELKI:
- Точность: Высокая для DBSCAN на данных с переменной плотностью.
- Производительность: Средняя, зависит от оптимизации.
- Масштабируемость: Хорошая для специализированных задач.
- Удобство: Сложный интерфейс, ориентирован на исследователей.
Таблица 1.
Сравнение программных инструментов.
Инструмент |
Точность |
Производительность |
Масштабируемость |
Удобство |
Scikit–learn |
Высокая |
Хорошая |
Средняя |
Высокое |
TensorFlow |
Высокая |
Низкая без GPU |
Высокая |
Среднее |
ELKI |
Высокая |
Средняя |
Хорошая |
Низкое |
Заключение. Обнаружение аномалий остается актуальной задачей в условиях роста киберугроз и усложнения систем. Методы машинного обучения, такие как кластеризация, k–NN, деревья решений, нейронные сети и PCA, предлагают эффективные решения. Однако их выбор зависит от типа данных и требований.
Анализ выявил сильные и слабые стороны инструментов Scikit-learn, TensorFlow и ELKI, что создает основу для дальнейших исследований. Полученный результат обобщает подходы и определяет пути их совершенствования для повышения эффективности решений в области информационной безопасности.
Список литературы:
- Bishop, C. M. Pattern Recognition and Machine Learning. Springer, 2006.
- Chandola, V., Banerjee, A., Kumar, V. Anomaly detection: A survey // ACM Computing Surveys. 2009. Vol. 41, No. 3. P. 1–58.
- Hodge, V. J., Austin, J. A survey of outlier detection methodologies // Artificial Intelligence Review. 2004. Vol. 22, No. 2. P. 85–126.
- Liu, F. T., Ting, K. M. Isolation forest // IEEE International Conference on Data Mining. 2008. P. 413–422.
Оставить комментарий