Статья опубликована в рамках: Научного журнала «Студенческий» № 18(356)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал
ОБНАРУЖЕНИЕ АНОМАЛИЙ В ТРАФИКЕ МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ
DETECTION OF ANOMALIES IN TRAFFIC USING MACHINE LEARNING METHODS
Kozlovsky Maxim Alexandrovich
Master's student, Department of Telecommunication Systems and Information Security, Russian New University,
Russia, Moscow
Stepanova Evgenia Nikolaevna
Scientific supervisor, candidate of Sciences in Pedagogics, associate professor of the Department of Information Systems in Economics and Management, Russian New University,
Russia, Moscow
АННОТАЦИЯ
В статье рассматривается задача обнаружения аномалий в трафике с применением методов машинного обучения. Приведена типология сетевых аномалий и проанализированы ограничения пороговых и сигнатурных подходов в условиях зашифрованного и динамично изменяющегося трафика. Систематизированы основные алгоритмы машинного обучения, применяемые для обнаружения аномалий: методы кластеризации (K-Means, DBSCAN), изоляционные леса (Isolation Forest), One-Class SVM, автоэнкодеры и рекуррентные нейронные сети LSTM. Рассмотрены критерии оценки результативности методов в условиях несбалансированных классов и приведено их сравнение по качеству распознавания и операционным характеристикам.
ABSTRACT
The article considers the problem of detecting anomalies in traffic using machine learning methods. A typology of network anomalies is provided, and the limitations of threshold-based and signature-based approaches are analyzed in the context of encrypted and dynamically changing traffic. The main machine learning algorithms used for anomaly detection are systematized: clustering methods (K-Means, DBSCAN), Isolation Forest, One-Class SVM, autoencoders, and recurrent neural networks (LSTM). Criteria for evaluating the effectiveness of methods under conditions of imbalanced classes are considered, and a comparison of methods in terms of recognition quality and operational characteristics is provided.
Ключевые слова: трафик; обнаружение аномалий; машинное обучение; информационная безопасность; Isolation Forest; автоэнкодер; LSTM; кибератаки.
Keywords: traffic; anomaly detection; machine learning; information security; Isolation Forest; autoencoder; LSTM; cyberattacks.
Современные телекоммуникационные сети характеризуются экспоненциальным ростом объёмов передаваемых данных, усложнением структуры трафика и появлением новых типов угроз информационной безопасности. Своевременное обнаружение аномальной активности — резких всплесков нагрузки, попыток сканирования портов, медленных DDoS-атак, нетипичных соединений между сегментами сети — становится одной из ключевых задач сетевого администрирования и обеспечения безопасности [3, 9].
Традиционные методы выявления аномалий, основанные на статических пороговых значениях и сигнатурном анализе, демонстрируют ограниченную результативность в условиях зашифрованного трафика и появления ранее неизвестных атак (zero-day) [4, 13]. В таких условиях наиболее перспективным направлением становится применение методов машинного обучения, способных автоматически выявлять закономерности в больших объёмах потоковых данных, адаптироваться к изменяющимся условиям и обнаруживать поведенческие отклонения, не описанные в каталогах сигнатур [11, 15].
Цель данной статьи — систематизировать сведения о методах машинного обучения, применяемых для обнаружения аномалий в трафике, проанализировать их сильные и слабые стороны и привести сравнение по критериям качества распознавания и операционным характеристикам.
1. Понятие сетевой аномалии и её типология
Под сетевой аномалией понимается отклонение наблюдаемого поведения трафика от типичных паттернов, сформированных историческими данными или ожидаемых на основании политик функционирования сети. В отличие от подходов с фиксированными пороговыми значениями, поведенческие модели позволяют учитывать контекст: одна и та же интенсивность запросов может быть нормой в рабочие часы и аномалией в ночное время. Это даёт возможность фиксировать как внезапные всплески активности, так и постепенные отклонения, которые могут свидетельствовать о появлении новых типов атак или о неисправностях в функционировании отдельных сегментов сети [4].
В научной литературе принято выделять три основные категории аномалий по характеру их проявления:
- точечные аномалии. Отдельные наблюдения, существенно отличающиеся от остальных (например, единичный пакет аномального размера или с нестандартным флагом).
- контекстные аномалии. Значения, нормальные сами по себе, но аномальные в данном контексте (всплеск активности рабочей станции в 3 часа ночи).
- коллективные аномалии. Группа связанных наблюдений, аномальная как целое, при этом каждое отдельное наблюдение может быть нормальным (например, координированные запросы botnet-сети).
По источнику возникновения аномалии подразделяются на связанные с кибератаками (DDoS, сканирование портов, попытки эксплуатации уязвимостей, передача вредоносного содержимого), технические (сбои оборудования, конфигурационные ошибки, перегрузки) и поведенческие (нетипичные действия пользователей или сервисов). Основные типы сетевых аномалий и их характеристики приведены в таблице 1 [8, 15].
Таблица 1.
Основные типы сетевых аномалий
|
Тип аномалии |
Характерные признаки |
Сложность обнаружения |
|---|---|---|
|
DDoS-атаки |
Резкий рост числа запросов или объёма пакетов от множества источников |
Низкая — для объёмных, высокая — для медленных и распределённых |
|
Сканирование портов |
Множество подключений на разные порты одного узла за короткое время |
Средняя |
|
Вторжения (intrusion) |
Нетипичные соединения между сегментами, обращения к ресурсам с повышенными правами |
Высокая |
|
Botnet-активность |
Координированные запросы, периодический обмен с C&C-серверами |
Высокая (коллективная аномалия) |
|
Аномалии производительности |
Рост задержек, потерь пакетов, повторные запросы |
Средняя |
|
Zero-day атаки |
Поведение, не описанное в каталогах сигнатур |
Очень высокая |
|
Технические сбои |
Нестабильность интерфейсов, флуктуации параметров |
Низкая |
Из таблицы 1 видно, что наиболее сложно поддающимися обнаружению являются zero-day атаки и коллективные аномалии типа botnet-активности. Именно для таких задач традиционные сигнатурные методы оказываются неработоспособными, что обуславливает необходимость применения методов машинного обучения, способных выявлять поведенческие отклонения от нормального профиля сети.
2. Методы машинного обучения для обнаружения аномалий
Методы машинного обучения, применяемые для обнаружения аномалий в трафике, делятся на три основные парадигмы по характеру разметки обучающих данных: обучение с учителем, обучение без учителя и полуобучение. Каждая парадигма имеет свои области применения и ограничения [6].
Обучение с учителем (supervised learning) применяется при наличии размеченного набора данных, в котором каждый поток или сессия имеют метку «норма» / «аномалия». В этой парадигме задача обнаружения аномалий формулируется как задача бинарной или многоклассовой классификации. Применяются деревья решений (Decision Tree), случайные леса (Random Forest), опорные векторы (SVM) и градиентный бустинг (XGBoost, LightGBM). Их преимущество — высокая точность распознавания известных типов атак, недостаток — неспособность обнаруживать ранее неизвестные классы [2, 13].
Обучение без учителя (unsupervised learning) применяется при отсутствии разметки и направлено на выявление структуры данных. В этой парадигме модель обучается на трафике, считающемся нормальным, и сигнализирует о любых существенных отклонениях. Используются методы кластеризации (K-Means, DBSCAN, HDBSCAN), изоляционные леса (Isolation Forest), One-Class SVM, а также реконструктивные модели — автоэнкодеры (Autoencoder, Variational Autoencoder). Главное преимущество — способность обнаруживать zero-day атаки [8, 15].
Полуобучение (semi-supervised learning) сочетает обе парадигмы и особенно действенно при работе с большими объёмами неразмеченного трафика, который легко собирается в реальных сетях [11].
Краткая характеристика основных алгоритмов машинного обучения, применяемых для обнаружения аномалий, приведена в таблице 2.
Таблица 2.
Алгоритмы машинного обучения для обнаружения аномалий
|
Алгоритм |
Парадигма |
Принцип работы |
Типичное применение |
|---|---|---|---|
|
K-Means |
Без учителя |
Кластеризация по евклидовой метрике, выбросы — точки вне кластеров |
Группировка трафика, выделение нетипичных потоков |
|
DBSCAN |
Без учителя |
Плотностная кластеризация, точки в разрежённых областях — аномалии |
Обнаружение нестандартных групп соединений |
|
Isolation Forest |
Без учителя |
Изоляция аномалий случайными разделениями дерева |
Обнаружение редких атак, zero-day |
|
One-Class SVM |
Без учителя |
Построение границы вокруг области нормальных наблюдений |
Обнаружение отклонений в зашифрованных потоках |
|
Autoencoder |
Без учителя |
Реконструкция входа; аномалия — высокая ошибка восстановления |
Поведенческие аномалии, скрытые паттерны |
|
Random Forest |
С учителем |
Ансамбль решающих деревьев на размеченных данных |
Классификация известных типов атак |
|
XGBoost / LightGBM |
С учителем |
Градиентный бустинг, последовательное обучение деревьев |
Высокоточная классификация трафика |
|
LSTM |
С учителем / без учителя |
Рекуррентная сеть для анализа временных рядов трафика |
Медленные DDoS, поведенческие аномалии |
Как видно из таблицы 2, для задачи обнаружения аномалий наибольший интерес представляют методы обучения без учителя, поскольку они не требуют разметки и способны обнаруживать ранее неизвестные атаки. При этом методы обучения с учителем (Random Forest, XGBoost) демонстрируют более высокую точность при работе с известными классами угроз. Рекуррентные нейронные сети LSTM занимают отдельную позицию благодаря способности анализировать временные зависимости, что особенно важно при обнаружении медленных и распределённых атак [10, 12].
3. Критерии оценки результативности и сравнение методов
Объективная оценка действенности методов обнаружения аномалий требует выбора метрик, учитывающих специфику задачи. В задачах анализа трафика классы крайне несбалансированы: доля аномальных потоков обычно не превышает 1–5 %. В таких условиях стандартная метрика accuracy (доля правильно классифицированных объектов) даёт завышенные значения за счёт доминирования нормального класса, поэтому приоритет отдаётся следующим метрикам:
- Recall (полнота). Доля обнаруженных аномалий среди всех существующих. Критически важна, чтобы не пропустить атаку.
- FPR (False Positive Rate). Доля ложных срабатываний. Должна быть минимальной, чтобы избежать перегрузки оператора ложными тревогами.
- F1-score. Гармоническое среднее точности (Precision) и полноты, балансирующее оба показателя.
- PR-AUC. Площадь под кривой Precision-Recall, предпочтительнее ROC-AUC в условиях несбалансированных классов.
Помимо метрик качества важны операционные характеристики: время обучения и инференса, потребление памяти, возможность потоковой обработки в реальном времени. В операторских сетях задержка обработки даже на 10 мс приводит к накоплению очередей и потере пакетов [8]. Дополнительно учитываются устойчивость к концептуальному дрейфу (постепенному изменению характеристик трафика) и интерпретируемость результатов, важная при расследовании инцидентов [7].
Сравнительная характеристика основных методов обнаружения аномалий по выбранным критериям приведена в таблице 3.
Таблица 3.
Сравнение методов обнаружения аномалий по основным критериям
|
Метод |
Качество (F1, PR-AUC) |
Скорость инференса |
Интерпретируемость |
Обнаружение zero-day |
|---|---|---|---|---|
|
K-Means |
Среднее |
Высокая |
Средняя |
Ограниченное |
|
DBSCAN |
Среднее |
Средняя |
Средняя |
Хорошее |
|
Isolation Forest |
Высокое |
Очень высокая |
Низкая |
Очень хорошее |
|
One-Class SVM |
Высокое |
Низкая |
Низкая |
Хорошее |
|
Autoencoder |
Очень высокое |
Средняя |
Низкая |
Очень хорошее |
|
Random Forest |
Высокое |
Высокая |
Высокая |
Нет |
|
XGBoost |
Очень высокое |
Высокая |
Средняя |
Нет |
|
LSTM |
Очень высокое |
Низкая |
Низкая |
Хорошее |
Данные таблицы 3 показывают, что универсального метода обнаружения аномалий, превосходящего остальные по всем критериям, не существует. Isolation Forest демонстрирует оптимальный компромисс между качеством, скоростью работы и способностью обнаруживать zero-day атаки, что делает его одним из наиболее популярных методов в практических системах сетевого мониторинга. Autoencoder и LSTM обеспечивают наивысшее качество распознавания, однако требуют значительных вычислительных ресурсов. Методы обучения с учителем (Random Forest, XGBoost) превосходны для классификации известных атак, но неприменимы к новым типам угроз [5, 14].
На практике наиболее результативным подходом является гибридная архитектура, сочетающая методы с учителем для классификации известных угроз с методами без учителя для обнаружения неизвестных аномалий. Такая комбинация обеспечивает максимальное покрытие сценариев угроз при приемлемой нагрузке на инфраструктуру мониторинга [15].
Заключение
Методы машинного обучения существенно расширяют возможности систем обнаружения аномалий в трафике, обеспечивая возможность выявления поведенческих отклонений в зашифрованных потоках и ранее неизвестных типов атак. В отличие от пороговых и сигнатурных подходов, интеллектуальные методы учитывают контекст функционирования сети, способны обнаруживать как точечные, так и коллективные аномалии и адаптироваться к изменениям профиля трафика. Анализ алгоритмов показал, что для задачи обнаружения аномалий наибольший интерес представляют методы обучения без учителя — Isolation Forest, автоэнкодеры, One-Class SVM, а также рекуррентные сети LSTM для анализа временных рядов. Оптимальный подход на практике — гибридная архитектура, сочетающая методы с учителем и без учителя, что обеспечивает максимальное покрытие сценариев угроз. Выбор конкретного алгоритма определяется требованиями к скорости обработки, объёму вычислительных ресурсов и характеру обнаруживаемых аномалий, что должно решаться индивидуально для каждой сетевой инфраструктуры [1].
Список литературы:
- ISO/IEC 27001:2022. Information security, cybersecurity and privacy protection – Information security management systems – Requirements: международный стандарт: [утвержден 2022-10]. – Женева: ISO/IEC, 2022. – 26 с.
- Андреев И. И. Применение искусственных нейронных сетей для анализа сетевого трафика // Новые компетенции цифровой реальности: теория и практика их развития у обучающихся: сб. докладов и науч. ст. III Всерос. науч.-практ. конф. – Чебоксары, 2022. – С. 7–11.
- Бородин А. С., Волков А. Н., Мутханна А. С. А., Кучерявый А. Е. Искусственный интеллект в сетях связи пятого и последующих поколений // Электросвязь. – 2021. – № 1. – С. 17–22.
- Денисенко В. В., Ященко А. С. Применение искусственного интеллекта для анализа сетевого трафика // Международный журнал гуманитарных и естественных наук. – 2023. – № 1-1 (76). – С. 19–22.
- Денисов А. С., Ковалев И. С., Пантюхин О. И., Родичев И. Д., Рябов Г. А. Анализ задач применения средств искусственного интеллекта в сетях и системах связи // Региональная информатика (РИ-2024): материалы XIX СПб. междунар. конф. – СПб., 2024. – С. 53–54.
- Дмитриева Ю. С., Елагин В. С. Анализ методов идентификации трафика для искусственного интеллекта // Подготовка профессиональных кадров в магистратуре для цифровой экономики (ПКМ-2023): сб. лучших докл. Всерос. науч.-техн. и науч.-метод. конф. магистрантов и их руководителей: в 2 т. – СПб., 2023. – Т. 1. – С. 287–292.
- Иванов Р. А. Анализ сетевого трафика с использованием искусственного интеллекта // Подготовка профессиональных кадров в магистратуре в эпоху цифровой трансформации (ПКМ-2024): сб. лучших докл. V Всерос. науч.-техн. и науч.-метод. конф. магистрантов и их руководителей: в 2 т. – СПб., 2025. – Т. 1. – С. 207–211.
- Клычков И. А., Еськин Д. Л. Интеллектуальный анализ трафика в мультивендорных проводных сетях для обнаружения аномалий производительности // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и технические науки. – 2025. – № 6. – С. 184–187.
- Куликова О. В., Пинигин А. С. Использование средств искусственного интеллекта для анализа сетевого трафика на предмет кибератак // Научный Альманах ассоциации France-Kazakhstan. – 2025. – № 1. – С. 94–100.
- Кутузов Д. В., Осовский А. В., Старов Д. В., Мальцева Н. С., Перова К. В. Анализ и прогнозирование трафика современных телекоммуникационных систем на основе методов искусственного интеллекта // Вестник Астраханского государственного технического университета. Серия: Управление, вычислительная техника и информатика. – 2024. – № 1. – С. 73–87.
- Ложников К. А., Трещев И. А. Исследование конфигураций искусственных нейронных сетей для анализа трафика на наличие уязвимостей // Наука, инновации и технологии: от идей к внедрению: материалы Междунар. науч.-практ. конф. – Комсомольск-на-Амуре, 2022. – С. 120–123.
- Ложников К. А., Трещев И. А. Эвристический анализ сетевого трафика с использованием CPN нейронных сетей // Актуальные проблемы информационно-телекоммуникационных технологий и математического моделирования в современной науке и промышленности: материалы I Междунар. науч.-практ. конф. молодых учёных. – Комсомольск-на-Амуре, 2021. – С. 284–287.
- Носач Д. П. Исследование возможностей обучения нейронной сети для оптимизации работы телекоммуникационной сети // Радиоэлектроника, электротехника и энергетика: тез. докл. XXX Междунар. науч.-техн. конф. студентов и аспирантов. – М., 2024. – С. 244.
- Скрыпников А. В., Денисенко В. В. Применение нейросетей для анализа сетевого трафика // Материалы LXI отчётной науч. конф. преподавателей и науч. сотрудников ВГУИТ за 2022 год: в 3 ч. – Воронеж, 2023. – Ч. 1. – С. 40.
- Merkulova A. A., Maslova O. V. Artificial Intelligence in Detecting Anomalies in the Functioning of Telecommunication Devices // Молодёжь. Общество. Современная наука, техника и инновации. – 2025. – № 24. – С. 65–68.

