Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: Научного журнала «Студенческий» № 20(316)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6, скачать журнал часть 7, скачать журнал часть 8, скачать журнал часть 9, скачать журнал часть 10, скачать журнал часть 11, скачать журнал часть 12, скачать журнал часть 13, скачать журнал часть 14, скачать журнал часть 15, скачать журнал часть 16

Библиографическое описание:
Джабри А.Ш. ОБНАРУЖЕНИЕ ВТОРЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ МАШИННОГО ОБУЧЕНИЯ: АНАЛИЗ НА ОСНОВЕ НАБОРА ДАННЫХ CSE-CIC-IDS2018 // Студенческий: электрон. научн. журн. 2025. № 20(316). URL: https://sibac.info/journal/student/316/375659 (дата обращения: 18.07.2025).

ОБНАРУЖЕНИЕ ВТОРЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ МАШИННОГО ОБУЧЕНИЯ: АНАЛИЗ НА ОСНОВЕ НАБОРА ДАННЫХ CSE-CIC-IDS2018

Джабри Абделькадер Шакер

студент, кафедра Компьютерные системы и сети, Московский государственный технический университет имени Н.Э. Баумана,

РФ, г. Москва

INTRUSION DETECTION SYSTEM USING USING MACHINE LEARNING

 

Djabri Abdelkader Chaker

student, Department of Computer Systems and Networks Moscow State Technical University,

Russia, Moscow

 

АННОТАЦИЯ

В статье представлена система обнаружения вторжений на основе машинного обучения, разработанная для борьбы с нарастающими киберугрозами с использованием набора данных CSE-CIC-IDS2018. Система реализует алгоритмы, такие как деревья решений, случайные леса, XGBoost, MLP, KNN и SVM, с обработкой данных, включая выборку, очистку и отбор характеристик. Оценка по метрикам точности, полноты и F1-меры показала, что XGBoost наиболее эффективен, достигнув точности 0,994, несмотря на 45% доброкачественного трафика и ограниченный объем выборки 2,08% (159 482 экземпляра). Исследование подчеркивает адаптивность системы и предлагает будущие улучшения, способствуя повышению безопасности сетей.

ABSTRACT

This paper presents a machine learning-based intrusion detection system designed to combat the growing cyber threats using the CSE-CIC-IDS2018 dataset. The system implements algorithms such as decision trees, random forests, XGBoost, MLP, KNN, and SVM with data processing including sampling, cleaning, and feature extraction. Evaluation on precision, recall, and F1-score metrics showed that XGBoost is the most effective, achieving an accuracy of 0.994 despite 45% benign traffic and a limited sample size of 2.08% (159,482 instances). The study highlights the adaptability of the system and suggests future improvements, contributing to the enhancement of network security.

 

Ключевые слова: обнаружение вторжений, машинное обучение, CSE-CIC-IDS2018, XGBoost, кибербезопасность.

Keywords: intrusion detection, machine learning, CSE-CIC-IDS2018, XGBoost, Cybersecurity.

 

Введение

Стремительное развитие сетевых технологий открыло беспрецедентные возможности для глобального соединения, но в то же время породило значительные вызовы в области кибербезопасности, особенно в виде сложных вторжений и атак. По мере роста сложности и частоты киберугроз традиционные меры безопасности часто оказываются недостаточными, что требует разработки передовых решений, способных адаптироваться к динамичным рискам. Искусственный интеллект (ИИ), особенно через машинное обучение (МО), предлагает перспективный подход к улучшению систем обнаружения вторжений, позволяя с высокой точностью выявлять аномальные шаблоны в сетевом трафике. Данная работа посвящена исследованию, проектированию и оценке системы обнаружения вторжений на основе алгоритмов машинного обучения с использованием набора данных CSE-CIC-IDS2018 для решения современных задач кибербезопасности. Основная цель — изучить применимость различных моделей машинного обучения для обнаружения вторжений, включая деревья решений (DT), случайные леса (RF), Extreme Gradient Boosting (XGBoost), многослойный перцептрон (MLP), метод k ближайших соседей (KNN) и метод опорных векторов (SVM). Анализируя их производительность, сильные и слабые стороны, работа стремится определить наиболее эффективные подходы для выявления сетевых вторжений.

Таблица 1.

Обзор набора данных

Название набора данных

Общее количество экземпляров

Выборка экземпляров

Типы атак

CSE-CIC-IDS2018

7 671 149

159 482 (2,08%)

Доброкачественный, атаки DoS-GoldenEye, атаки DoS-Hulk, атаки DoS-Slowloris, атаки DoS-SlowHTTPTest, SSH-Брутфорс,FTP-Брутфорс, атака DDOS-HOIC

 

Методология

Система обнаружения вторжений была разработана с модульной архитектурой, включающей четыре компонента: сбор данных, обработка данных, классификация и представление данных, что обеспечивает упрощенный рабочий процесс от необработанных данных до действенных выводов. Сбор данных осуществлялся с помощью CICFlowMeter, извлекая 159 482 экземпляра (2,08% из 7 671 149) из набора данных CSE-CIC-IDS2018, фиксируя различные типы атак, такие как атаки DoS-Hulk и SSH-Брутфорс. Обработка данных включала случайную и стратифицированную выборку, очистку данных для устранения пропущенных значений, отбор характеристик (например, количество пакетов, длительность потока) и оценку важности характеристик с помощью XGBoost для устранения дисбаланса 45% доброкачественного трафика. Модуль классификации реализовал алгоритмы машинного обучения — деревья решений (DT), случайные леса (RF), Extreme Gradient Boosting (XGBoost), многослойный перцептрон (MLP), метод k ближайших соседей (KNN) и метод опорных векторов (SVM) — обученные с использованием k-кратной перекрестной проверки для снижения переобучения, с оптимизациями, такими как установка скорости обучения XGBoost (eta) на уровне 0,2. Оценка проводилась по метрикам точности, полноты и F1-меры, решая проблемы ограниченного объема данных и дисбаланса классов для обеспечения надежной производительности обнаружения по всем типам атак.

Рисунок 1. Диаграмма архитектуры системы

 

Результаты и оценка работы

Ниже приведена таблица, представляющая результаты ранжирования моделей машинного обучения с использованием стандартных оценочных мер

Таблица 2.

Название таблицы Сравнение производительности различных моделей с использованием точности и уровня ошибок

Модель

Точность

Уровень ошибок

Ранжирование

DT

0.988

0.012

3

RFC

0.987

0.013

2

XGBoost

0.997

0.006

1

MLP

0.944

0.056

4

KNN

0.841

0.159

5

SVM

0.469

0.531

6

 

Из этой таблицы видно, что показатель точности благоприятствует моделям, основанным на деревьях, причем XGBoost демонстрирует наилучшие результаты, за ним следуют дерево решений и классификатор RF. Уровень ошибок почти для всех моделей ниже 0.1, тогда как для некоторых моделей точность указывает на недостаточное обучение.

 

Список литературы:

  1. Bulavas E., Kazlauskaitė A., Šimkus L. Обнаружение вторжений с использованием случайных лесов: Анализ производительности. Журнал исследований кибербезопасности. 2021. Т. 5. № 3. С. 45–52.
  2. Karatas G., Şahingöz O.K., Akleylek S. XGBoost для обнаружения сетевых вторжений: Сравнительное исследование. Компьютерные сети и безопасность. 2022. Т. 8. № 2. С. 112–120
  3. Набор данных CSE-CIC-IDS2018 [Электронный ресурс]. Канадский институт кибербезопасности. [Фредериктон], 2018. Режим доступа: https://www.unb.ca/cic/datasets/ids-2018.htm

Оставить комментарий