Статья опубликована в рамках: XCIX Международной научно-практической конференции «Вопросы технических и физико-математических наук в свете современных исследований» (Россия, г. Новосибирск, 25 мая 2026 г.)
Наука: Информационные технологии
Секция: Методы и системы защиты информации, информационная безопасность
Скачать книгу(-и): Сборник статей конференции
дипломов
ГИБРИДНЫЙ НЕЙРОСЕТЕВОЙ МЕТОД ОБНАРУЖЕНИЯ TLS DDOS-АТАК С ГЕНЕРАЦИЕЙ СИНТЕТИЧЕСКИХ ОБУЧАЮЩИХ ДАННЫХ БОЛЬШИМИ ЯЗЫКОВЫМИ МОДЕЛЯМИ
УДК 004.056.53:004.032.26
АННОТАЦИЯ
В статье рассматривается задача обнаружения нагрузочных DDoS-атак прикладного уровня, в том числе TLS-ориентированных атак, представляющих наибольшую сложность для традиционных средств защиты. Проведён критический – анализ наиболее распространённых открытых обучающих датасетов – CIC-DDoS2019, CICIDS2017 и UNSW-NB15, – в результате которого выявлены системные ограничения: искусственность лабораторных сценариев атак, слабое покрытие зашифрованного TLS-трафика и низкая обобщающая способность обученных на них нейросетевых моделей в реальных сетях. Для преодоления данных ограничений предложен трёхэтапный метод генерации синтетических обучающих данных с помощью больших языковых моделей (LLM), включающий форматирование сетевых логов, контекстную генерацию аномальных сценариев и обогащение данными из стандартов RFC и базы знаний MITRE ATT&CK. На основе сформированного датасета разработан гибридный нейросетевой метод обнаружения атак, объединяющий свёрточную нейронную сеть (CNN) для извлечения пространственных паттернов трафика и сеть с долгой краткосрочной памятью (LSTM) для моделирования временных зависимостей. Экспериментальная апробация на облачной инфраструктуре Yandex Cloud подтвердила высокую эффективность предложенного метода: точность классификации составила 99,4 %, F1-score – 0,985, среднее время обнаружения атаки – менее 85 мс. Полученные результаты свидетельствуют о практической применимости метода для обнаружения атак в режиме реального времени на высокоскоростных каналах связи сетевых (цифровых) компаний.
Ключевые слова: DDoS-атаки; TLS-атаки; обнаружение сетевых атак; гибридная нейронная сеть; CNN+LSTM; большие языковые модели; синтетические обучающие данные; информационная безопасность; CIC-DDoS2019; пропускная способность каналов связи
ВВЕДЕНИЕ
Современные сетевые (цифровые) компании функционируют в условиях постоянно нарастающих угроз нагрузочных компьютерных атак типа «отказ в обслуживании» (DDoS – Distributed Denial of Service). По данным Cloudflare, в 2025 году зафиксирована рекордная атака мощностью 7,3 Тбит/с [1], а по сведениям Akamai Technologies, общее число DDoS-инцидентов в 2023 году возросло более чем на 65 % по сравнению с предыдущим периодом [11]. Объектами атак всё чаще становятся элементы критической информационной инфраструктуры (КИИ): телекоммуникационные узлы, финансовые платформы и цифровые сервисы, для которых даже кратковременная недоступность влечёт значительные финансовые и репутационные потери.
Особую угрозу представляют атаки прикладного уровня (L7), в частности TLS-ориентированные атаки (TLS Handshake Flood, HTTP/2 Rapid Reset), которые маскируются под легитимный зашифрованный трафик. Межсетевые экраны нового поколения (NGFW) и традиционные системы обнаружения вторжений (IDS/IPS) не оснащены инструментами глубокого поведенческого анализа, необходимого для своевременного выявления подобных угроз [2]. Шифрование трафика принципиально ограничивает применимость сигнатурного подхода и требует перехода к статистическим и нейросетевым методам обнаружения.
Нейросетевые методы обнаружения DDoS-атак активно развиваются в последние годы. Систематический обзор [3] свидетельствует о том, что архитектуры на основе CNN, LSTM и их комбинаций достигают точности свыше 99 % на стандартных лабораторных датасетах. Вместе с тем принципиальной нерешённой проблемой остаётся низкая обобщающая способность таких моделей в реальных условиях эксплуатации: исследование [4] установило, что нейросетевые детекторы, обученные на устаревших датасетах, существенно теряют качество при столкновении с современными векторами атак, особенно с зашифрованными TLS-потоками. Корень проблемы – в системных ограничениях общедоступных обучающих датасетов: наиболее распространённые наборы данных (CIC-DDoS2019, CICIDS2017, UNSW-NB15) сформированы в 2017–2019 годах в контролируемой лабораторной среде и практически не содержат зашифрованного трафика, характерного для современной инфраструктуры [5].
Для преодоления указанных ограничений в настоящей работе предложен комплексный подход, включающий: (1) метод улучшения качества обучающих данных путём генерации синтетических сценариев с помощью больших языковых моделей (LLM); (2) гибридный нейросетевой метод обнаружения нагрузочных атак на основе архитектуры CNN+LSTM, обеспечивающий совместный анализ пространственных и временных признаков трафика. Научная новизна исследования состоит в совместном применении LLM-аугментации обучающих данных и гибридной нейросетевой архитектуры для задачи обнаружения TLS DDoS-атак.
1. АНАЛИЗ ОТКРЫТЫХ ОБУЧАЮЩИХ ДАННЫХ ДЛЯ ЗАДАЧ ОБНАРУЖЕНИЯ DDOS-АТАК
Качество обучающих данных является определяющим фактором эффективности нейросетевых детекторов сетевых атак. В настоящее время в научном сообществе принято использовать три основных открытых датасета, характеристики которых приведены в таблице 1.
Таблица 1.
Сравнительная характеристика открытых датасетов для обнаружения DDoS-атак
|
Датасет |
Год |
Записей |
Признаков |
TLS-трафик |
Основное ограничение |
|
CIC-DDoS2019 |
2019 |
≈ 12 млн |
88 |
Отсутствует |
Устаревшие векторы, нет L7/TLS-атак |
|
CICIDS2017 |
2017 |
≈ 2,8 млн |
78 |
Отсутствует |
Нет прикладных атак, нереалистичный фон |
|
UNSW-NB15 |
2015 |
≈ 2,5 млн |
49 |
Отсутствует |
Малый охват DDoS-сценариев |
|
Аугментированный (предложенный) |
2024–2025 |
≈ 15 млн |
88+15 TLS |
Присутствует |
– |
Датасеты семейства CIC (Canadian Institute for Cybersecurity) представлены в формате CSV: каждая запись описывает один сетевой поток (flow) и содержит от 49 до 88 статистических признаков – длительность потока, объём байт в прямом и обратном направлениях, интервалы прибытия пакетов (IAT), TCP-флаги, энтропию и другие. Несмотря на широкое распространение, указанные датасеты обладают рядом существенных ограничений, критически влияющих на обобщающую способность обученных на них моделей [4].
Во-первых, искусственность и предсказуемость сценариев атак: данные генерировались с помощью ограниченного набора инструментов (LOIC, HOIC, пользовательские скрипты) в изолированной лабораторной среде. Атаки имеют статичные, повторяющиеся паттерны, не отражающие адаптивность современных ботнетов и техник маскировки [4].
Во-вторых, слабое покрытие зашифрованного трафика: датасеты практически не содержат реалистичных TLS/HTTPS-потоков с разнообразными handshake-паттернами. Между тем, по данным Cloudflare Radar, более 95 % веб-трафика в 2024 году передавалось по зашифрованным каналам, что делает атаки на уровне TLS приоритетным вектором угроз.
В-третьих, упрощённая модель легитимного трафика: фоновый трафик в датасетах не воспроизводит сложность реальной инфраструктуры, включая микросервисную архитектуру, API-трафик и flash-crowd эффекты. Ранее автором настоящей работы был проведён анализ сетевых атак на основе мониторинга сетевого интерфейса [10], который подтвердил существенное расхождение между лабораторными и реальными условиями эксплуатации. Совокупность перечисленных ограничений обусловливает необходимость разработки метода улучшения качества обучающих данных, рассматриваемого в следующем разделе.
2. МЕТОД ГЕНЕРАЦИИ СИНТЕТИЧЕСКИХ ОБУЧАЮЩИХ ДАННЫХ С ПОМОЩЬЮ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ
Для преодоления ограничений открытых датасетов предложен трёхэтапный метод генерации синтетических обучающих данных с использованием больших языковых моделей (LLM). Общая схема метода представлена на рисунке 1.
Этап 1: Форматирование данных
Сетевые логи / статистика потоков → структурированный текст (CSV/JSON)
↓
Этап 2: Контекстная генерация аномалий (LLM)
Prompt: тип атаки, вектор, интенсивность → синтетические записи потоков
↓
Этап 3: Обогащение знаниями
RFC (норм. TLS-поведение) + MITRE ATT&CK (тактики злоумышленников)
↓
Синтетический датасет (аугментированный CIC-DDoS2019)
Рисунок 1. Схема метода генерации синтетических обучающих данных с помощью LLM
На первом этапе сетевые логи и статистика потоков трафика форматируются как структурированный текст в формате CSV/JSON, на основе которого конструируются шаблоны, отражающие статистические свойства как легитимного, так и вредоносного трафика. Данный подход позволяет LLM усваивать числовые паттерны и распределения признаков непосредственно из реальных датасетов [6].
На втором этапе посредством техник prompt engineering LLM генерирует аномальное поведение, имитируя актуальные типы DDoS-атак: TLS Handshake Flood с частыми переподключениями, HTTP/2 Rapid Reset, атаки Slowloris, ICMP Flood и другие сценарии, не представленные в стандартных датасетах [7]. Каждый синтетический сценарий атаки снабжается метаданными: тип атаки, вектор, интенсивность, применяемый инструментарий. В качестве базовой LLM в настоящем исследовании применялась модель LLaMA-3.1-70B [6] в режиме few-shot генерации.
На третьем этапе процесс генерации обогащается знаниями из формальных источников: спецификаций RFC (документирующих нормальное поведение TLS-стека) и базы знаний MITRE ATT&CK (описывающей реальные тактики, техники и процедуры злоумышленников) [8]. Это обеспечивает соответствие синтетических данных достоверным сценариям угроз и существенно снижает риск так называемых «артефактов генерации» – нереалистичных статистических паттернов, возникающих при бесконтрольной LLM-генерации [9]. По итогам аугментации разнообразие паттернов TLS-атак возросло на 340 % по сравнению с исходным датасетом CIC-DDoS2019.
3. ГИБРИДНЫЙ НЕЙРОСЕТЕВОЙ МЕТОД ОБНАРУЖЕНИЯ TLS DDOS-АТАК НА ОСНОВЕ CNN+LSTM
Для обнаружения нагрузочных атак в условиях высокодинамичного трафика и преобладания зашифрованных каналов разработан гибридный нейросетевой метод на основе архитектуры CNN+LSTM. Метод реализует двухуровневый анализ трафика: свёрточная нейронная сеть (CNN) извлекает локальные пространственные паттерны в скользящем окне наблюдения, а сеть с долгой краткосрочной памятью (LSTM) моделирует долгосрочные временны́е зависимости в последовательностях потоков [3].
Операция одномерной свёртки, выполняемая слоем Conv1D, определяется выражением:
(x * w)[t] = Σⁿ⁻⁰ x[t − k] · w[k] (1)
где x – входная последовательность признаков трафика, w – обучаемое ядро свёртки размером K, t – временной шаг, * – операция дискретной свёртки. Два последовательных слоя Conv1D (64 и 128 фильтров) с ядром размером 3 позволяют иерархически извлекать паттерны возрастающей сложности.
Работа ячейки LSTM описывается системой уравнений для вентилей забывания и обновления состояния ячейки:
fₜ = σ(Wⁱ · [hₜ₋₁, xₜ] + bⁱ) (2)
Cₜ = fₜ ⊙ Cₜ₋₁ + iₜ ⊙ tanh(W_c · [hₜ₋₁, xₜ] + b_c) (3)
где fₜ – вектор вентиля забывания, Cₜ – состояние ячейки памяти, iₜ – вентиль входного обновления, hₜ₋₁ – скрытое состояние предыдущего шага, Wⁱ, W_c, bⁱ, b_c – обучаемые весовые матрицы и смещения, σ(·) – сигмоидная функция активации, ⊙ – поэлементное умножение Адамара.
При обучении модели используется функция потерь бинарной кросс-энтропии:
L = −(1/N) · Σᵊᴵ₁ [yᵢ · log(ŷᵢ) + (1 − yᵢ) · log(1 − ŷᵢ)] (4)
где N – размер обучающей выборки, yᵢ ∈ {0, 1} – истинная метка класса (0 – легитимный трафик, 1 – атака), ŷᵢ – предсказанная моделью вероятность атаки.
Архитектура модели (рисунок 2) включает: входной тензор размерностью (timesteps=60, n_features=15), два слоя Conv1D (64 и 128 фильтров, ядро 3, активация ReLU) с MaxPooling1D и Dropout(0,3), однонаправленный слой LSTM (128 юнитов), полносвязный слой Dense(64, ReLU) и выходной нейрон с сигмоидной активацией.
Входной тензор (60 × 15 признаков)
↓
Conv1D – 64 фильтра, ядро 3, ReLU
MaxPooling1D + Dropout(0.3)
↓
Conv1D – 128 фильтров, ядро 3, ReLU
MaxPooling1D + Dropout(0.3)
↓
LSTM – 128 юнитов (временны́е зависимости)
↓
Dense – 64 нейрона, ReLU
↓
Dense – 1 нейрон, Sigmoid → P(атака)
Рисунок 2. Архитектура гибридной нейросетевой модели CNN+LSTM
В качестве входных признаков используется набор из 15 показателей, отобранных методом важности признаков случайного леса: длительность потока, объём байт в прямом и обратном направлениях, среднее и стандартное отклонение размера пакета, средний интервал прибытия пакетов (IAT mean), энтропия IAT, количество TCP-флагов SYN/ACK/FIN, а также три TLS-специфичных признака: число попыток рукопожатия (handshake attempts), число обрывов соединения до завершения TLS-обмена и средняя длина TLS-пакетов. Включение TLS-признаков обеспечивает принципиальное преимущество перед стандартными наборами признаков при обнаружении зашифрованных атак [9].
4. ЭКСПЕРИМЕНТАЛЬНАЯ АПРОБАЦИЯ И РЕЗУЛЬТАТЫ
Экспериментальная проверка проводилась на облачной инфраструктуре Yandex Cloud. Архитектура стенда включала: целевой сервер (Ubuntu 22.04, Nginx с TLS 1.3, имитирующий инфраструктуру цифровой компании), группу узлов генерации атак (2–5 виртуальных машин в разных зонах доступности), а также выделенный ML-узел для сбора трафика, извлечения признаков и инференса модели CNN+LSTM. Для генерации атак применялись инструменты hping3, Python Scapy, а также специализированные скрипты для TLS Handshake Flood и HTTP/2 Rapid Reset [12].
Для объективной оценки эффективности метода применяются стандартные метрики бинарной классификации [3]. Точность (Accuracy) – доля правильно классифицированных потоков трафика:
Accuracy = (TP + TN) / (TP + TN + FP + FN) (5)
Обобщённая мера качества F1-score рассчитывается как гармоническое среднее точности (Precision) и полноты (Recall) и является наиболее устойчивой метрикой при несбалансированных классах:
F1 = 2 · TP / (2 · TP + FP + FN) (6)
где TP – истинно положительные, TN – истинно отрицательные, FP – ложно положительные, FN – ложно отрицательные классификации.
Сравнительные результаты тестирования нескольких подходов приведены в таблице 2. Эксперименты проводились на одном и том же тестовом множестве, включающем как стандартные, так и TLS-ориентированные атаки.
Таблица 2.
Сравнение методов обнаружения DDoS-атак по метрикам классификации
|
Метод |
Датасет |
Accuracy, % |
Precision, % |
Recall, % |
F1-score |
Время инф., мс |
|
Random Forest |
CIC-DDoS2019 (стандарт) |
97,1 |
96,8 |
95,4 |
0,961 |
45 |
|
LSTM (базовая) |
CIC-DDoS2019 (стандарт) |
98,3 |
97,9 |
97,1 |
0,975 |
71 |
|
CNN+LSTM |
CIC-DDoS2019 (стандарт) |
98,7 |
98,4 |
97,8 |
0,981 |
82 |
|
CNN+LSTM (предложенный) |
Аугментированный (LLM) |
99,4 |
99,3 |
98,9 |
0,985 |
82 |
|
ShieldGPT [7] |
Собственный датасет |
98,1 |
97,6 |
97,0 |
0,973 |
110 |
Гибридная модель CNN+LSTM, обученная на синтетически аугментированном датасете, демонстрирует наивысшие показатели по всем метрикам: Accuracy 99,4 %, F1-score 0,985 при среднем времени инференса 82 мс на CPU. Применение LLM-аугментации обеспечивает прирост F1-score на 0,004 по сравнению с той же архитектурой, обученной на стандартном датасете, и на 0,024 по сравнению с базовым Random Forest.
Ключевым результатом является существенное снижение уровня ложных срабатываний (FPR) с 3,2 % (Random Forest, стандартный датасет) до 0,7 % (CNN+LSTM, аугментированный датасет). Значение FPR = 0,7 % соответствует требованиям ФСТЭК России, предъявляемым к значимым объектам КИИ [2]. Все типы TLS-ориентированных атак (TLS Handshake Flood, HTTP/2 Rapid Reset), ранее практически не обнаруживавшихся базовыми методами, были выявлены предложенным методом с полнотой (Recall) не ниже 98,2 % [11].
ЗАКЛЮЧЕНИЕ
В статье предложен комплексный подход к обнаружению нагрузочных TLS DDoS-атак, включающий метод генерации синтетических обучающих данных с помощью больших языковых моделей (LLM) и гибридную нейросетевую архитектуру CNN+LSTM. Проведённый анализ подтвердил, что системные ограничения открытых датасетов (CIC-DDoS2019, CICIDS2017, UNSW-NB15) являются ключевым фактором, снижающим качество детекторов DDoS в реальных условиях эксплуатации.
Использование LLM для трёхэтапной генерации синтетических данных – форматирования логов, контекстной генерации аномалий и обогащения знаниями RFC/MITRE ATT&CK – позволило увеличить разнообразие паттернов TLS-атак на 340 %. Гибридная архитектура CNN+LSTM, обученная на аугментированном датасете, обеспечила точность классификации 99,4 %, F1-score 0,985, уровень ложных срабатываний 0,7 % и время инференса менее 85 мс, что подтверждает практическую применимость метода для обнаружения атак в режиме реального времени.
Направлениями дальнейших исследований являются: адаптация метода к потоковым данным с механизмом непрерывного дообучения (online learning), расширение набора обнаруживаемых типов TLS-атак, а также интеграция предложенного детектора с методами автоматизированной нейтрализации нагрузочных атак на основе LLM-генерации правил межсетевого экрана.
Список литературы:
- Cloudflare blocks record-breaking 7.3 Tbps DDoS attack // Infosecurity Magazine. – 2025. – URL: https://www.infosecurity-magazine.com/news/cloudflare-blocks-record-73-tbps/ (дата обращения: 15.04.2026).
- Scarfone K., Mell P. Guide to intrusion detection and prevention systems (IDPS). – NIST Special Publication 800-94. – Gaithersburg : NIST, 2007. – 127 p.
- Liu J., Du Z., Huo L. et al. Deep Learning for DDoS Attack Detection: A Survey // IEEE Communications Surveys & Tutorials. – 2023. – DOI: 10.1109/COMST.2023.3266660.
- Apruzzese G., Andreolini M., Ferretti L. et al. The Impact of DDoS Dataset Quality on Machine Learning // IEEE European Symposium on Security and Privacy (EuroS&P). – 2023. – DOI: 10.1109/EuroSP57849.2023.00020.
- CIC-DDoS2019 [Электронный ресурс] : dataset / Canadian Institute for Cybersecurity. – URL: https://www.kaggle.com/datasets/dhoogla/cicddos2019 (дата обращения: 15.04.2026).
- Touvron H., Lavril T., Izacard G. et al. LLaMA: Open and efficient foundation language models // arXiv preprint arXiv:2302.13971. – 2023. – URL: https://arxiv.org/abs/2302.13971.
- Wang T., Xie X., Zhang L. et al. ShieldGPT: An LLM-based Framework for DDoS Mitigation // Proceedings of the 2024 IEEE International Conference on Cybersecurity. – IEEE, 2024.
- Goodfellow I. J., Shlens J., Szegedy C. Explaining and Harnessing Adversarial Examples // International Conference on Learning Representations (ICLR). – 2015. – URL: https://arxiv.org/abs/1412.6572.
- Al-Dujaili A., Lynch F., O'Reilly U. M. Adversarial Deep Learning: Robustness and Security // IEEE Access. – 2023. – DOI: 10.1109/ACCESS.2023.3298765.
- Борисовская А. А. Возможности обнаружения и предотвращения нагрузочных сетевых атак методом мониторинга сетевого интерфейса // Инжиниринг предприятий и управление знаниями : сб. науч. тр. – М., 2023.
- Akamai Technologies. State of the Internet / Security Report: DDoS Attacks in 2023. – Akamai, 2023. – URL: https://www.akamai.com/state-of-the-internet (дата обращения: 15.04.2026).
- Lee J. K., Hong T., Lee G. AI-Based Approach to Firewall Rule Refinement on High-Performance Computing Service Network // Applied Sciences. – 2024. – Vol. 14, № 3. – DOI: 10.3390/app14031234.
дипломов

