Статья опубликована в рамках: XCIX Международной научно-практической конференции «Вопросы технических и физико-математических наук в свете современных исследований» (Россия, г. Новосибирск, 25 мая 2026 г.)

Наука: Информационные технологии

Секция: Методы и системы защиты информации, информационная безопасность

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Борисовская А.А. ГИБРИДНЫЙ НЕЙРОСЕТЕВОЙ МЕТОД ОБНАРУЖЕНИЯ TLS DDOS-АТАК С ГЕНЕРАЦИЕЙ СИНТЕТИЧЕСКИХ ОБУЧАЮЩИХ ДАННЫХ БОЛЬШИМИ ЯЗЫКОВЫМИ МОДЕЛЯМИ // Вопросы технических и физико-математических наук в свете современных исследований: сб. ст. по матер. XCIX междунар. науч.-практ. конф. № 5(90). – Новосибирск: СибАК, 2026. – С. 46-55.

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов

ГИБРИДНЫЙ НЕЙРОСЕТЕВОЙ МЕТОД ОБНАРУЖЕНИЯ TLS DDOS-АТАК С ГЕНЕРАЦИЕЙ СИНТЕТИЧЕСКИХ ОБУЧАЮЩИХ ДАННЫХ БОЛЬШИМИ ЯЗЫКОВЫМИ МОДЕЛЯМИ

Борисовская Алена Алексеевна

аспирант, Московский государственный лингвистический университет (МГЛУ)

РФ, г. Москва

УДК 004.056.53:004.032.26

АННОТАЦИЯ

В статье рассматривается задача обнаружения нагрузочных DDoS-атак прикладного уровня, в том числе TLS-ориентированных атак, представляющих наибольшую сложность для традиционных средств защиты. Проведён критический – анализ наиболее распространённых открытых обучающих датасетов – CIC-DDoS2019, CICIDS2017 и UNSW-NB15, – в результате которого выявлены системные ограничения: искусственность лабораторных сценариев атак, слабое покрытие зашифрованного TLS-трафика и низкая обобщающая способность обученных на них нейросетевых моделей в реальных сетях. Для преодоления данных ограничений предложен трёхэтапный метод генерации синтетических обучающих данных с помощью больших языковых моделей (LLM), включающий форматирование сетевых логов, контекстную генерацию аномальных сценариев и обогащение данными из стандартов RFC и базы знаний MITRE ATT&CK. На основе сформированного датасета разработан гибридный нейросетевой метод обнаружения атак, объединяющий свёрточную нейронную сеть (CNN) для извлечения пространственных паттернов трафика и сеть с долгой краткосрочной памятью (LSTM) для моделирования временных зависимостей. Экспериментальная апробация на облачной инфраструктуре Yandex Cloud подтвердила высокую эффективность предложенного метода: точность классификации составила 99,4 %, F1-score – 0,985, среднее время обнаружения атаки – менее 85 мс. Полученные результаты свидетельствуют о практической применимости метода для обнаружения атак в режиме реального времени на высокоскоростных каналах связи сетевых (цифровых) компаний.

Ключевые слова: DDoS-атаки; TLS-атаки; обнаружение сетевых атак; гибридная нейронная сеть; CNN+LSTM; большие языковые модели; синтетические обучающие данные; информационная безопасность; CIC-DDoS2019; пропускная способность каналов связи

ВВЕДЕНИЕ

Современные сетевые (цифровые) компании функционируют в условиях постоянно нарастающих угроз нагрузочных компьютерных атак типа «отказ в обслуживании» (DDoS – Distributed Denial of Service). По данным Cloudflare, в 2025 году зафиксирована рекордная атака мощностью 7,3 Тбит/с [1], а по сведениям Akamai Technologies, общее число DDoS-инцидентов в 2023 году возросло более чем на 65 % по сравнению с предыдущим периодом [11]. Объектами атак всё чаще становятся элементы критической информационной инфраструктуры (КИИ): телекоммуникационные узлы, финансовые платформы и цифровые сервисы, для которых даже кратковременная недоступность влечёт значительные финансовые и репутационные потери.

Особую угрозу представляют атаки прикладного уровня (L7), в частности TLS-ориентированные атаки (TLS Handshake Flood, HTTP/2 Rapid Reset), которые маскируются под легитимный зашифрованный трафик. Межсетевые экраны нового поколения (NGFW) и традиционные системы обнаружения вторжений (IDS/IPS) не оснащены инструментами глубокого поведенческого анализа, необходимого для своевременного выявления подобных угроз [2]. Шифрование трафика принципиально ограничивает применимость сигнатурного подхода и требует перехода к статистическим и нейросетевым методам обнаружения.

Нейросетевые методы обнаружения DDoS-атак активно развиваются в последние годы. Систематический обзор [3] свидетельствует о том, что архитектуры на основе CNN, LSTM и их комбинаций достигают точности свыше 99 % на стандартных лабораторных датасетах. Вместе с тем принципиальной нерешённой проблемой остаётся низкая обобщающая способность таких моделей в реальных условиях эксплуатации: исследование [4] установило, что нейросетевые детекторы, обученные на устаревших датасетах, существенно теряют качество при столкновении с современными векторами атак, особенно с зашифрованными TLS-потоками. Корень проблемы – в системных ограничениях общедоступных обучающих датасетов: наиболее распространённые наборы данных (CIC-DDoS2019, CICIDS2017, UNSW-NB15) сформированы в 2017–2019 годах в контролируемой лабораторной среде и практически не содержат зашифрованного трафика, характерного для современной инфраструктуры [5].

Для преодоления указанных ограничений в настоящей работе предложен комплексный подход, включающий: (1) метод улучшения качества обучающих данных путём генерации синтетических сценариев с помощью больших языковых моделей (LLM); (2) гибридный нейросетевой метод обнаружения нагрузочных атак на основе архитектуры CNN+LSTM, обеспечивающий совместный анализ пространственных и временных признаков трафика. Научная новизна исследования состоит в совместном применении LLM-аугментации обучающих данных и гибридной нейросетевой архитектуры для задачи обнаружения TLS DDoS-атак.

1. АНАЛИЗ ОТКРЫТЫХ ОБУЧАЮЩИХ ДАННЫХ ДЛЯ ЗАДАЧ ОБНАРУЖЕНИЯ DDOS-АТАК

Качество обучающих данных является определяющим фактором эффективности нейросетевых детекторов сетевых атак. В настоящее время в научном сообществе принято использовать три основных открытых датасета, характеристики которых приведены в таблице 1.

Таблица 1.

Сравнительная характеристика открытых датасетов для обнаружения DDoS-атак

Датасет	Год	Записей	Признаков	TLS-трафик	Основное ограничение
CIC-DDoS2019	2019	≈ 12 млн	88	Отсутствует	Устаревшие векторы, нет L7/TLS-атак
CICIDS2017	2017	≈ 2,8 млн	78	Отсутствует	Нет прикладных атак, нереалистичный фон
UNSW-NB15	2015	≈ 2,5 млн	49	Отсутствует	Малый охват DDoS-сценариев
Аугментированный (предложенный)	2024–2025	≈ 15 млн	88+15 TLS	Присутствует	–

Датасеты семейства CIC (Canadian Institute for Cybersecurity) представлены в формате CSV: каждая запись описывает один сетевой поток (flow) и содержит от 49 до 88 статистических признаков – длительность потока, объём байт в прямом и обратном направлениях, интервалы прибытия пакетов (IAT), TCP-флаги, энтропию и другие. Несмотря на широкое распространение, указанные датасеты обладают рядом существенных ограничений, критически влияющих на обобщающую способность обученных на них моделей [4].

Во-первых, искусственность и предсказуемость сценариев атак: данные генерировались с помощью ограниченного набора инструментов (LOIC, HOIC, пользовательские скрипты) в изолированной лабораторной среде. Атаки имеют статичные, повторяющиеся паттерны, не отражающие адаптивность современных ботнетов и техник маскировки [4].

Во-вторых, слабое покрытие зашифрованного трафика: датасеты практически не содержат реалистичных TLS/HTTPS-потоков с разнообразными handshake-паттернами. Между тем, по данным Cloudflare Radar, более 95 % веб-трафика в 2024 году передавалось по зашифрованным каналам, что делает атаки на уровне TLS приоритетным вектором угроз.

В-третьих, упрощённая модель легитимного трафика: фоновый трафик в датасетах не воспроизводит сложность реальной инфраструктуры, включая микросервисную архитектуру, API-трафик и flash-crowd эффекты. Ранее автором настоящей работы был проведён анализ сетевых атак на основе мониторинга сетевого интерфейса [10], который подтвердил существенное расхождение между лабораторными и реальными условиями эксплуатации. Совокупность перечисленных ограничений обусловливает необходимость разработки метода улучшения качества обучающих данных, рассматриваемого в следующем разделе.

2. МЕТОД ГЕНЕРАЦИИ СИНТЕТИЧЕСКИХ ОБУЧАЮЩИХ ДАННЫХ С ПОМОЩЬЮ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ

Для преодоления ограничений открытых датасетов предложен трёхэтапный метод генерации синтетических обучающих данных с использованием больших языковых моделей (LLM). Общая схема метода представлена на рисунке 1.

Этап 1: Форматирование данных

Сетевые логи / статистика потоков → структурированный текст (CSV/JSON)

                          ↓

Этап 2: Контекстная генерация аномалий (LLM)

Prompt: тип атаки, вектор, интенсивность → синтетические записи потоков

                          ↓

Этап 3: Обогащение знаниями

RFC (норм. TLS-поведение) + MITRE ATT&CK (тактики злоумышленников)

                          ↓

Синтетический датасет (аугментированный CIC-DDoS2019)

Рисунок 1. Схема метода генерации синтетических обучающих данных с помощью LLM

На первом этапе сетевые логи и статистика потоков трафика форматируются как структурированный текст в формате CSV/JSON, на основе которого конструируются шаблоны, отражающие статистические свойства как легитимного, так и вредоносного трафика. Данный подход позволяет LLM усваивать числовые паттерны и распределения признаков непосредственно из реальных датасетов [6].

На втором этапе посредством техник prompt engineering LLM генерирует аномальное поведение, имитируя актуальные типы DDoS-атак: TLS Handshake Flood с частыми переподключениями, HTTP/2 Rapid Reset, атаки Slowloris, ICMP Flood и другие сценарии, не представленные в стандартных датасетах [7]. Каждый синтетический сценарий атаки снабжается метаданными: тип атаки, вектор, интенсивность, применяемый инструментарий. В качестве базовой LLM в настоящем исследовании применялась модель LLaMA-3.1-70B [6] в режиме few-shot генерации.

На третьем этапе процесс генерации обогащается знаниями из формальных источников: спецификаций RFC (документирующих нормальное поведение TLS-стека) и базы знаний MITRE ATT&CK (описывающей реальные тактики, техники и процедуры злоумышленников) [8]. Это обеспечивает соответствие синтетических данных достоверным сценариям угроз и существенно снижает риск так называемых «артефактов генерации» – нереалистичных статистических паттернов, возникающих при бесконтрольной LLM-генерации [9]. По итогам аугментации разнообразие паттернов TLS-атак возросло на 340 % по сравнению с исходным датасетом CIC-DDoS2019.

3. ГИБРИДНЫЙ НЕЙРОСЕТЕВОЙ МЕТОД ОБНАРУЖЕНИЯ TLS DDOS-АТАК НА ОСНОВЕ CNN+LSTM

Для обнаружения нагрузочных атак в условиях высокодинамичного трафика и преобладания зашифрованных каналов разработан гибридный нейросетевой метод на основе архитектуры CNN+LSTM. Метод реализует двухуровневый анализ трафика: свёрточная нейронная сеть (CNN) извлекает локальные пространственные паттерны в скользящем окне наблюдения, а сеть с долгой краткосрочной памятью (LSTM) моделирует долгосрочные временны́е зависимости в последовательностях потоков [3].

Операция одномерной свёртки, выполняемая слоем Conv1D, определяется выражением:

(x * w)[t] = Σⁿ⁻⁰ x[t − k] · w[k] (1)

где x – входная последовательность признаков трафика, w – обучаемое ядро свёртки размером K, t – временной шаг, * – операция дискретной свёртки. Два последовательных слоя Conv1D (64 и 128 фильтров) с ядром размером 3 позволяют иерархически извлекать паттерны возрастающей сложности.

Работа ячейки LSTM описывается системой уравнений для вентилей забывания и обновления состояния ячейки:

fₜ = σ(Wⁱ · [hₜ₋₁, xₜ] + bⁱ) (2)

Cₜ = fₜ ⊙ Cₜ₋₁ + iₜ ⊙ tanh(W_c · [hₜ₋₁, xₜ] + b_c) (3)

где fₜ – вектор вентиля забывания, Cₜ – состояние ячейки памяти, iₜ – вентиль входного обновления, hₜ₋₁ – скрытое состояние предыдущего шага, Wⁱ, W_c, bⁱ, b_c – обучаемые весовые матрицы и смещения, σ(·) – сигмоидная функция активации, ⊙ – поэлементное умножение Адамара.

При обучении модели используется функция потерь бинарной кросс-энтропии:

L = −(1/N) · Σᵊᴵ₁ [yᵢ · log(ŷᵢ) + (1 − yᵢ) · log(1 − ŷᵢ)] (4)

где N – размер обучающей выборки, yᵢ ∈ {0, 1} – истинная метка класса (0 – легитимный трафик, 1 – атака), ŷᵢ – предсказанная моделью вероятность атаки.

Архитектура модели (рисунок 2) включает: входной тензор размерностью (timesteps=60, n_features=15), два слоя Conv1D (64 и 128 фильтров, ядро 3, активация ReLU) с MaxPooling1D и Dropout(0,3), однонаправленный слой LSTM (128 юнитов), полносвязный слой Dense(64, ReLU) и выходной нейрон с сигмоидной активацией.

Входной тензор (60 × 15 признаков)

        ↓

Conv1D – 64 фильтра, ядро 3, ReLU

MaxPooling1D + Dropout(0.3)

        ↓

Conv1D – 128 фильтров, ядро 3, ReLU

MaxPooling1D + Dropout(0.3)

        ↓

LSTM – 128 юнитов (временны́е зависимости)

        ↓

Dense – 64 нейрона, ReLU

        ↓

Dense – 1 нейрон, Sigmoid → P(атака)

Рисунок 2. Архитектура гибридной нейросетевой модели CNN+LSTM

В качестве входных признаков используется набор из 15 показателей, отобранных методом важности признаков случайного леса: длительность потока, объём байт в прямом и обратном направлениях, среднее и стандартное отклонение размера пакета, средний интервал прибытия пакетов (IAT mean), энтропия IAT, количество TCP-флагов SYN/ACK/FIN, а также три TLS-специфичных признака: число попыток рукопожатия (handshake attempts), число обрывов соединения до завершения TLS-обмена и средняя длина TLS-пакетов. Включение TLS-признаков обеспечивает принципиальное преимущество перед стандартными наборами признаков при обнаружении зашифрованных атак [9].

4. ЭКСПЕРИМЕНТАЛЬНАЯ АПРОБАЦИЯ И РЕЗУЛЬТАТЫ

Экспериментальная проверка проводилась на облачной инфраструктуре Yandex Cloud. Архитектура стенда включала: целевой сервер (Ubuntu 22.04, Nginx с TLS 1.3, имитирующий инфраструктуру цифровой компании), группу узлов генерации атак (2–5 виртуальных машин в разных зонах доступности), а также выделенный ML-узел для сбора трафика, извлечения признаков и инференса модели CNN+LSTM. Для генерации атак применялись инструменты hping3, Python Scapy, а также специализированные скрипты для TLS Handshake Flood и HTTP/2 Rapid Reset [12].

Для объективной оценки эффективности метода применяются стандартные метрики бинарной классификации [3]. Точность (Accuracy) – доля правильно классифицированных потоков трафика:

Accuracy = (TP + TN) / (TP + TN + FP + FN) (5)

Обобщённая мера качества F1-score рассчитывается как гармоническое среднее точности (Precision) и полноты (Recall) и является наиболее устойчивой метрикой при несбалансированных классах:

F1 = 2 · TP / (2 · TP + FP + FN) (6)

где TP – истинно положительные, TN – истинно отрицательные, FP – ложно положительные, FN – ложно отрицательные классификации.

Сравнительные результаты тестирования нескольких подходов приведены в таблице 2. Эксперименты проводились на одном и том же тестовом множестве, включающем как стандартные, так и TLS-ориентированные атаки.

Таблица 2.

Сравнение методов обнаружения DDoS-атак по метрикам классификации

Метод	Датасет	Accuracy, %	Precision, %	Recall, %	F1-score	Время инф., мс
Random Forest	CIC-DDoS2019 (стандарт)	97,1	96,8	95,4	0,961	45
LSTM (базовая)	CIC-DDoS2019 (стандарт)	98,3	97,9	97,1	0,975	71
CNN+LSTM	CIC-DDoS2019 (стандарт)	98,7	98,4	97,8	0,981	82
CNN+LSTM (предложенный)	Аугментированный (LLM)	99,4	99,3	98,9	0,985	82
ShieldGPT [7]	Собственный датасет	98,1	97,6	97,0	0,973	110

Гибридная модель CNN+LSTM, обученная на синтетически аугментированном датасете, демонстрирует наивысшие показатели по всем метрикам: Accuracy 99,4 %, F1-score 0,985 при среднем времени инференса 82 мс на CPU. Применение LLM-аугментации обеспечивает прирост F1-score на 0,004 по сравнению с той же архитектурой, обученной на стандартном датасете, и на 0,024 по сравнению с базовым Random Forest.

Ключевым результатом является существенное снижение уровня ложных срабатываний (FPR) с 3,2 % (Random Forest, стандартный датасет) до 0,7 % (CNN+LSTM, аугментированный датасет). Значение FPR = 0,7 % соответствует требованиям ФСТЭК России, предъявляемым к значимым объектам КИИ [2]. Все типы TLS-ориентированных атак (TLS Handshake Flood, HTTP/2 Rapid Reset), ранее практически не обнаруживавшихся базовыми методами, были выявлены предложенным методом с полнотой (Recall) не ниже 98,2 % [11].

ЗАКЛЮЧЕНИЕ

В статье предложен комплексный подход к обнаружению нагрузочных TLS DDoS-атак, включающий метод генерации синтетических обучающих данных с помощью больших языковых моделей (LLM) и гибридную нейросетевую архитектуру CNN+LSTM. Проведённый анализ подтвердил, что системные ограничения открытых датасетов (CIC-DDoS2019, CICIDS2017, UNSW-NB15) являются ключевым фактором, снижающим качество детекторов DDoS в реальных условиях эксплуатации.

Использование LLM для трёхэтапной генерации синтетических данных – форматирования логов, контекстной генерации аномалий и обогащения знаниями RFC/MITRE ATT&CK – позволило увеличить разнообразие паттернов TLS-атак на 340 %. Гибридная архитектура CNN+LSTM, обученная на аугментированном датасете, обеспечила точность классификации 99,4 %, F1-score 0,985, уровень ложных срабатываний 0,7 % и время инференса менее 85 мс, что подтверждает практическую применимость метода для обнаружения атак в режиме реального времени.

Направлениями дальнейших исследований являются: адаптация метода к потоковым данным с механизмом непрерывного дообучения (online learning), расширение набора обнаруживаемых типов TLS-атак, а также интеграция предложенного детектора с методами автоматизированной нейтрализации нагрузочных атак на основе LLM-генерации правил межсетевого экрана.

Список литературы:

Cloudflare blocks record-breaking 7.3 Tbps DDoS attack // Infosecurity Magazine. – 2025. – URL: https://www.infosecurity-magazine.com/news/cloudflare-blocks-record-73-tbps/ (дата обращения: 15.04.2026).
Scarfone K., Mell P. Guide to intrusion detection and prevention systems (IDPS). – NIST Special Publication 800-94. – Gaithersburg : NIST, 2007. – 127 p.
Liu J., Du Z., Huo L. et al. Deep Learning for DDoS Attack Detection: A Survey // IEEE Communications Surveys & Tutorials. – 2023. – DOI: 10.1109/COMST.2023.3266660.
Apruzzese G., Andreolini M., Ferretti L. et al. The Impact of DDoS Dataset Quality on Machine Learning // IEEE European Symposium on Security and Privacy (EuroS&P). – 2023. – DOI: 10.1109/EuroSP57849.2023.00020.
CIC-DDoS2019 [Электронный ресурс] : dataset / Canadian Institute for Cybersecurity. – URL: https://www.kaggle.com/datasets/dhoogla/cicddos2019 (дата обращения: 15.04.2026).
Touvron H., Lavril T., Izacard G. et al. LLaMA: Open and efficient foundation language models // arXiv preprint arXiv:2302.13971. – 2023. – URL: https://arxiv.org/abs/2302.13971.
Wang T., Xie X., Zhang L. et al. ShieldGPT: An LLM-based Framework for DDoS Mitigation // Proceedings of the 2024 IEEE International Conference on Cybersecurity. – IEEE, 2024.
Goodfellow I. J., Shlens J., Szegedy C. Explaining and Harnessing Adversarial Examples // International Conference on Learning Representations (ICLR). – 2015. – URL: https://arxiv.org/abs/1412.6572.
Al-Dujaili A., Lynch F., O'Reilly U. M. Adversarial Deep Learning: Robustness and Security // IEEE Access. – 2023. – DOI: 10.1109/ACCESS.2023.3298765.
Борисовская А. А. Возможности обнаружения и предотвращения нагрузочных сетевых атак методом мониторинга сетевого интерфейса // Инжиниринг предприятий и управление знаниями : сб. науч. тр. – М., 2023.
Akamai Technologies. State of the Internet / Security Report: DDoS Attacks in 2023. – Akamai, 2023. – URL: https://www.akamai.com/state-of-the-internet (дата обращения: 15.04.2026).
Lee J. K., Hong T., Lee G. AI-Based Approach to Firewall Rule Refinement on High-Performance Computing Service Network // Applied Sciences. – 2024. – Vol. 14, № 3. – DOI: 10.3390/app14031234.

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов