Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: XXXIX Международной научно-практической конференции «Вопросы технических и физико-математических наук в свете современных исследований» (Россия, г. Новосибирск, 26 мая 2021 г.)

Наука: Информационные технологии

Секция: Вычислительные машины, комплексы и компьютерные сети

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Воронин И.В., Газин А.И., Золотарева Т.А. [и др.] ПРИМЕНЕНИЕ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА В СИСТЕМАХ УГЛУБЛЕННОГО АНАЛИЗА СЕТЕВОГО ТРАФИКА // Вопросы технических и физико-математических наук в свете современных исследований: сб. ст. по матер. XXXIX междунар. науч.-практ. конф. № 5(31). – Новосибирск: СибАК, 2021. – С. 11-17.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

ПРИМЕНЕНИЕ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА В СИСТЕМАХ УГЛУБЛЕННОГО АНАЛИЗА СЕТЕВОГО ТРАФИКА

Воронин Илья Васильевич

ст. преподаватель, Липецкий государственный педагогический университет имени П.П. Семенова-Тян-Шанского,

РФ, г. Липецк

Газин Алексей Иванович

канд. техн. наук, доц., Липецкий государственный педагогический университет имени П.П. Семенова-Тян-Шанского,

РФ, г. Липецк

Золотарева Татьяна Александровна

ст. преподаватель, Липецкий государственный педагогический университет имени П.П. Семенова-Тян-Шанского,

РФ, г. Липецк

Селищев Олег Владимирович

преподаватель, Липецкий государственный педагогический университет имени П.П. Семенова-Тян-Шанского,

РФ, г. Липецк

Скуднев Дмитрий Михайлович

канд. техн. наук, зав. кафедрой информатики, информационных технологий и защиты информации, доцент, Липецкий государственный педагогический университет имени П.П. Семенова-Тян-Шанского,

РФ, г. Липецк

Работа выполнена в рамках гранта № 19-47-480002

 

Термин “глубокая проверка пакетов” (DPI) [1] относится к анализу сетевого пакета на верхних уровнях (уровне приложений и представления) модели взаимодействия открытых систем (OSI) [2].

Помимо анализа сетевых пакетов [3] с использованием стандартных шаблонов по определенным параметрам, которые могут быть использованы для однозначного определения принадлежности пакета конкретному приложению, например, по формату заголовков, номерам портов и т.д., система DPI выполняет поведенческий анализ трафика. Это позволяет распознавать приложения, которые не используют известные заголовки данных и структуры данных для обмена данными.

Для идентификации проводится анализ последовательности пакетов с одинаковыми характеристиками. Анализируемые характеристики: Source_IP: port - Destination_IP: port; packet size; частота открытия новых сеансов в единицу времени и др. Анализ основан на поведенческих (эвристических) моделях, соответствующих таким приложениям.

Основным компонентом решения DPI [4] является модуль классификации. Он отвечает за классификацию сетевых потоков. Классификация может быть выполнена с различной точностью в зависимости от целей применения DPI:

  • тип протокола или приложения (например, Web, P2P, VoIP);
  • конкретный протокол прикладного уровня (HTTP BitTorrent, SIP);
  • приложения, использующие протокол (Google Chrome, uTorrent, Skype).

Анализ трафика с использованием традиционных инструментов становится невозможным без выбора ключа для потоковой передачи данных с шифрованием (например, протоколы TLS / SSL). Требуется много ресурсов, чтобы найти ключ. Актуальность взлома остается только на правительственном или военном уровне.

Поэтому разработка алгоритмов, позволяющих классифицировать трафик защищенных соединений с требуемым уровнем детализации по протоколу актуальна.

Классификация трафика позволяет идентифицировать различные приложения и протоколы, передаваемые по сети. Также классификационной функцией является управление этим трафиком, его оптимизация и расстановка приоритетов. После классификации все пакеты помечаются принадлежностью к определенному протоколу или приложению. Это позволяет сетевым устройствам использовать политику качества обслуживания (QoS) на основе этих меток и флагов.

Существует два основных метода классификации трафика:

1. Классификация на основе блоков данных (Классификация на основе полезной нагрузки). Она основана на анализе полей пакетов данных. Этот метод является наиболее распространенным, но не работает с зашифрованным и туннелированным трафиком.

2. Классификация на основе статистического анализа (время между пакетами, время сеанса и т.д.).

Универсальный подход к классификации трафика основан на информации, содержащейся в заголовке IP-пакета. Обычно это IP-адрес (уровень 3), MAC-адрес (уровень 2) и используемый протокол. Этот подход имеет свои ограничения.

Deep package inspection (DPI) позволяет реализовать более совершенную классификацию пакетов. Основным механизмом идентификации приложений в DPI является сигнатурный анализ [3]. Каждое приложение имеет свои уникальные характеристики, которые вносятся в базу подписей. Сравнение выборки из базы данных с анализируемым трафиком позволяет определить приложение или протокол. Однако периодически появляются новые приложения, база данных сигнатур также нуждается в обновлении для обеспечения высокой точности идентификации.

Существует несколько методов сигнатурного анализа:

1. Паттерн анализа. Приложения содержат определенные примеры последовательностей в блоке данных пакета. Их можно использовать для идентификации и классификации. Не каждый пакет содержит пример данных приложения, поэтому метод не всегда работает.

2. Численный анализ. Численный анализ использует количественные характеристики последовательности пакетов, такие как: размер блока данных, время отклика, интервал между пакетами. Одновременный анализ нескольких пакетов занимает много времени, что снижает эффективность данного метода.

3. Поведенческий анализ, эвристический анализ. Метод основан на анализе динамики трафика запущенного приложения. Пока приложение работает, оно создает трафик, который также может быть идентифицирован и помечен [4].

4. Анализ протокола/состояния. Протоколы некоторых приложений представляют собой последовательность определенных действий. Анализ таких последовательностей позволяет точно идентифицировать приложение.

При работе с зашифрованным траффиком используется поведенческий и эвристический анализ. Для более точной идентификации используется кластерный анализ, который сочетает в себе методы эвристического и поведенческого анализа.

Разработка алгоритма анализа для классификации сетевого трафика защищенных соединений выделенных пользователей по заранее определенному набору категорий является актуальной.

Рассмотрим два сценария анализа сетевого трафика:

  • анализ зашифрованного трафика;
  • анализ зашифрованного трафика, проходящего через виртуальную частную сеть (VPN).

В случае если структура локальной сети организации построена на основе модуля анализа сетевого трафика зашифрованных соединений, то трафик поступает от пограничного маршрутизатора. Осуществляется захват и предварительная обработка трафика с помощью. Основные характеристики потока данных извлекаются из полученных файлов. Формируется вектор первичных признаков и сеансов длительностью 15, 30, 60 и 120 секунд. Производится генерация и отбор признаков для обучения нейросетевого классификатора. Подготовленный вектор признаков подается в модуль нейросетевого анализа пользовательских сеансов. Настройки для обучения и работы задаются администратором.

Далее в блок принятия решений поступает следующая информация: решение базового блока о типе трафика, вероятности принадлежности трафика к одному из основных типов и типах распознанного трафика из блока нейросетевого анализа, анализирующего сеансы пользователя. Администратор может выполнить корректировку текущего решения по блоку принятия решения о типе трафика.

Затем текущий трафик из блока принятия решений и помеченный трафик из базового модуля анализа трафика (IP отправителя, IP получателя, порт отправителя, порт получателя) отправляются в хранилище пользовательских сеансов.

Далее данные о рекогнизированных пользовательских сеансах отправляются в модуль анализа типов трафика и тип пользователя. Специалист по информационной безопасности получает информацию о типах пользователей и их правах. Администратор взаимодействует с репозиторием для просмотра и пополнения базы данных, а также устанавливает параметры захвата трафика.

На первом этапе загружается фрагмент перехваченного трафика, затем выбирается сценарий классификатора. На основе особенностей, указанных в сценарии, формируется обучающая выборка для построения исходной базы знаний. После анализа заданных признаков на тестируемом образце определяется точность работы классификатора. Если точность удовлетворяет требованиям, состояние сохраняется, в противном случае цикл возвращается к определению типа сценария. Структурная схема классификатора сетевого трафика приведена на рисунке 1.

 

Рисунок 1. Структурная схема классификатора сетевого трафика

 

Классификация трафика основана на анализе временных характеристик потока перехваченных сетевых пакетов для формирования зашифрованных и VPN признаков (временных признаков). Временные характеристики потока позволяют снизить вычислительные затраты на построение набора признаков, извлеченных из зашифрованного сетевого трафика, за счет уменьшения набора фиксированных параметров.

В эксперименте используется дамп сетевого трафика с 14 тегами различных типов трафика, генерируемыми различными приложениями (7 для обычного зашифрованного трафика и 7 для VPN-трафика).

Критерием качества классификации трафика является точность классификации выборок. Оценка точности классификации может быть проведена путем перекрестной валидации. Разделение на обучающий и тестовый наборы осуществляется путем деления выборки: обучающий набор составляет две трети данных, а тестовый набор - одну треть данных.

Для решения задачи классификации рассмотрены следующие алгоритмы:

  • Алгоритм случайного леса (RFT);
  • K-Метод ближайшего соседа (KNN);
  • Многослойный персептрон (MLP).

В качестве исходных данных используется реальный трафик, генерируемый такими приложениями и сервисами, как Skype, Facebook и т.д.

Для каждого типа трафика (VoIP, P2P ит. д.) в созданном VPN-туннеле используются открытые сессии и сеансы, поэтому всего существует 14 категорий трафика: VoIP, VPN-VoIP, P2P, VPN-P2P и т.д.

Трафик был захвачен с помощью Wireshark sniffer. Для VPN-трафика используется внешний сервис VPN. Соединение осуществлялось с помощью OpenVPN. Чтобы генерировать трафик SFTP и FTPS, использовался внешний поставщик услуг и FileZilla в качестве клиента.

Установлено влияние длительности сеанса захваченного потока данных на точность классификации. Разработанный классификатор демонстрирует точность распознавания на тестовом образце до 80%. Алгоритмы MLP, RFT и KNN имели практически идентичные показатели во всех экспериментах.

Установлено также, что предлагаемые классификаторы лучше работают при формировании потоков сетевого трафика с использованием коротких значений тайм-аута.

Данный метод отличается способом генерации и выбора функций, что позволяет классифицировать существующий трафик защищенных соединений выбранных пользователей по заранее заданному набору категорий. Разработанные алгоритмы позволяют повысить безопасность сети передачи данных за счет совершенствования алгоритмов анализа сетевого трафика в рамках системы предотвращения утечек данных.

 

Список литературы:

  1. Обзор технологии DPI - Deep Packet Inspection [Электронный ресурс]. - Режим доступа: https://habr.com/post/111054/ (дата обращения 07.04.2021).
  2. Воронин И.В., Газин А.И., Зияутдинов В.С., Золотарева Т.А., Селищев О.В., Скуднев Д.М./ Алгоритмическое обеспечение интеллектуальной системы поддержки принятия решений для идентификации сетевых проблем в локальной вычислительной сети / В сборнике: Научный форум: технические и физико-математические науки. Сборник статей по материалам XXVII международной научно-практической конференции. 2019. С. 9-16.
  3. Олифер В. Г. Компьютерные сети. Принципы, технологии, протоколы / В.Г. Олифер, Н.А. Олифер. - СПб.: Питер, 2011. - 944 с.
  4. Анализаторы сетевых пакетов [Электронный ресурс]. - Режим доступа: https://compress.ru/ article.aspx?id=16244 (дата обращения 05.04.2021).
  5. Российские производители DPI и их платформы [Электронный ресурс]. - Режим доступа: https://vasexperts.ru/blog/rossijskie-proizvoditeli-dpi-i-ih-platfo/ (дата обращения 11.04.2021).
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.