Статья опубликована в рамках: L Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 28 февраля 2017 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
СРАВНИТЕЛЬНЫЙ АНАЛИЗ АЛГОРИТМОВ КЛАССИФИКАЦИИ, ИСПОЛЬЗУЕМЫХ В МЕЖСЕТЕВЫХ ЭКРАНАХ УРОВНЯ ПРИЛОЖЕНИЯ
Межсетевой экран уровня приложения – это система обнаружения (предотвращения) вторжений, работающая на прикладном уровне модели ISO/OSI. Общая архитектура межсетевых экранов, основанных на автоматическом детектировании аномалий, аналогична. Как правило, она состоит из этапов: нормализация данных, извлечение признаков, отбор признаков и классификация. В данной статье хотелось бы рассмотреть и сравнить методы машинного обучения, применяемые на этапе классификации в межсетевых экранах.
Обучаемые нейронные сети
Обучаемые нейронные сети (англ. Neural Networks, NN) предсказывают поведение различных пользователей и демонов в системах. Если они должным образом разработаны и внедрены, NN имеют возможность решения многих проблем, с которыми обычно сталкиваются при подходах, основанных на правилах. Для того чтобы применить этот подход к системам обнаружения вторжений (англ. Intrusion Detection Systems, IDS), данные, представляющие атаки, и легитимные данные должны быть введены в NN для автоматической настройки сетевых коэффициентов на этапе обучения. Многослойный персептрон (англ. Multilayer Perceptron, MLP) и радиальная базисная функция являются наиболее распространенными контролируемыми нейронными сетями.
Были проведены исследования IDS с использованием MLP, который имеет возможность обнаружения нормального и атакованного соединения. Они были реализованы с использованием MLP из трех и четырех слоев нейронной сети. Также известны подходы, использующие три слоя MLP (два скрытых слоя) не только для обнаружения нормального и атакованного соединения, но и для идентификации типа атаки.
Преимущества: нейронная сеть может выполнять задачи, которые линейная программа не может; когда элемент нейронной сети выходит из строя, она может продолжать работу без каких-либо проблем с их параллельной природой; нейронная сеть учится и не нуждается в перепрограммировании.
Недостатки: нейронную сеть необходимо обучить, чтобы она работала; архитектура нейронной сети отличается от архитектуры микропроцессоров, следовательно, должна быть эмулирована; требуется много времени для обработки больших нейронных сетей.
Дерево принятия решений
Дерево решений – дерево, которое состоит из трех основных компонентов: узлы, ветки и листья. Каждый узел помечен особенным атрибутом, который является наиболее информативным среди атрибутов, еще не рассматриваемых в пути от корня. На каждой ветке из узла записано значение признака для функции узла, и каждый лист помечен категорией или классом. Дерево решений может быть тогда использовано для классификации точки данных, начиная с корня дерева и перемещаясь по нему, пока не будет достигнут листовой узел. Листовой узел обеспечивает классификацию точки данных. Существует несколько популярных реализаций деревьев решений для обнаружения атак:
C4.5 был введен Россом Квинланом. На каждом узле дерева, C4.5 выбирает атрибут, который наиболее эффективно разделяет свои выборки в различные классы.
CART (англ. Classification And Regression Tree) – дерево, решающее задачи классификации и регрессии. Это рекурсивный метод разделения, который строит деревья для прогнозирования непрерывных зависимых переменных (регрессия) и категориальных переменных (классификация). CART – непараметрический алгоритм. Он генерирует двоичное дерево решений, строящееся путем разделения узла, которое наилучшим образом дифференцирует целевую переменную на два дочерних узла повторно.
Случайные деревья включают идею выбора признака в случайном порядке.
Случайный лес представляет собой классификатор, состоящий из ансамбля деревьев решений. Его выходной класс является методом результата класса с помощью отдельных деревьев.
Преимущества: простой для понимания и интерпретации; требует небольшой подготовки данных; может обрабатывать как числовые, так и категориальные данные; использует модель белого ящика; может проверять модели с использованием статистических тестов; точный; хорошо работает с большими объемами данных в течение короткого периода времени.
Недостатки: проблема обучения оптимального дерева решений известна, как NP-полная по нескольким аспектам оптимальности даже для простых понятий; обучающиеся деревья решений создают чрезмерно сложные деревья, которые плохо обобщают данные; есть понятия, которые трудно изучить, потому что деревья решений выражают их на сложном языке.
Метод опорных векторов
Метод опорных векторов (англ. Support Vector Machine, SVM) был предложен Владимиром Вапником. Сначала SVM отображает исходный вектор в пространство признаков более высокой размерности, а затем получает оптимальную разделяющую гиперплоскость в пространстве признаков высокой размерности. Кроме того, граница решений, т.е. разделяющая гиперплоскость, определяется опорными векторами, а не целыми обучающими выборками, и, таким образом, является чрезвычайно устойчивой к выбросам. В частности, SVM классификатор предназначен для бинарной классификации. SVM также обеспечивает заданный пользователем параметр, называемый штрафным коэффициентом. Это позволяет пользователям найти компромисс между числом ошибочных выборок и шириной разделяющей полосы.
Преимущества: находит оптимальную разделяющую гиперплоскость; может справиться с данными очень высокой размерности; некоторые ядра имеют бесконечную размерность Вапника-Червоненкиса, что означает, что они могут обучиться очень сложным понятиям; как правило, работает очень хорошо.
Недостатки: требует как положительные, так и отрицательные примеры; необходимо выбрать хорошую функцию ядра; требуют много памяти и процессорного времени; есть некоторые численные проблемы устойчивости в решении ограничения квадратичного программирования.
EM-алгоритм
EM (англ. Expectation Maximization) – метод кластеризации, основанный на мета-алгоритме "ожидания-максимизации" Демпстера. Ожидание-максимизация представляет собой алгоритм для нахождения оценок максимального правдоподобия параметров в вероятностных моделях. Алгоритм кластеризации EM чередует выполнение шага ожидания (E), путем вычисления оценки вероятности с использованием текущих параметров модели (как если бы они были известны), и шага максимизации (М), путем вычисления оценок максимального правдоподобия параметров модели. Новые оценки параметров модели учитываются на стадии ожидания следующей итерации.
Преимущества: может легко изменить модель, чтобы адаптироваться к различным распределениям наборов данных; число параметров не возрастает с увеличением объема тренировочных данных.
Недостатки: медленная сходимость в некоторых случаях.
Заключение
Сравнительный анализ и эксперименты показали, что наилучшие результаты показали методы с наличием обучающей выборки и отсутствия неизвестных атак в тестовой выборке. Среди методов с учителем наилучшая производительность достигается за счет нелинейных методов, таких как SVM, многослойный персептрон. Однако в реальных условиях очень сложно получить хорошую обучающую размеченную выборку, учитывающую весь диапазон атак на веб-приложение. Поэтому иногда применяются методы кластеризации (без этапа обучения), например, EM-алгоритм. Такие алгоритмы не требуют обучения, а также позволяют получить увеличение производительности.
Список литературы:
- Стохастические методы и методы машинного обучения для обнаружения веб-атак. [Электронный ресурс]. – Режим доступа: http://e-archivo.uc3m.es/bitstream/handle/10016/21876/tesis_carmen_torrano_gimenez_2015.pdf?sequence=1 (дата обращения: 15.02.17);
- C4.5: Программы для машинного обучения. [Электронный ресурс]. – Режим доступа: https://pdfs.semanticscholar.org/dec4/6fb79cde2823c13dea9a6b604e1dfcb435cd.pdf (дата обращения: 20.02.17);
дипломов
Оставить комментарий