Статья опубликована в рамках: Научного журнала «Студенческий» № 34(246)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4
ОБРАБОТКА АТРИБУТОВ НАБОРА ДАННЫХ ПРИ ПОМОЩИ ТЕПЛОВОЙ КАРТЫ ДЛЯ УПРОЩЕНИЯ ЗАДАЧИ ПОИСКА АНОМАЛИЙ ТРАФИКА СЕТИ АСУТП
PROCESSING DATASET ATTRIBUTES USING HEAT MAP TO SIMPLIFY THE TASK OF SEARCHING FOR TRAFFIC ANOMALIES ON THE ICS NETWORK
Magamed Magamedov
master’s student, Department of Information Security, Moscow Technical University of Communications and Informatics,
Russia, Moscow
АННОТАЦИЯ
В данной статье рассматривается один из способов упрощения задачи нахождения аномалий трафика сети АСУТП (Автоматизированная Система Управления Технологическим Процессом) при помощи метода heatmap, библиотеки seaborn на языке программирования Python. Актуальность темы вызвана необходимостью предотвращения, а также предопределения аномалий в трафике такой сети, так как АСУТП признаны одним из классов систем КИИ (Критической Информационной Инфраструктуры).
ABSTRACT
This article discusses one of the ways to simplify the problem of finding anomalies in the ICS (Industrial Control System) network traffic with the help of heatmap method, seaborn library in Python programming language. The relevance of the topic is caused by the need to prevent as well as predetermine anomalies in the traffic of such a network, since the automated process control system is recognised as one of the classes of CII (Critical Information Infrastructure) systems.
Ключевые слова: АСУТП, аномалии трафика, набор данных (датасет), признаки (атрибуты) трафика, тепловая карта, информационная безопасность.
Key words: ICS, traffic anomalies, dataset, traffic attributes, heatmap, information security.
Введение
Сфера информационных технологий продолжает стремительно развиваться, однако это не отменяет давнюю – проблему – обеспечения безопасности данных, информационных систем и т.п. Растущая динамика различных типов угроз информации затрудняет обнаружение и классификацию аномального сетевого трафика. АСУТП – можно представить в виде крупного предприятии, производстве товаров, перерабатывающем заводе и т.п., где требуется отладить весь технологический процесс в автоматическом режиме. Также сюда можно отнести инфраструктуру здания, такую как, например: вентиляция, отопление, освещение, водоснабжение и приборы учета. Все эти системы можно обобщить одним ёмким термином: АСУ.
Данные, еще не обработанные машинным обучением, содержат значительное количество атрибутов, не все из которых на практике всегда имеют классификационное значение. Некоторые атрибуты являются точными и предоставляют важную информацию о данных, в то время как другие являются избыточными и не имеют информационной ценности.
Цель
Целью работы является минимизирование количества атрибутов трафика сети АСУТП с целью упрощения поиска аномалий трафика в последствии.
Методы
В качестве метода будет использоваться тепловая карта или метод heatmap библиотеки Seaborn. Seaborn – это библиотека для создания статистических графиков на Python, основанная на matplotlib и тесно интегрированная со структурами данных pandas. Набор данных, используемый в работе называется HIL-based Augmented ICS (HAI) Security Dataset [HAI 22.04] [1]. Данные временного ряда (первый столбец) удовлетворяют требованию непрерывности времени и представляют наблюдаемое время как “дд-мм-гггг чч:мм:сс”, в то время как остальные столбцы содержат записанные точки данных SCADA. Последние четыре столбца содержат метки данных о том, произошла атака или нет. На рисунке 1 изображена часть этого набора данных.
Рисунок 1. Исходный набор данных
Результаты
Результаты изображены на рисунке 2. Для удобства, из-за большого количества признаков, используется только часть таблицы.
Рисунок 2. Тепловая карта
Исходя из результатов можно заметить сильную корреляцию в некоторых местах. Из этого можно сделать вывод, что некоторые атрибуты можно не учитывать, таким образом, вместе того, чтобы рассматривать 88 атрибутов, задача становится проще, и рассматривается всего лишь 55 атрибутов.
Эти 33 признака были ранжированы и расположены в таблице 1 в порядке убывания коэффициента корреляции.
Таблица 1.
Ранжированный список атрибутов
Номер |
Название |
Номер |
Название |
Номер |
Название |
1 |
P4_ST_TT01 |
12 |
P1_FT02Z |
23 |
P3_FIT01 |
2 |
P2_SIT01 |
13 |
P1_FCV01D |
24 |
P3_LCV01D |
3 |
P2_SCO |
14 |
P1_FCV01Z |
25 |
P4_HT_PO |
4 |
P1_FT01Z |
15 |
P4_ST_GOV |
26 |
P1_FCV03Z |
5 |
P1_PCV01Z |
16 |
P4_ST_LD |
27 |
P1_B4022 |
6 |
P1_B400B |
17 |
P4_ST_PO |
28 |
P1_LCV01Z |
7 |
P1_FT02Z |
18 |
P3_PIT01 |
29 |
P1_FCV02Z |
8 |
P1_FT03 |
19 |
P2_VT01 |
30 |
P2_VIBTR04 |
9 |
P1_FT03Z |
20 |
P1_B2016 |
31 |
P1_LCV01D |
10 |
P4_ST_PT01 |
21 |
P1_FCV03D |
32 |
P1_LIT01 |
11 |
P1_FT02 |
22 |
P2_VIBTR03 |
33 |
P1_TIT02 |
Код программы изображен на рисунке 3.
Рисунок 3. Код программы
Выводы
Подводя итоги, можно сказать, что выбор наиболее значимых атрибутов для построения имитационной модели и удаления избыточных и нерелевантных атрибутов, которые не оказывают или не будут оказывать существенного влияния на точность модели, повышает качество модели за счет выявления атрибутов, необходимых для повышения точности, уменьшения объема данных и сокращает время построения модели.
Список литературы:
- Hyeok-Ki Shin, Woomyo Lee, Jeong-Han Yun and Byung-Gil Min ICS security dataset / HIL-based Augmented ICS (HAI) Security Dataset. — [HAI 22.04]. Url: https://github.com/icsdataset/hai (дата обращения 17.10.2023)
Оставить комментарий