Статья опубликована в рамках: CXXXIII Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 15 января 2024 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
ВЫЯВЛЕНИЕ КИБЕРПРЕСТУПЛЕНИЙ С ИСПОЛЬЗОВАНИЕМ МАШИННОГО ОБУЧЕНИЯ
DETECTION OF CYBERCRIMES USING MACHINE LEARNING
Nikolay Sychev,
student, Tambov State Technical University,
Russia, Tambov
Anastasia Dmitrieva
student, Tambov State Technical University,
Russia, Tambov
АННОТАЦИЯ
В статье изложены новые методы выявления киберпреступлений, основанных на машинном обучении. Отмечена необходимость переходить на новые методики так, как алгоритмы позволяют заранее предотвратить киберпреступление с высокой точностью.
ABSTRACT
The article describes new methods for detecting cybercrimes based on machine learning. The need to switch to new techniques is noted, as algorithms allow preventing cybercrime with high accuracy in advance.
Ключевые слова: криминалистика, киберпреступления, технико-криминалистическое обеспечение, борьба с киберпреступлениями, фишинг, киберзапугивание.
Keywords: criminalistics, cybercrime, technical and forensic support, combating cybercrime, phishing, cyberbullying.
Машинное обучение – направление, освещающее механизмы предвидения результатов на основе предоставленной информации [4]. Программа-машина, это именно компьютер, получает навыки прогнозирования изначально соответствующих выходных сигналов, относящихся к неотъемлемым входным сигналам, используя примеры из сохраненной информации. Тут можно использовать контролируемую или неконтролируемую форму обучения. По своей первоначальной форме программ-учеников вмещают действительные пары их открытых и соответствующих выходных данных, которые именуют упоминаемыми отмеченными выходами. Устройство, в данном случае, стремится осознать вещественно присутствующие закономерности для самостоятельного образования рассуждений в последующем времени. При неконтролируемых методах форм, выходные сигналы не передаются в объеме пометок, это и превращает результаты изучения машины в затруднительные по причине особого понимания устройства относительно точных выходных сигналов для каждого входного сигнала.
Одна из ключевых моделей обучения, которая с успехом применяется в различных сферах, - это дерево решений [1]. Оно представляет собой классический метод принятия решений, основанный на идее "разделяй и властвуй". Дерево решений можно разделить на два основных типа: бинарную классификацию и классификацию по нескольким классам. В бинарном дереве классификации ответом может быть только "да" или "нет". Вопрос, задаваемый на каждом узле дерева, называется "признаком", а ответ на него - "значением признака". Результат классификации в дереве представляется в виде "метки". При выборе одного ответа перед другим распространяется индуктивное смещение.
С недавнего времени, машины начали заниматься обнаружением киберпреступлений, и успешно применили различные алгоритмы, основанные на контролируемом и неконтролируемом обучении. Среди них были использованы наивный байесовский алгоритм, алгоритм K-ближайшего соседа и K-means. Чтобы достичь высокой точности и эффективности, постоянно проводятся тестирования нескольких алгоритмов. В одном из таких применили алгоритм Левенштейна и наивный байесовский классификатор для обнаружения киберзапугивания на сайте вопросов и ответов. В другом был использован обучающий алгоритм дерева принятия решений C4.5 и обучение на основе примеров для определения киберзапугивания. Оба метода демонстрировали точность на уровне 78,5% [3].
Другой метод, основанный на присвоении числовых весов терминам, чтобы выявить лексику, связанную с запросом в систему управления базами данных, в текстовых документах. Путем преобразования текста в вектор и применения четырех методов взвешивания, включая частотное взвешивание терминов, двоичное взвешивание терминов и взвешивание на основе частоты документа с обратным взвешиванием, исследователи смогли преобразовать вектор, представляющий текст. Также реализовано нечеткое множество, основанное на этих методах взвешивания. Для обнаружения запроса использовались классификаторы опорных векторов и наивный Байес. В ходе эксперимента они также проверили набор данных, связанный с антисоциальным поведением. Полученные результаты убедительно показали, что метод взвешивания на основе нечетких множеств с использованием опорных векторов демонстрирует превосходную точность до 99% [2] по сравнению с другими методами.
Инновационный метод, основанный на наивной байесовской модели, который позволяет выявлять связи между предупреждениями и распознавать кибератаки задолго до их осуществления при сохранении плана атаки. План атаки представляет собой последовательность шагов, которые злоумышленники предпринимают, чтобы достичь своих целей. Эта новая система определяет план атаки, анализируя доступную историю предупреждений. В ходе исследования на основе набора данных DAPRA [5] обнаружилось, что система значительно снижает количество ложных сообщений о проведении атак и не требует наличия сценария атаки или эксперта в данной области для ее использования.
Также предложена новая система обнаружения атак для защиты беспроводных ячеистых сетей. С использованием генетического алгоритма для выбора признаков и классификатора опорного вектора. Разработанная система была протестирована на имитационных данных беспроводных ячеистых сетей в Network Simulator 3. Результатом стало высокое выявление атак в 95,5%.
Еще одна разработка уникального инструмента с гибридными возможностями, предназначена для выявления фишинговых электронных писем. Для эффективной работы, данный инструмент использует сложные процессы генерации вектора признаков, анализа с помощью машинного обучения, выбора наиболее эффективного метода обработки данных и оценки индукторов и признаков. Помимо рассмотрены методы, применяемые в атаках с расширенными постоянными угрозами на смартфоны. APT-атаки представляют собой спланированные атаки, в которых успешно совмещаются социальная инженерия и вредоносное программное обеспечение. Особенностью таких атак является их распространенность, основная форма которой - фишинг. С помощью классификатора дерева решений с целью обнаружения фальшивых веб-сайтов и достигнуто впечатляющая точность в 90% [6].
Таким образом, проблема существующих систем защиты от угроз заключается в их ограниченной способности предотвращать атаки, основанные на уже известных сценариях. Поэтому основное внимание нужно уделять APT-атакам, которые значительно более опасны, чем обычные атаки, поскольку злоумышленники персонально следят за своими жертвами, исследуют их, находят уязвимости и ищут пользователей с высокими привилегиями, таких как администраторы. А инновационные системы и методы обработки больших данных, такие как машинное обучение, интеллектуальный анализ данных и искусственный интеллект могут заранее прогнозировать информацию о киберпреступлении, которая может быть представлена не только числами, например, текстом, изображениями и видео.
Список литературы:
- Дауме Х. Курс машинного обучения / Дауме Х. [Электронный ресурс] // CIML : [сайт]. — URL: http://ciml.info/dl/v0_9/ciml-v0_9-ch03.pdf (дата обращения: 30.11.2023).
- Динакар К. Моделирование обнаружения текстового кибербулинга [Текст] / Динакар К. // AAAI. — 2011. — № 5. — С. 11-17.
- Нандиев Б. С. Обнаружение и классификация кибербулинга [Текст] / Нандиев Б. С. — 1. — Москва: Технол, 2015 — 200 c.
- Равана С. Д. Обнаружение киберпреступности в онлайн-коммуникациях [Текст] / Равана С. Д. // AAAI. — 2019. — № 63. — С. 433-451.
- Рейнольдс К. Использование машинного обучения для обнаружения кибербулинга [Текст] / Рейнольдс К. // Мах. — 2011. — № 10. — С. 241-244.
- Шалев С. Понимание машинного обучения: от теории к алгоритмам [Текст] / Шалев С. — 1. — СПБ: Каро, 2014 — 133 c.
дипломов
Оставить комментарий