Статья опубликована в рамках: CI Международной научно-практической конференции «Экспериментальные и теоретические исследования в современной науке» (Россия, г. Новосибирск, 27 мая 2024 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Куркин Я.И., Прохоренко А.В., Сергеев С.И. АНАЛИЗ И ВЫЯВЛЕНИЕ ФИШИНГОВЫХ ВЕБ-САЙТОВ С ПРИМЕНЕНИЕМ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ // Экспериментальные и теоретические исследования в современной науке: сб. ст. по матер. CI междунар. науч.-практ. конф. № 5(93). – Новосибирск: СибАК, 2024. – С. 59-69.

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов

АНАЛИЗ И ВЫЯВЛЕНИЕ ФИШИНГОВЫХ ВЕБ-САЙТОВ С ПРИМЕНЕНИЕМ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ

Куркин Ярослав Игоревич

студент, МИРЭА – Российский технологический университет, Институт кибербезопасности и цифровых технологий

РФ, г. Москва

Прохоренко Андрей Владимирович

РФ, г. Москва

Сергеев Сергей Игоревич

РФ, г. Москва

ANALYSIS AND DETECTION OF PHISHING WEBSITES USING MACHINE LEARNING METHODS

Yaroslav Kurkin

Student, MIREA - Russian Technological University,

Russia, Moscow

Andrey Prohorenko

Student, MIREA - Russian Technological University,

Russia, Moscow

Sergey Sergeev

Student, MIREA - Russian Technological University,

Russia, Moscow

АННОТАЦИЯ

Цель данной работы заключается в исследовании возможности использования алгоритмов машинного обучения для обнаружения фишинга – метода совершения киберпреступлений, который часто применяются при подготовке и реализации целенаправленных кибератак.

Метод исследования включает в себя анализ различных методов и различных архитектур машинного обучения для обнаружения поддельных веб-адресов, используемых при фишинге

Полученные результаты показывают, что методы машинного обучения демонстрируют высокую точность в выявлении фишинговых веб-сайтов. Дальнейшие исследования могут быть направлены на оптимизацию моделей и уменьшение ложных срабатываний, а также на интеграцию разработанных решений в системы реального времени для защиты информационных систем.

ABSTRACT

The purpose of this work is to study the possibility of using machine learning algorithms to detect phishing, a method of committing cybercrimes that is often used in the preparation and implementation of targeted cyberattacks. The research method involves analyzing various methods and various machine learning architectures to detect fake web addresses used in phishing. The results show that machine learning methods demonstrate high accuracy in identifying phishing websites. Further research can be aimed at optimizing models and reducing false positives, as well as integrating developed solutions into real-time systems to protect information systems.

Ключевые слова: Кибербезопасность, фишинг, логистическая регрессия, мультиномиальный наивный Байес

Keywords: Cybersecurity, phishing, logistic regression, multinomialNB

Введение

Фишинг — это форма киберпреступной деятельности, при которой злоумышленники рассылают поддельные ссылки на веб-сайты, имитирующие легитимные, с целью получения конфиденциальной информации от пользователей, такой как электронные почты, пароли, государственные удостоверения личности, данные кредитных карт и банковские реквизиты. Фишинговые веб-сайты могут также способствовать установке вредоносного программного обеспечения, что позволяет злоумышленникам получить полный доступ к системе жертвы. Эти сайты часто визуально идентичны оригинальным веб-ресурсам, отличаясь лишь незначительными деталями в доменном имени, такими как орфографические ошибки или использование схожих символов, что вводит пользователей в заблуждение и побуждает их вводить личные данные или устанавливать вредоносное программное обеспечение.

Для того чтобы осуществить фишинговую атаку, необходимо выполнить несколько шагов, которые приведены ниже. Первый шаг в фишинге заключается в том, чтобы получение информации о жертве или организации. Создайте фальшивую страницу, на которой жертва должна ввести учетные данные. Этот фальшивый сайт должен выглядеть идентично легитимному сайту. Ссылка также должна быть похожа на настоящую. Последний этап заключается в отправке ссылки жертве по электронной почте. Письмо должно быть составлено таким образом, чтобы жертву было легко обмануть. После нажатия на ссылку в электронном письме жертва будет перенаправлена на поддельный сайт, где ей придется ввести свои конфиденциальные учетные данные. На рисунке 1 показаны этапы фишинговой атаки.

Рисунок 1. Схема фишинговой атаки

Набор данных

В данном исследовании используется набор данных, содержащий информацию о фишинговых веб-сайтах. Данный набор включает 549346 URL-адресов. В наборе данных представлены два параметра: первый содержит уникальные URL-адреса, а второй — метки, указывающие, является ли URL-адрес фишинговым (bad) или безопасным (good). Набор данных не содержит пропущенных значений или выбросов.

Рисунок 2. Набор данных с количеством классов

Преобразование данных

Для начала нужно разбить URL-адреса. Токенизатор разбивает URL-адрес на отдельные слова и символы с помощью регулярных выражений. В URL-адресах есть ключевые слова и символы, которые могут сигнализировать о фишинговой активности, например, "вирус", ".exe", ".dat". Регулярное выражение используется для идентификации таких токенов и разделителей между ними.

Например, разберем ссылку и посмотрим как идет преобразование данных (рисунок 3).

Рисунок 3. Пример фишинговой ссылки

После токенизации URL-адрес разбивается на: nobell, it, ffb, d, dca, cce, f, login, SkyPe, com, en, cgi, bin, verification, login, ffb, d, dca, cce, f, index, php, cmd, profile, ach, outdated, page, tmpl, p, gen, failed, to, load, nav, login, access.

После того, как процесс токенизации завершается, с помощью метода CountVectorizer преобразовывал текстовые данные в числовую форму, после в разряженную матрицу и на конечном этапе в массив данных.

Модели машинного обучения

Машинное обучение — это область, являющаяся подмножеством искусственного интеллекта, которая включает в себя создание модели на основе алгоритмов машинного обучения, которая обучается на некоторых данных, а затем используется для обработки других данных для предоставления прогнозов. Модели, используемые для этой задачи классификации: Машинное обучение — это область, которая является подмножеством искусственного интеллекта, которая включает в себя создание модели на основе алгоритмов машинного обучения, которая обучается на некоторых данных, а затем используется для обработки других данных для предоставления прогнозов. Модели, используемые для этой задачи классификации:

Логистическая регрессия

Это статистический метод, применяемый для моделирования бинарной зависимой переменной на основе одной или нескольких независимых переменных. Модель оценивает вероятность принадлежности объекта к одному из двух классов (обычно обозначаемых как 0 и 1) с использованием логистической функции.

(1)

X - входная переменная, e - основание натурального логарифма, a и b - веса модели логистической регрессии. Из уравнения1 видно, что по мере приближения значения X к ∞ значение P(X) приближается к 1, а когда X приближается к , значение P(X) приближается к 0. Вывод логистической функции находится в диапазоне 0 и 1, включая оба значения.

(2)

Чтобы предсказать класс по P(X), мы должны применить порог, который должен быть минимальным значением для классификации в классе 1, и этот порог равен 0,5, как показано в уравнении 2.

Мультиномиальный наивный Байес

Это статистический классификационный алгоритм, основанный на применении теоремы Байеса с предположением о независимости признаков. Он используется для моделирования дискретных распределений, особенно эффективен при работе с текстовыми данными и задачами классификации, такими как фильтрация спама и анализ тональности.

(2)

Где – апостериорная вероятность класса при условии наблюдения x. – априорная вероятность класса . – вероятность признака , при условии класса . – нормирующая константа (общая вероятность наблюдаемого вектора признаков).

Метрики оценки

Метрики оценки используются для измерения качества модели машинного обучения. Метрики оценки, используемые для этой задачи классификации:

Матрица путаницы приведена на рисунке 4.

Это матрица с равным количеством строк и столбцов, где n — количество классов, прогнозируемых в выходных данных.

Рисунок 4. Матрица путаницы для задачи классификации, состоящей из 2 классов

TP - истинные положительные результаты, в которых реальные положительные случаи были предсказаны как положительные. FP - ложные положительные результаты, в которых реальные отрицательные случаи были предсказаны как положительные. TN - истинные отрицательные результаты, в которых реальные отрицательные случаи были предсказаны как отрицательные. FN - ложноотрицательные случаи, когда реальные положительные случаи были предсказаны как отрицательные. Краткие метрики из матрицы путаницы, они получены из матрицы путаницы, чтобы оценить предсказания, сделанные моделью.

Accuracy:

(3)

Показывает, сколько точек данных было классифицировано правильно.

Precision

(4)

Показывает, сколько предсказанных положительных результатов оказалось на самом деле.

Recall:

(5)

Показывает, сколько положительных результатов было предсказано правильно из общего числа положительных результатов

F-1 score:

(6)

где R означает Recall, а P - Precision F1 используется в случаях, когда одна модель имеет лучший результат по Recall и недостаточный по Precision или наоборот.

Результаты

В следующих таблицах приведено сравнение матрицы путаницы для моделей логистической регрессии и мультиномиального наивного Байеса, прошедших обучение.

Рисунок 4. Матрица путаницы для логистической регрессии

Рисунок 5. Матрица путаницы для мультиномиального наивного Байеса

Рисунок 6. Сравнение точности алгоритмов машинного обучения

Рисунок 7. Сравнение алгоритмов машинного обучения по шкале точности предсказания для класса фишинговых URL-адресов

Рисунок 8. Сравнение алгоритмов машинного обучения по шкале точности предсказания для класса безопасных URL-адресов

Рисунок 9. Сравнение алгоритмов машинного обучения по шкале полноты для класса фишинговых URL-адресов

Рисунок 10. Сравнение алгоритмов машинного обучения по шкале полноты для класса безопасных URL-адресов

Рисунок 11. Сравнение алгоритмов машинного обучения для класса фишинговых ссылок по шкале F1-score

Рисунок 12. Сравнение алгоритмов машинного обучения для класса безопасных ссылок по шкале F1-score

Список литературы:

Kang Leng Chiew, Kelvin Sheng Chek Yong, Choon Lin Tan. (2018) [электронный ресурс]. A survey of phishing attacks: their types, vectors and technical approaches. Expert Systems with Applications, 106, 1-20. https://www.sciencedirect.com/science/article/abs/pii/S0957417418302070?via%3Dihub (дата обращения 15.01.2024)
Rana Alabdan. (2020) [электронный ресурс]. Phishing attacks survey: types, vectors, and technical approaches. Future Internet, 12(10), 168. https://www.mdpi.com/1999-5903/12/10/168 (дата обращения 16.01.2024)
Лимановская О. В., Алферьева Т. И. Основы машинного обучения: учебное пособие / Лимановская О. В., Алферьева Т. И. – Екатеринбург: Издательство Уральского университета, 2020. – 88 с.
Positive Technologies (2024) [электронный ресурс]. Актуальные киберугрозы для организаций: итоги 2023 года. https://www.ptsecurity.com/ru-ru/research/analytics/aktualnye-kiberugrozy-dlya-organizacij-itogi-2023-goda/ (дата обращения 13.02.2024)
Юрий Диогенес, Эрдаль Озкайя. Кибербезопасность: стратегии атак и обороны – 2020, 325с.

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов