Статья опубликована в рамках: Научного журнала «Студенческий» № 19(315)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6, скачать журнал часть 7, скачать журнал часть 8, скачать журнал часть 9, скачать журнал часть 10, скачать журнал часть 11
ИССЛЕДОВАНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ОБНАРУЖЕНИЯ СПАМА И ВРЕДОНОСНОГО КОНТЕНТА НА ОСНОВЕ АНАЛИЗА ТЕКСТОВ В СИСТЕМАХ ЭЛЕКТРОННОЙ ПОЧТЫ
АННОТАЦИЯ
В тезисах рассматриваются современные методы машинного обучения, применяемые для классификации и фильтрации спама и вредоносных сообщений в системах электронной почты. Анализируются алгоритмы, основанные на обучении с учителем и без него, включая методы наивного байесовского классификатора, опорных векторов и нейронных сетей. Описаны особенности применения алгоритмов обработки естественного языка для извлечения признаков из текстового содержимого писем. Проведено сравнение точности классификации различных моделей на публичных датасетах. Отдельное внимание уделено вопросам адаптивности моделей к изменяющимся атакам и проблемам ложноположительных срабатываний.
Ключевые слова: машинное обучение, спам, вредоносный контент, электронная почта, классификация текста, NLP, байесовский фильтр, SVM, нейросети.
Современные электронные почтовые системы являются основным каналом коммуникации как в частной, так и в корпоративной среде. Однако они также остаются одним из наиболее уязвимых элементов ИТ-инфраструктуры (рис. 1), подвергаясь массовым атакам в виде спама, фишинга, социальной инженерии и распространения вредоносного ПО. Поэтому задача эффективной фильтрации нежелательных и вредоносных сообщений приобретает особую актуальность.
Рисунок 1. Используемые злоумышленниками каналы
Корпоративные сети особенно уязвимы перед такого рода угрозами: при получении одним из сотрудников «заражённого» письма высок риск дальнейшего распространения внутри организации. Злоумышленники могут перехватить переписку, встраиваться в рабочие процессы, похищать коммерческие сведения и даже выводить из строя критически важные информационные системы [3].
В ряде случаев чёткого разграничения между «чистым» спамом и вредоносным письмом не существует. Само по себе спам-сообщение, содержащее сомнительную рекламу, может быть относительно безопасным, если пользователь просто удалит письмо и не перейдёт по ссылкам. Однако всё чаще спам используется в качестве первичной «приманки», побуждающей получателя к дальнейшим действиям: перейти на фишинговый сайт, загрузить вложение или вступить в контакт с мошенниками [5]. Таким образом, рассылка может выполнять роль «транспортного механизма» для доставки угрозы.
Спам и вредоносный контент эволюционируют параллельно с развитием антиспам-технологий и общим повышением грамотности пользователей. На ранних этапах развития электронной почты наиболее распространёнными были письма-рассылки с одинаковым текстом, которые можно было легко отфильтровать по ключевым словам (например, «Viagra», «продажа дипломов» и т. п.). В ответ на это спамеры начали использовать искажённые слова («V1agra», «диплом$») и случайные символы в тексте.
Методы машинного обучения (ML) за последние годы доказали свою высокую эффективность в области обработки текстовой информации, включая анализ электронных писем. Классические модели, такие как наивный байесовский классификатор (Naive Bayes), показали отличные результаты в задачах бинарной классификации, особенно в условиях ограниченного вычислительного ресурса [1]. Они просты в реализации, требуют минимальной подготовки данных и легко интерпретируются. Однако их эффективность ограничена при работе со сложными, контекстуально насыщенными сообщениями.
Более продвинутые методы, включая метод опорных векторов (SVM), логистическую регрессию и дерево решений, позволяют более гибко учитывать многомерные признаки, извлеченные из текстов писем. На практике они применяются в системах фильтрации с возможностью адаптации к изменяющимся типам спама, особенно при наличии богатой размеченной обучающей выборки.
Существенный прогресс в последние годы наблюдается в применении нейронных сетей и архитектур глубокого обучения. Многослойные перцептроны (MLP), сверточные нейросети (CNN) и особенно рекуррентные сети (RNN, LSTM) продемонстрировали высокую точность при анализе длинных последовательностей слов, что позволяет улавливать смысловые зависимости и контекст. Архитектуры на основе LSTM, например, эффективно обрабатывают фишинг-атаки, где ключевую роль играют грамматические и семантические особенности текста.
Особую популярность приобрели трансформерные модели (Transformer-based architectures), включая BERT, RoBERTa и GPT. Эти модели способны не просто классифицировать сообщения, но и генерировать вероятностное представление смысла текста, что особенно полезно при детектировании нестандартных и обфусцированных атак. Например, BERT, обученный на специализированных датасетах, способен точно классифицировать спам с точностью более 98 %.
Таблица 1.
Сравнение ML алгоритмов для обнаружения спама
Алгоритм |
Тип задачи |
Точность |
F1-мера |
Комментарии |
Naive Bayes |
Спам-фильтрация |
88,5% |
86,2% |
Быстрая, но чувствительна к выборке |
SVM |
Спам-фильтрация |
92,1% |
91,5% |
Требует настройки параметров ядра |
Logistic Regression |
Спам-фильтрация |
90,4% |
89,9% |
Хороша на линейных данных |
Random Forest |
Вредоносный контент |
94,3% |
93,1% |
Стабильна и объяснима |
Multilayer Perceptron (MLP) |
Вредоносный контент |
95,7% |
94,5% |
Хорошая обобщаемость |
LSTM |
Обе |
97,9% |
97% |
Отлична для последовательностей |
BERT |
Обе |
98,5% |
98% |
Сильна, но ресурсоемка |
Однако с ростом сложности моделей возрастают и требования к вычислительным ресурсам, а также время на обучение. Кроме того, нейросетевые модели подвержены атаке модифицированных входных данных (adversarial examples), что требует применения защитных техник: adversarial training, регуляризации и методов объяснимого ИИ.
Для повышения устойчивости системы применяются ансамбли моделей: комбинации наивного байеса с LSTM, градиентного бустинга и SVM, а также стэкинг нескольких классификаторов [2]. Это позволяет совместить интерпретируемость и высокую точность, минимизируя риск ложноположительных срабатываний.
Также развивается подход федеративного обучения (Federated Learning), в рамках которого обучение моделей происходит локально на пользовательских устройствах, без передачи чувствительных данных на сервер. Это особенно актуально в контексте соответствия требованиям GDPR и других законов о защите персональных данных.
В дополнение к вышеуказанному, важным направлением является использование активного обучения (Active Learning), при котором модель интерактивно запрашивает метки только для наиболее неуверенных примеров. Это позволяет значительно сократить объем размеченных данных и ускорить обучение без потери качества [3].
Дополнительную эффективность в задачах обнаружения спама и вредоносных писем демонстрируют подходы активного обучения (Active Learning), при которых система автоматически определяет наиболее «неуверенные» или спорные сообщения и направляет их для ручной проверки оператору. В отличие от пассивного обучения, где вся обучающая выборка заранее размечена, активное обучение позволяет существенно сократить количество размеченных данных, концентрируясь только на примерах, действительно важных для улучшения модели [6]. Например, если система не может с высокой уверенностью классифицировать сообщение как спам или легитимную переписку, оно автоматически отправляется специалисту по безопасности. После ручной разметки результат добавляется в обучающую выборку, а модель дообучается с учетом нового примера. Такой подход особенно полезен при внедрении системы в новую организационную среду, где атаки могут отличаться от стандартных шаблонов. Active Learning обеспечивает постоянное повышение качества фильтрации при минимальных усилиях со стороны аналитика.
Для повышения точности классификации сообщений в системах машинного обучения крайне важно учитывать не только текстовое содержимое письма, но и широкий спектр вне-текстовых признаков [4]. Эти признаки позволяют выявлять скрытые угрозы даже в тех случаях, когда текст сообщения маскируется под легитимную переписку.
К числу таких признаков относятся: анализ заголовков (From, Reply-To, Return-Path), расхождение доменов, временные метки и пути SMTP; репутация IP-адреса отправителя через RBL/DNSBL; характеристики вложенных файлов (исполняемые форматы, макросы, архивы с паролем); наличие подозрительных ссылок с обфускацией или подменой; поведенческие маркеры (время отправки, шаблонность, отсутствие персонализации); а также анализ цепочек писем на предмет несоответствий контексту.
Эти признаки позволяют построить мультифакторную модель оценки, где даже нейтральный текст может быть помечен как зловредный за счёт технических и поведенческих сигналов. При этом возможно динамическое обновление весов и логики классификации на основе данных обратной связи от пользователей.
Применение методов машинного обучения в задачах обнаружения спама и вредоносного контента в электронных письмах представляет собой динамично развивающееся направление, в котором сочетаются достижения в области ИИ, обработки естественного языка и кибербезопасности. Будущее таких систем связано с гибридными моделями, которые смогут в реальном времени адаптироваться к новым угрозам и эффективно защищать коммуникационные каналы.
Список литературы:
- Григорьев А.А., Галковский А.В., Совпель Д.С., Клебанов Д.А. Построение спам-фильтра на основе алгоритмов машинного обучения // Безопасность и качество информации. – 2020. – № 2. – С. 45–52.
- Фёдорова С.А. Разработка фильтра электронных писем на основе методов машинного обучения как способ борьбы со спамом // XLIX Самарская областная студенческая научная конференция. – 2023. – Т. 1. – С. 431–432.
- Буйлова Н.Н. Классификация текстов по жанрам с помощью алгоритмов машинного обучения // Новые информационные технологии в автоматизированных системах. – 2018. – № 7. – С. 34–39.
- Скляренко Н.С. Обзор алгоритмов машинного обучения, решающих задачу обнаружения спама // Новые информационные технологии в автоматизированных системах. – 2017. – № 20. – С. 26–31.
- Блинов С.Ю. Методы и алгоритмы классификации информации для защиты от спама [Текст]: дис. канд. техн. наук: 05.13.19 / Блинов Станислав Юрьевич. – Москва, 2013. – 150 с.
- Теобальд О. Машинное обучение для абсолютных новичков: вводный курс, изложенный простым языком / О. Теобальд; пер. с англ. М.А. Райтмана. – Москва: Эксмо, 2024. – 208 с.
Оставить комментарий