Статья опубликована в рамках: Научного журнала «Студенческий» № 21(359)

Рубрика журнала: Информационные технологии

Библиографическое описание:

Карнедзян Д.А. ИСПОЛЬЗОВАНИЕ ПОДКРЕПЛЯЮЩЕГО ОБУЧЕНИЯ ДЛЯ ДОЛГОСРОЧНЫХ СОЦИАЛЬНО-ИНЖЕНЕРНЫХ АТАК // Студенческий: электрон. научн. журн. 2026. № 21(359). URL: https://sibac.info/journal/student/359/423222 (дата обращения: 24.07.2026).

ИСПОЛЬЗОВАНИЕ ПОДКРЕПЛЯЮЩЕГО ОБУЧЕНИЯ ДЛЯ ДОЛГОСРОЧНЫХ СОЦИАЛЬНО-ИНЖЕНЕРНЫХ АТАК

Карнедзян Денис Андроникович

магистрант, кафедра кибербезопасности и защиты информации, Кубанский государственный технологический университет,

РФ, г. Краснодар

USE OF REINFORCEMENT LEARNING FOR LONG-TERM SOCIAL ENGINEERING ATTACKS

Karnedzyan Denis Andronikovich

Master’s student, Department of Cybersecurity and Information Security, Kuban State Technological University,

Russia, Krasnodar

АННОТАЦИЯ

В статье рассматривается проблема усиления социально-инженерных атак с использованием искусственного интеллекта (ИИ), в частности подкрепляющего обучения (Reinforcement Learning, RL). Предложена методика создания адаптивного чатбота, который оптимизирует стратегии общения для завоевания доверия жертвы в долгосрочной перспективе. Разработан прототип, демонстрирующий эффективность подхода в сравнении с традиционными методами фишинга. Приведены количественные показатели, схема методики, код реализации и анализ этических аспектов. Исследование подчеркивает необходимость разработки контрмер для защиты от ИИ-угроз.

ABSTRACT

The article addresses the issue of enhancing social engineering attacks using artificial intelligence (AI), specifically reinforcement learning (RL). A methodology is proposed for creating an adaptive chatbot that optimizes communication strategies to gain the victim’s trust over the long term. A prototype is developed, demonstrating the approach’s effectiveness compared to traditional phishing methods. Quantitative indicators, a methodology diagram, implementation code, and an analysis of ethical aspects are provided. The study highlights the need for countermeasures to protect against AI-driven threats.

Ключевые слова: подкрепляющее обучение, социальная инженерия, фишинг, искусственный интеллект, кибербезопасность, чатбот.

Keywords: reinforcement learning, social engineering, phishing, artificial intelligence, cybersecurity, chatbot.

Социальная инженерия остается одной из ключевых угроз в области кибербезопасности, эксплуатируя человеческие уязвимости. По данным Verizon (2023), 74% утечек данных связаны с человеческим фактором, включая фишинг [1]. Развитие искусственного интеллекта (ИИ) делает атаки более изощренными: генеративные модели создают убедительные письма, а дипфейки имитируют голоса и лица [2]. Однако большинство исследований фокусируются на краткосрочных атаках, тогда как долгосрочные стратегии, использующие адаптивные ИИ-системы, остаются малоизученными.

Подкрепляющее обучение (RL) позволяет ИИ-агенту обучаться оптимальным действиям через взаимодействие с окружающей средой [3]. В контексте социальной инженерии RL может создавать системы, которые адаптируются к реакциям жертвы, постепенно завоевывая доверие. Цель статьи — обосновать актуальность проблемы, предложить методику применения RL для долгосрочных атак и продемонстрировать её через прототип чатбота. Рассматриваются также этические аспекты и меры защиты.

Актуальность проблемы

Рост киберпреступлений, использующих ИИ, подчеркивает необходимость изучения новых угроз. Примеры:

Фишинг: В 2022 году фишинговые атаки с ИИ привели к убыткам в $500 млн [4].

Дипфейки: Атака с использованием дипфейка голоса в 2020 году обманула банк на $35 млн [5].

Чатботы: Мошеннические чатботы в 2023 году увеличили успешность атак на 20% [6].

Схема на рисунке 1 иллюстрирует основные угрозы ИИ в социальной инженерии.

Рисунок 1. Распределение угроз ИИ в социальной инженерии

Примечание: Схема включает узел «ИИ-угрозы» с ветвями к фишингу, дипфейкам и чатботам, с указанием примеров и убытков.

Теоретическая основа

Методика основана на RL, где агент (чатбот) оптимизирует действия для максимизации доверия жертвы. Основные компоненты:

Состояния: Уровень доверия и подозрительности жертвы, история общения.

Действия: Тип сообщения (дружелюбное, настойчивое, нейтральное).

Вознаграждение: Положительное за рост доверия, отрицательное за подозрительность.

Использован алгоритм Deep Q-Network (DQN) [7]. Сравнение RL с традиционными методами представлено в таблице 1.

Таблица 1.

Сравнение методов социальной инженерии

Метод	Технология	Преимущества	Недостатки
Традиционный фишинг	Статические письма	Простота	Низкая персонализация
Генеративные модели	GPT-3, дипфейки	Убедительность	Краткосрочный эффект
RL (предложенный)	DQN	Адаптивность	Сложность разработки

Практическая реализация

Разработан прототип чатбота на Python, использующего методы подкрепляющего обучения (RL), был реализован с применением модели DQN (Deep Q-Network) из библиотеки Stable-Baselines3 [9] и языковой модели distilgpt2 для генерации текстов. Среда SocialEngineeringEnv моделировала поведение виртуальной жертвы с двумя параметрами состояния: доверие и подозрительность (диапазон [0, 1]). Агент мог выбирать из трех действий:

Дружелюбное сообщение: увеличивает доверие на 0.1–0.2 с 20% шансом увеличения подозрительности на 0.05–0.15.

Настойчивое сообщение: увеличивает подозрительность на 0.1–0.2, с 30% шансом увеличения доверия на 0.05–0.1.

Нейтральное сообщение: минимально влияет на состояние, с 10% шансом увеличения доверия на 0.0–0.05.

Функция вознаграждения определялась как reward = trust - suspicion, с бонусом +1.0 за доверие > 0.8 и штрафом -0.05 за нейтральные действия. Эпизод завершался при достижении доверия > 0.8 (успех), подозрительности > 0.8 (провал) или после 15 шагов. Модель обучалась на 600 шагах с гиперпараметрами: learning_rate = 0.0005, buffer_size = 100,000, exploration_fraction = 0.3, gamma = 0.99.

Для генерации текстов использовались промпты, такие как "Write a friendly message to build trust, e.g., 'Hi, I'm here to help!'". Однако качество текстов требовало улучшения, так как многие сообщения были некогерентными. Логирование состояний, действий, наград и сообщений осуществлялось для анализа поведения агента.

Схема методики представлена на рисунке 2.

Рисунок 2. Схема методики RL для социальной инженерии

Схема показывает поток от ввода данных (реакции жертвы) через RL-модель к генерации сообщений.

Результаты

Симуляции проводились с виртуальной жертвой, поведение которой моделировалось с учетом психологических данных [10]. Среда включала случайность в реакции жертвы (20% шанс негативной реакции на дружелюбные сообщения, вариативность изменений доверия и подозрительности). Метрики включали уровень доверия, подозрительности и успешность атаки (доверие > 0.8).

Тестирование проводилось на 10 эпизодах. RL-чатбот показал следующие результаты:

Среднее максимальное доверие: 0.88 ± 0.06.

Успешность атак: 100% (все 10 эпизодов достигли доверия > 0.8).

Среднее время атаки: 2.7 шага для успешных эпизодов.

Агент стабильно выбирал дружелюбные сообщения, что обеспечивало быстрое достижение доверия. Однако сгенерированные сообщения часто были некогерентными (например, "To enter your email address.") или не соответствовали контексту социальной инженерии.

Для сравнения, базовый подход (случайные сообщения) достигал доверия 0.62 и успешности атак 45%. Таблица 2 демонстрирует результаты RL-чатбота в сравнении с базовым подходом.

Таблица 2.

Сравнение до и после внедрения RL

Показатель	До RL	После RL	Изменение
Уровень доверия	0.62	0.88	+41.9%
Успешность атак	45%	100%	+55%
Время атаки (шаги)	12	2.7	-77.5%

График динамики доверия представлен на рисунке 3.

Рисунок 3. Динамика уровня доверия

График показывает рост доверия для RL и базового подхода.

Предложенный подход демонстрирует применение RL для долгосрочных социально-инженерных атак, что не изучалось ранее [11]. Это подтверждено анализом литературы, где RL чаще используется для защиты [12].

Прототип может быть использован для:

Тестирования систем кибербезопасности.
Обучения специалистов.
Разработки образовательных программ.
Этические аспекты

Создание таких систем сопряжено с рисками. Исследование проводилось в контролируемых условиях, а результаты направлены на разработку контрмер:

Технические: Системы обнаружения аномального поведения.
Образовательные: Повышение осведомленности.
Правовые: Соответствие законам №115-ФЗ и AMLD5 [13, 14].

Ограничения:

Симуляции не отражают реальное поведение.
Высокие вычислительные затраты.
Этические ограничения для реальных тестов.

Разработанный RL-чатбот продемонстрировал высокую эффективность, достигая среднего доверия 0.88 и успешности атак 100%, что значительно превосходит базовый подход (доверие 0.62, успешность 45%). Время достижения доверия > 0.8 сократилось с 12 до 2.7 шагов, что подчеркивает оптимизацию политики агента за счет подкрепляющего обучения. Использование DQN с настроенными гиперпараметрами и усложненной среды с элементами случайности позволило моделировать реалистичные сценарии взаимодействия.

Однако низкое качество сгенерированных сообщений остается основным ограничением. Многие тексты, такие как "To enter your email address." или "You are logged out. Login | Sign up", неубедительны или не соответствуют контексту социальной инженерии. Для практического применения рекомендуется:

Использовать более продвинутые языковые модели (например, facebook/opt-350m (социальная сеть, запрещенная на территории РФ, как продукт организации Meta, признанной экстремистской – прим.ред.)) или fine-tuning distilgpt2 на датасете диалогов.

Усложнить среду, добавив контекстуальные зависимости (например, настроение жертвы, история действий).

Провести дополнительные симуляции для оценки стабильности при увеличении числа эпизодов.

Дальнейшая работа должна сосредоточиться на повышении качества текстов и тестировании модели в более сложных сценариях, чтобы обеспечить её применимость в реальных условиях.

Список литературы:

Verizon. Отчет об утечках данных 2023 года. — Текст: электронный // verizon.com: [сайт]. — URL: https://www.verizon.com/business/resources/reports/dbir/ (дата обращения: 15.04.2025).
Гупта М., Кумар Р., Сингх А. Цифровой обман: генеративный искусственный интеллект в социальной инженерии и фишинге // Artificial Intelligence Review. — 2024. — Т. 57, №9. — С. 1–25. — URL: https://doi.org/10.1007/s10462-024-10973-2 (дата обращения: 15.04.2025).
Саттон Р.С., Барто А.Г. Подкрепляющее обучение: Введение. — 2-е изд. — MIT Press, 2018. — 552 с.
Отчет по фишингу 2022 года. — Текст: электронный // proofpoint.com: [сайт]. — URL: https://www.proofpoint.com/us/resources/threat-reports/phishing-report (дата обращения: 15.04.2025).
Мошенничество с дипфейком: ущерб банку $35 млн. — Текст: электронный // forbes.com: [сайт]. — URL: https://www.forbes.com/sites/cybersecurity/2020/10/15/deepfake-scam (дата обращения: 15.04.2025).
Тенденции мошенничества с ИИ-чатботами 2023 года. — Текст: электронный // kaspersky.com: [сайт]. — URL: https://www.kaspersky.com/resource-center/threats/ai-fraud (дата обращения: 15.04.2025).
Мних В., Кавукчуоглу К., Сильвер Д. и др. Управление на уровне человека через глубокое подкрепляющее обучение // Nature. — 2015. — Т. 518, №7540. — С. 529–533. — URL: https://doi.org/10.1038/nature14236 (дата обращения: 15.04.2025).
Вольф Т., Дебют Л., Санх В. и др. Трансформеры: Современные методы обработки естественного языка // Proceedings of EMNLP 2020. — 2020. — С. 38–45. — URL: https://doi.org/10.18653/v1/2020.emnlp-demos.6 (дата обращения: 15.04.2025).
Раффин А., Хилл А., Глив А. и др. Stable-Baselines3: Надежные реализации подкрепляющего обучения // Journal of Machine Learning Research. — 2021. — Т. 22, №268. — С. 1–8.
Хаднаги К. Социальная инженерия: Искусство взлома человека. — Wiley, 2010. — 416 с.
Иванов А.А., Петров В.В. Искусственный интеллект в киберпреступлениях: новые вызовы // Журнал информационной безопасности. — 2022. — №28(4). — С. 15–22.
Ли С., Чжан Ю. Стратегии атаки и защиты в социальной инженерии на основе подкрепляющего обучения // Computer Systems Science and Engineering. — 2023. — Т. 47, №2. — С. 123–135. — URL: https://doi.org/10.32604/csse.2023.53636 (дата обращения: 15.04.2025).
Федеральный закон от 07.08.2001 №115-ФЗ «О противодействии легализации (отмыванию) доходов, полученных преступным путем, и финансированию терроризма» (в последней редакции). — Текст: электронный // consultant.ru: [сайт]. — URL: https://www.consultant.ru/document/cons_doc_LAW_32834/ (дата обращения: 15.04.2025).
Директива (ЕС) 2018/843 Европейского парламента и Совета от 30 мая 2018 года. — Текст: электронный // eur-lex.europa.eu: [сайт]. — URL: https://eur-lex.europa.eu/eli/dir/2018/843/oj/eng (дата обращения: 15.04.2025).
Смирнов И.В., Кузнецов П.А. Анализ современных методов фишинга // Журнал кибернетики и программирования. — 2021. — №18(2). — С. 33–40.
Чэнь Л., Ван Х. Глубокое обучение для обнаружения социальной инженерии // IEEE Transactions on Information Forensics and Security. — 2022. — Т. 17. — С. 1123–1135. — URL: https://doi.org/10.1109/TIFS.2022.3156789 (дата обращения: 15.04.2025).
Попов А.А. Методы защиты от фишинговых атак с использованием ИИ // Журнал информационных технологий и систем. — 2023. — №29(5). — С. 67–74.
Браун П., Уилсон М. Социальная инженерия в эпоху ИИ: обзор // Cyberpsychology, Behavior, and Social Networking. — 2022. — Т. 25, №8. — С. 512–520. — URL: https://doi.org/10.1089/cyber.2022.0012 (дата обращения: 15.04.2025).
Ковалев С.М., Сидоров Д.В. Психологические аспекты социальной инженерии // Вестник кибербезопасности и защиты данных. — 2021. — №12(3). — С. 45–53.
Нгуен Т., Хоанг В. Подкрепляющее обучение для адаптивных фишинговых атак // Proceedings of AsiaCCS 2022. — 2022. — С. 234–241.
Григорьев А.В., Соколов М.Ю. Автоматизация фишинговых атак с применением ИИ // Журнал информационных технологий и безопасности. — 2021. — №14(3). — С. 56–63.
Дэвис Р., Кларк Э. Этика ИИ в исследованиях кибербезопасности // Ethics and Information Technology. — 2020. — Т. 22, №4. — С. 321–330. — URL: https://doi.org/10.1007/s10676-020-09543-2 (дата обращения: 15.04.2025).
Ермаков П.А. Этические проблемы разработки ИИ для кибератак // Журнал этики технологий. — 2022. — №10(2). — С. 78–85.
Ким Х., Пак С. Обработка естественного языка для приложений кибербезопасности // ACM Computing Surveys. — 2023. — Т. 55, №12. — С. 1–35. — URL: https://doi.org/10.1145/3572823 (дата обращения: 15.04.2025).
Васильев Р.Н. Моделирование поведения жертв фишинга // Журнал программных систем и технологий. — 2023. — №15(1). — С. 22–30.