Статья опубликована в рамках: CXLVI Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 06 февраля 2025 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
ОБЗОР ОСНОВНЫХ ВЕКТОРОВ АТАК НА БОЛЬШИЕ ЯЗЫКОВЫЕ МОДЕЛИ
OVERVIEW OF GENERAL ATTACK METHODS ON LARGE LANGUAGE MODELS
Vitalii Kalinin
student, Department of Geology and Oil and Gas business, Sakhalin state University,
Russia, Yuzhno-Sakhalinsk
Tatyana Ivanova
student, Department of Geology and Oil and Gas business, Sakhalin state University,
Russia, Yuzhno-Sakhalinsk
Artem Postnikov
student, Department of Geology and Oil and Gas business, Sakhalin state University,
Russia, Yuzhno-Sakhalinsk
АННОТАЦИЯ
Большие языковые модели (LLM) играют ключевую роль в развитии технологий обработки естественного языка, однако их широкое внедрение сопровождается растущими рисками, связанными с целенаправленными атаками. Данное исследование посвящено систематическому анализу различных векторов атак на LLM, включая их классификацию, механизмы реализации и последствия для безопасности моделей.
ABSTRACT
Large Language Models (LLMs) play a key role in the development of natural language processing technologies, but their widespread adoption is accompanied by increasing risks associated with targeted attacks. This study focuses on a systematic analysis of various attack vectors against LLMs, including their classification, implementation mechanisms, and implications for model security.
Ключевые слова: большие языковые модели, векторы атак, атаки на конфиденциальность, кибербезопасность.
Keywords: large language models, attack vectors, privacy attacks, cybersecurity.
Один из самых распространенных методов атак на LLM – это Атаки на пост-тренировку (Post-training attacks). Нацелены на этапы после основной тренировки модели, такие как донастройка (fine-tuning) и выравнивание через Reinforcement learning from human feedback (RLHF) – дообучение модели через систему пользовательской оценки [1, 2].
В свою очередь такие атаки могут быть разделены на два типа как показано в таблице 1:
Таблица 1.
Post-training attacks
Тип атаки |
Подтип/Метод |
Описание |
Пример |
Защита |
Атаки на пост-тренировку |
Контролируемая донастройка (SFT) |
Внедрение вредоносных данных или модификация параметров на этапе донастройки |
Virtual Prompt Injection (VPI): добавление ядовитых данных в инструкции; BadEdit: прямое редактирование весов модели |
Фильтрация данных; регулярное обновление «чистыми» данными |
Атаки на RLHF |
Манипуляция данными для обучения reward-модели или алгоритма выравнивания |
Отравление данных reward-модели; jailbreak Backdoor - триггеры для обхода ограничений (например, «sudo-команда») |
Контроль целостности данных; обнаружение аномалий в reward-сигналах |
LLM произвели революцию в задачах обработки естественного языка, но при этом они подвержены различным атакам на умозаключения и атакам на извлечение в процессе развертывания. Эти атаки используют уязвимости в выводах модели и операционных процессах, нарушая приватность и конфиденциальность пользователей. Атаки на умозаключения направлены на получение частной или конфиденциальной информации о данных, используемых для обучения модели, в то время как атаки на извлечение связаны с запросом к модели для прямого извлечения или восстановления конфиденциальной информации (таблица 2) [1].
Таблица 2.
Атаки на приватность данных
Тип атаки |
Подтип/Метод |
Описание |
Пример |
Защита |
Атаки на приватность данных |
Membership Inference |
Определение, входили ли конкретные данные в обучающий набор |
Метод Neighborhood Attack: анализ потерь для синтетических соседей данных |
Дифференциальная приватность; ограничение доступа к внутренним метрикам |
Extraction Attacks |
Извлечение конфиденциальной информации, запомненной моделью |
Special Characters Attack (SCA): использование спецсимволов для извлечения данных |
Санкционирование выходов; ограничение запросов к модели |
Адверсарные атаки используют уязвимости в моделях машинного обучения, чтобы вызвать непреднамеренные или злонамеренных действий во время вывода, противоречащие правилам использования LLM (таблица 3) [3].
Таблица 3.
Адверсарные атаки
Тип атаки |
Подтип/Метод |
Описание |
Пример |
Защита |
Адверсарные атаки |
Jailbreaks |
Обход механизмов безопасности для генерации запрещённого контента. |
Изменение времени глаголов; использование низкоресурсных языков; автоматизированные промпты (Tree-of-Thought) |
Контентная фильтрация; системные промпты с напоминанием о безопасности. |
Prompt Injection |
Подмена инструкций во входных данных для изменения поведения модели. |
Запрос, выполнение которого приводит к ответу на нежелательный вопрос, вместо выполнения прямой инструкции |
Парафраз входных данных; обнаружение семантических аномалий |
Исследование атак на большие языковые модели (LLM) демонстрирует, что их стремительное развитие сопровождается значительными рисками безопасности. Несмотря на впечатляющие возможности LLM в генерации и обработке текста, их уязвимости к различным видам атак остаются серьёзной проблемой.
Список литературы:
- Breaking Down the Defenses: A Comparative Survey of Attacks on Large Language Models / A. G. Chowdhury, M. M. Islam, V. Kumar [и др.] // arXiv - Cryptography and Security : электронный журнал. – URL: https://arxiv.org/abs/2403.04786. – Дата публикации: 03.03.2024.
- Recent Advances in Attack and Defense Approaches of Large Language Models / J. Cui, Y. Xu, Z. Huang [и др.] // arXiv - Cryptography and Security : электронный журнал. – URL: https://arxiv.org/abs/2409.03274. – Дата публикации: 05.09.2024.
- Universal and Transferable Adversarial Attacks on Aligned Language Models / A. Zou, Z. Wang, N. Carlini [и др.] // arXiv - Computation and Language : электронный журнал. – URL: https://arxiv.org/abs/2307.15043. – Дата публикации: 27.07.2023.
дипломов
Оставить комментарий