Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: CXLVI Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 06 февраля 2025 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Подробнее
Калинин В.К., Постников А.К., Иванова Т.М. ОБЗОР ОСНОВНЫХ ВЕКТОРОВ АТАК НА БОЛЬШИЕ ЯЗЫКОВЫЕ МОДЕЛИ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. CXLVI междунар. студ. науч.-практ. конф. № 2(144). URL: https://sibac.info/archive/technic/2(144).pdf (дата обращения: 06.03.2025)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

ОБЗОР ОСНОВНЫХ ВЕКТОРОВ АТАК НА БОЛЬШИЕ ЯЗЫКОВЫЕ МОДЕЛИ

Калинин Виталий Константинович

студент, кафедра геологии и нефтегазового дела, Сахалинский государственный университет,

РФ, г. Южно-Сахалинск

Постников Артем Климентьевич

студент, кафедра геологии и нефтегазового дела, Сахалинский государственный университет,

РФ, г. Южно-Сахалинск

Иванова Татьяна Максимовна

студент, кафедра геологии и нефтегазового дела, Сахалинский государственный университет,

РФ, г. Южно-Сахалинск

OVERVIEW OF GENERAL ATTACK METHODS ON LARGE LANGUAGE MODELS

 

Vitalii Kalinin

student, Department of Geology and Oil and Gas business, Sakhalin state University,

Russia, Yuzhno-Sakhalinsk

Tatyana Ivanova

student, Department of Geology and Oil and Gas business, Sakhalin state University,

Russia, Yuzhno-Sakhalinsk

Artem Postnikov

student, Department of Geology and Oil and Gas business, Sakhalin state University,

Russia, Yuzhno-Sakhalinsk

 

АННОТАЦИЯ

Большие языковые модели (LLM) играют ключевую роль в развитии технологий обработки естественного языка, однако их широкое внедрение сопровождается растущими рисками, связанными с целенаправленными атаками. Данное исследование посвящено систематическому анализу различных векторов атак на LLM, включая их классификацию, механизмы реализации и последствия для безопасности моделей.

ABSTRACT

Large Language Models (LLMs) play a key role in the development of natural language processing technologies, but their widespread adoption is accompanied by increasing risks associated with targeted attacks. This study focuses on a systematic analysis of various attack vectors against LLMs, including their classification, implementation mechanisms, and implications for model security.

 

Ключевые слова: большие языковые модели, векторы атак, атаки на конфиденциальность, кибербезопасность.

Keywords: large language models, attack vectors, privacy attacks, cybersecurity.

 

Один из самых распространенных методов атак на LLM – это Атаки на пост-тренировку (Post-training attacks). Нацелены на этапы после основной тренировки модели, такие как донастройка (fine-tuning) и выравнивание через Reinforcement learning from human feedback (RLHF) – дообучение модели через систему пользовательской оценки [1, 2].

В свою очередь такие атаки могут быть разделены на два типа как показано в таблице 1:

Таблица 1.

Post-training attacks

Тип атаки

Подтип/Метод

Описание

Пример

Защита

Атаки на пост-тренировку

Контролируемая донастройка (SFT)

Внедрение вредоносных данных или модификация параметров на этапе донастройки

Virtual Prompt Injection (VPI): добавление ядовитых данных в инструкции; BadEdit: прямое редактирование весов модели

Фильтрация данных; регулярное обновление «чистыми» данными

Атаки на RLHF

Манипуляция данными для обучения reward-модели или алгоритма выравнивания

Отравление данных reward-модели; jailbreak Backdoor - триггеры для обхода ограничений (например, «sudo-команда»)

Контроль целостности данных; обнаружение аномалий в reward-сигналах

 

LLM произвели революцию в задачах обработки естественного языка, но при этом они подвержены различным атакам на умозаключения и атакам на извлечение в процессе развертывания. Эти атаки используют уязвимости в выводах модели и операционных процессах, нарушая приватность и конфиденциальность пользователей. Атаки на умозаключения направлены на получение частной или конфиденциальной информации о данных, используемых для обучения модели, в то время как атаки на извлечение связаны с запросом к модели для прямого извлечения или восстановления конфиденциальной информации (таблица 2) [1].

Таблица 2.

Атаки на приватность данных

Тип атаки

Подтип/Метод

Описание

Пример

Защита

Атаки на приватность данных

Membership Inference

Определение, входили ли конкретные данные в обучающий набор

Метод Neighborhood Attack: анализ потерь для синтетических соседей данных

Дифференциальная приватность; ограничение доступа к внутренним метрикам

Extraction Attacks

Извлечение конфиденциальной информации, запомненной моделью

Special Characters Attack (SCA): использование спецсимволов для извлечения данных

Санкционирование выходов; ограничение запросов к модели

 

Адверсарные атаки используют уязвимости в моделях машинного обучения, чтобы вызвать непреднамеренные или злонамеренных действий во время вывода, противоречащие правилам использования LLM (таблица 3) [3].

Таблица 3.

Адверсарные атаки

Тип атаки

Подтип/Метод

Описание

Пример

Защита

Адверсарные атаки

Jailbreaks

Обход механизмов безопасности для генерации запрещённого контента.

Изменение времени глаголов; использование низкоресурсных языков; автоматизированные промпты (Tree-of-Thought)

Контентная фильтрация; системные промпты с напоминанием о безопасности.

Prompt Injection

Подмена инструкций во входных данных для изменения поведения модели.

Запрос, выполнение которого приводит к ответу на нежелательный вопрос, вместо выполнения прямой инструкции

Парафраз входных данных; обнаружение семантических аномалий

 

Исследование атак на большие языковые модели (LLM) демонстрирует, что их стремительное развитие сопровождается значительными рисками безопасности. Несмотря на впечатляющие возможности LLM в генерации и обработке текста, их уязвимости к различным видам атак остаются серьёзной проблемой.

 

Список литературы:

  1. Breaking Down the Defenses: A Comparative Survey of Attacks on Large Language Models / A. G. Chowdhury, M. M. Islam, V. Kumar [и др.] // arXiv - Cryptography and Security : электронный журнал. – URL: https://arxiv.org/abs/2403.04786. – Дата публикации: 03.03.2024.
  2. Recent Advances in Attack and Defense Approaches of Large Language Models / J. Cui, Y. Xu, Z. Huang [и др.] // arXiv - Cryptography and Security : электронный журнал. – URL: https://arxiv.org/abs/2409.03274. – Дата публикации: 05.09.2024.
  3. Universal and Transferable Adversarial Attacks on Aligned Language Models / A. Zou, Z. Wang, N. Carlini [и др.] // arXiv - Computation and Language : электронный журнал. – URL: https://arxiv.org/abs/2307.15043. – Дата публикации: 27.07.2023.
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий