Статья опубликована в рамках: Научного журнала «Студенческий» № 18(356)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал
МЕТОДЫ АНОНИМИЗАЦИИ ПРОМПТОВ ПРИ ИСПОЛЬЗОВАНИИ СТОРОННИХ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ
METHODS OF ANONIMIZATION OF PROMPTS USING THIRD-PARTY LARGE LANGUAGE MODELS
Cherepanov Ilya Evgenevich
Student, Department of Business Informatics, Ural State University of Economics,
Russia, Yekaterinburg
Nazarov Dmitry Mikhailovich
Scientific Supervisor, Doctor of Economics, Associate Professor, Ural State University of Economics,
Russia, Yekaterinburg
АННОТАЦИЯ
В статье рассматриваются методы анонимизации промптов как средства снижения рисков утечки персональных данных, коммерческой тайны и чувствительной информации при использовании сторонних больших языковых моделей (LLM). Анализируются подходы на основе замены именованных сущностей (NER-маскирование), обобщения (generalization), дифференциальной приватности, синтетической подстановки и гомоморфного шифрования. Приводятся рекомендации по выбору метода в зависимости от типа данных и требуемого уровня защиты.
ABSTRACT
The article discusses methods of anonymizing promptings as a means of reducing the risks of leakage of personal data, trade secrets and sensitive information when using third-party large language models (LLM). Approaches based on named entity substitution (NER masking), generalization, differential privacy, synthetic substitution, and homomorphic encryption are analyzed. Recommendations are given on the choice of method depending on the type of data and the required level of protection.
Ключевые слова: анонимизация промптов, LLM, конфиденциальность, NER, дифференциальная приватность, маскирование данных, защита персональных данных.
Keywords: anonymization of prompts, LLM, privacy, NER, differential privacy, data masking, and personal data protection.
При передаче промптов сторонним LLM через API или облачные сервисы возникает риск раскрытия конфиденциальной информации, которая может содержаться в пользовательском запросе: имена, адреса, номера телефонов, медицинские данные, финансовые показатели, исходный код или внутренние бизнес-процессы. Даже если модель не сохраняет историю диалогов (что трудно проверить), данные передаются через сеть и могут перехватываться или логироваться провайдером. Анонимизация промпта — процесс удаления или преобразования идентифицирующей информации в запросе перед отправкой в LLM, с сохранением семантической полезности для получения корректного ответа. Данная работа систематизирует существующие методы анонимизации и оценивает их применимость в реальных системах.
Целью настоящей работы является анализ и систематизация методов защиты промптов от инъекционных атак и несанкционированного раскрытия данных, а также определение практических подходов к анонимизации пользовательских запросов при использовании сторонних больших языковых моделей (LLM) в прикладных системах.
Все методы можно разделить на три категории: (1) маскирование (маскировка) — замена конкретных значений на псевдонимы или маски; (2) обобщение — замена точных значений на диапазоны или категории; (3) пертурбация — добавление шума или использование криптографических преобразований.
Метод замены именованных сущностей (NER-маскирование). Наиболее распространённый подход. Сначала с помощью модели распознавания именованных сущностей (NER) в промпте выделяются сущности типов: PERSON, ORGANIZATION, LOCATION, DATE, PHONE_NUMBER, EMAIL, CREDIT_CARD и т.д. Затем каждая сущность заменяется на псевдоним (например, «[ЧЕЛОВЕК_1]», «[КОМПАНИЯ_А]») либо на вымышленное, но правдоподобное значение («Иван Петров» → «Алексей Смирнов»). Второй вариант предпочтительнее для задач генерации текста, так как сохраняет лингвистическую связность. Недостаток: ошибки NER-модели (пропуск сущностей или ложное срабатывание) снижают качество анонимизации. Для повышения надёжности используют ансамбль моделей или ручную верификацию на критичных данных [2].
Метод обобщения (generalization). Применяется, когда важна статистическая достоверность, но не точное значение. Пример: возраст «32 года» заменяется на «30-35 лет», зарплата «150 000 руб.» — на «более 100 000 руб.», адрес «ул. Тверская, д. 5» — на «центр Москвы». Этот метод эффективен для аналитических запросов, где LLM должна дать оценку или рекомендацию без привязки к уникальному идентификатору. Однако для задач персонализированного ответа (например, «напиши письмо клиенту Иванову») обобщение неприемлемо.
Метод синтетической подстановки (synthetic data substitution). Исходные данные полностью заменяются на искусственно сгенерированные, но сохраняющие ту же статистическую структуру. Например, реальная база клиентов заменяется на синтетическую с теми же распределениями возрастов, регионов и покупок. Промпт, использующий такую замену, позволяет модели выдать полезный ответ (например, маркетинговую стратегию), не раскрывая реальных данных. Этот метод требует наличия генеративной модели для создания синтетических данных, что само по себе может быть нетривиальной задачей [3].
Метод дифференциальной приватности (DP) при анонимизации. Вместо детерминированной замены, в данные добавляется контролируемый шум, гарантирующий, что присутствие или отсутствие конкретной записи не может быть определено по выходу модели. На практике для промптов это означает, что перед отправкой в LLM числовые значения искажаются случайной величиной из распределения Лапласа или Гаусса с параметром ε (эпсилон — бюджет конфиденциальности). Например, «температура реактора 250°C» превращается в «~252°C» с шумом. Метод строг с математической точки зрения, но для многих приложений ухудшает точность ответа. Применяется в основном в научных и государственных системах с высокими требованиями к конфиденциальности.
Гомоморфное шифрование (HE) и безопасные многосторонние вычисления (SMPC). Экзотические, но перспективные методы. Промпт шифруется на стороне клиента гомоморфным шифрованием, позволяющим LLM выполнять вычисления над зашифрованными данными и возвращать зашифрованный ответ, который затем расшифровывается клиентом. На сегодняшний день ни одна коммерческая LLM не поддерживает HE из-за огромных вычислительных накладных расходов (сотни тысяч раз медленнее). Однако для изолированных случаев, например, при работе с моделями в защищённом окружении, эксперименты проводятся [5].
Выбор метода анонимизации зависит от трёх факторов: тип данных (структурированные или неструктурированные), требуемая полезность ответа (допустима ли потеря точности) и вычислительные ограничения. Для большинства бизнес-приложений с неструктурированным текстом (чат-боты, анализ обращений) оптимален комбинированный подход: NER-маскирование для явных сущностей + обобщение для числовых данных + синтетическая подстановка для редких идентификаторов. Для медицинских и финансовых данных, подпадающих под регулирование (152-ФЗ, HIPAA, GDPR), обязательно применение дифференциальной приватности с ε ≤ 1,0. Для сред с низким уровнем угрозы достаточно простого удаления явных имен и телефонов.
Анонимизация промптов является обязательным элементом безопасной работы со сторонними LLM для организаций, обрабатывающих персональные или конфиденциальные данные. Наиболее универсальным методом на текущий момент является NER-маскирование с использованием обученных моделей, дополненное обобщением. Дифференциальная приватность и гомоморфное шифрование — перспективные, но пока вычислительно затратные направления. Дальнейшие исследования должны быть направлены на создание гибридных систем, автоматически выбирающих метод анонимизации в зависимости от чувствительности контекста.
Список литературы:
- Zyryanova I. N., Chernavskiy A. S. Prompt injection — the problem of linguistic vulnerabilities of large language models at the present stage = Prompt injection — проблема лингвистических уязвимостей больших языковых моделей на современном этапе // Научные ведомости Белгородского государственного университета. Серия: Гуманитарные науки. — 2025. — Т. 50, № 3. — С. 112–124;
- Krohin A.S., Gusev M.M. Analysis of the impact of prompt obfuscation on the effectiveness of language models in detecting prompt injections // Программные системы и вычислительные методы. — 2025. — № 2. — С. 44–62;
- Щепеткина И.В., Шайдуров А.С. Искусственный интеллект и персональные данные: правовые аспекты обезличивания и деперсонализации данных в контексте развития технологий машинного обучения // Эффективный ответ на современные вызовы с учетом взаимодействия человека и природы, человека и технологий: материалы XVI Международной научно-технической конференции. — Екатеринбург: УГЛТУ, 2025. — С. 613–618;
- Приказ Роскомнадзора от 19.06.2025 № 140 «Об утверждении требований к обезличиванию персональных данных и методов обезличивания персональных данных»;
- Федеральный закон «О персональных данных» от 27.07.2006 № 152-ФЗ (ред. от 14.07.2022) // Собрание законодательства РФ. — 2006. — № 31. — Ст. 3451;
- Regulation (EU) 2016/679 of the European Parliament and of the Council of 27 April 2016 on the protection of natural persons with regard to the processing of personal data and on the free movement of such data, and repealing Directive 95/46/EC (General Data Protection Regulation) (Text with EEA relevance) // Official Journal of the European Union. — 2016. — L 119. — P. 1–88.

