Статья опубликована в рамках: Научного журнала «Студенческий» № 19(357)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал
ЗАЩИТА ПЕРСОНАЛЬНЫХ ДАННЫХ В УСЛОВИЯХ РАЗВИТИЯ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ
PROTECTING PERSONAL DATA IN THE CONTEXT OF BIG LANGUAGE MODELS
Cherepanov Ilya Evgenevich
Student, Department of Business Informatics, Ural State University of Economics,
Russia, Yekaterinburg
Nazarov Dmitry Mikhailovich
Scientific Supervisor, Doctor of Economics, Associate Professor, Ural State University of Economics,
Russia, Yekaterinburg
АННОТАЦИЯ
В статье рассматриваются правовые и технические аспекты защиты персональных данных при использовании больших языковых моделей (LLM). Анализируются основные риски: запоминание данных в процессе обучения, утечки через промпт-инъекции, недостаточная анонимизация запросов. Предлагается классификация мер защиты: организационные (соответствие 152-ФЗ и GDPR), технические (дифференциальная приватность, фильтрация выходов, санитизация входов). Приводятся рекомендации по внедрению защитных механизмов в организациях-операторах.
ABSTRACT
The article discusses the legal and technical aspects of protecting personal data when using large language models (LLM). The main risks are analyzed: memorization of data during training, leakage through prompt injections, and insufficient anonymization of requests. A classification of protection measures is proposed: organizational (compliance with 152-FZ and GDPR), and technical (differential privacy, output filtering, and input sanitization). Recommendations for implementing protective mechanisms in operator organizations are provided.
Ключевые слова: защита персональных данных, большие языковые модели, LLM, 152-ФЗ, GDPR, анонимизация, дифференциальная приватность, промпт-инъекции.
Keywords: personal data protection, large language models, LLM, 152-FZ, GDPR, anonymization, differential privacy, and prompt injections.
Большие языковые модели (LLM), такие как GPT, Deepseek, GigaChat и другие, активно внедряются в корпоративные и государственные информационные системы. Однако их использование сопряжено с серьезными рисками для конфиденциальности персональных данных (ПД). Модели могут непреднамеренно запоминать и воспроизводить личную информацию, содержащуюся в обучающих выборках, а также раскрывать ПД, переданные пользователями в промптах. При этом действующее законодательство 152-ФЗ [4], GDPR [5] требует от операторов принятия исчерпывающих мер по защите ПД. Целью настоящей работы является анализ основных угроз персональным данным при использовании LLM, систематизация методов защиты и выработка рекомендаций по их практической реализации с учетом российских и международных нормативных требований.
Основные риски для персональных данных при работе с LLM. Первый тип риска — запоминание данных в процессе обучения. Исследования показывают, что LLM способны запоминать отдельные примеры из обучающей выборки, включая имена, адреса, номера телефонов, и выдавать их при определенных запросах [1]. Второй тип — утечка через промпт-инъекции. Злоумышленник, внедряя специальные инструкции в пользовательский ввод, может заставить модель раскрыть системные инструкции, которые часто содержат конфиденциальные сведения [2]. Третий тип — недостаточная анонимизация запросов. Передавая в облачную LLM текст с ПД (например, «клиент Иванов, паспорт 45 08 123456»), оператор фактически передает эти данные третьей стороне, что без согласия субъекта нарушает ст. 6 152-ФЗ [4] и принципы GDPR [5].
Методы защиты персональных данных. Все методы делятся на организационные и технические. Организационные включают: проведение оценки воздействия на защиту данных (DPIA), заключение договоров с провайдерами LLM, предусматривающих отказ от логирования и хранения запросов, назначение ответственных за обработку ПД.
Ниже представлены технические методы по защите персональных данных в LLM:
- анонимизация входных промптов. Выполняется с помощью NER-маскирования (замена именованных сущностей на псевдонимы), обобщения (преобразование точных чисел в диапазоны) или синтетической подстановки. Согласно приказу Роскомнадзора №140 [3], обезличивание должно быть необратимым с использованием аттестованных методов;
- дифференциальная приватность (DP) при обучении или дообучении модели. Добавление контролируемого шума гарантирует, что присутствие или отсутствие конкретной записи в обучающем наборе не может быть выявлено. Данный метод рекомендуется для медицинских и биометрических ПД;
- фильтрация выходных данных. На основе регулярных выражений или легковесных моделей классификации ответ LLM проверяется на наличие ПД (номера паспортов, СНИЛС, адреса) и блокируется при обнаружении. Дополнительно применяется эвристический анализ: если модель пытается «уйти» в несанкционированный контекст, ответ отбрасывается.
- логирование и аудит. Все запросы к LLM и полученные ответы должны логироваться в зашифрованном виде с ограниченным доступом. Логи используются для расследования инцидентов и проверки эффективности анонимизации.
Практические рекомендации по соответствию законодательству. Для организаций, использующих сторонние LLM (через API), обязательно выполнение следующих шагов:
- провести юридическую экспертизу: не происходит ли трансграничная передача ПД (если LLM зарегистрирована за рубежом). В случае трансграничной передачи требуется уведомление Роскомнадзора согласно ст. 12 152-ФЗ;
- в договоре с провайдером LLM закрепить обязательство не использовать полученные данные для обучения модели, не логировать промпты, удалять их после обработки;
- для обработки ПД с использованием LLM получить согласие субъекта в письменной форме (ст. 9 152-ФЗ) с указанием конкретных целей и способов обработки;
- внедрить метод анонимизации, рекомендованный приказом №140, с периодической верификацией эффективности.
Для организаций, разрабатывающих собственные LLM (on-premise), дополнительно необходимо:
- при обучении модели использовать дифференциальную приватность (ε ≤ 1.0) для снижения риска меморизации;
- проводить тестирование модели на устойчивость к атакам извлечения данных (data extraction attacks) с помощью инструментов типа garak;
- размещать модель в защищенном контуре без доступа к сети общего пользования.
Развитие LLM создает новые вызовы для защиты персональных данных, но также предоставляет инструменты для автоматизации анонимизации и контроля. Ключевыми мерами являются: обязательное обезличивание ПД на этапе входа в LLM (в соответствии с приказом №140), фильтрация выходов, соблюдение требований 152-ФЗ и GDPR. Дальнейшие исследования должны быть направлены на создание универсальных гибридных систем защиты, сочетающих DP, NER-маскирование и формальную верификацию промптов. Организациям рекомендуется начинать с наименее рискованных сценариев (анализ обезличенных данных) и постепенно внедрять более строгие меры по мере накопления опыта.
Список литературы:
- Krohin A. S., Gusev M. M. Analysis of the impact of prompt obfuscation on the effectiveness of language models in detecting prompt injections // Программные системы и вычислительные методы. — 2025. — № 2. — С. 44–62.
- Zyryanova I. N., Chernavskiy A. S. Prompt injection — the problem of linguistic vulnerabilities of large language models at the present stage // Научные ведомости Белгородского государственного университета. Серия: Гуманитарные науки. — 2025. — Т. 50, № 3. — С. 112–124.
- Приказ Роскомнадзора от 19.06.2025 № 140 «Об утверждении требований к обезличиванию персональных данных и методов обезличивания персональных данных» // Официальный интернет-портал правовой информации. — URL: http://publication.pravo.gov.ru (дата обращения: 17.05.2026).
- Федеральный закон от 27.07.2006 № 152-ФЗ «О персональных данных» (ред. от 14.07.2022) // Собрание законодательства РФ. — 2006. — № 31. — Ст. 3451.
- Regulation (EU) 2016/679 of the European Parliament and of the Council of 27 April 2016 on the protection of natural persons with regard to the processing of personal data and on the free movement of such data, and repealing Directive 95/46/EC (General Data Protection Regulation) (Text with EEA relevance) // Official Journal of the European Union. — 2016. — L 119. — P. 1–88.

