Статья опубликована в рамках: Научного журнала «Студенческий» № 21(359)

Рубрика журнала: Информационные технологии

Библиографическое описание:

Дуйшоналиева А.У. МЕТОДЫ ЗАЩИТЫ ПЕРСОНАЛЬНЫХ ДАННЫХ СОТРУДНИКОВ НА ОСНОВЕ DIFFERENTIAL PRIVACY // Студенческий: электрон. научн. журн. 2026. № 21(359). URL: https://sibac.info/journal/student/359/422003 (дата обращения: 25.07.2026).

МЕТОДЫ ЗАЩИТЫ ПЕРСОНАЛЬНЫХ ДАННЫХ СОТРУДНИКОВ НА ОСНОВЕ DIFFERENTIAL PRIVACY

Дуйшоналиева Айвика Улановна

магистрант, кафедра информационных технологий и естественных наук, Кыргызско-российская академия образования,

Кыргызстан, г. Бишкек

METHODS OF EMPLOYEE PERSONAL DATA PROTECTION BASED ON DIFFERENTIAL PRIVACY

Duishonalieva Aivika Ulanovna

Master's Student, Department of Information Technology and Natural Sciences, Kyrgyz-Russian Academy of Education,

Kyrgyz Republic, Bishkek

АННОТАЦИЯ

В статье рассматривается специфика применения концепции дифференциальной приватности (Differential Privacy, DP) для защиты баз данных кадрового учета. Проанализированы ограничения классических методов анонимизации при обработке чувствительной HR-информации. Систематизированы основные математические механизмы обеспечения конфиденциальности: механизм Лапласа, механизм Гаусса, экспоненциальный механизм и метод рандомизированного ответа в рамках локальной дифференциальной приватности (LDP). Для каждого метода определены оптимальные сценарии использования в корпоративной среде с учетом специфики HR-аналитики и машинного обучения.

ABSTRACT

The article examines the specifics of applying the concept of Differential Privacy (DP) to protect personnel record databases. The limitations of classical anonymization methods when processing sensitive HR information are analyzed. The main mathematical mechanisms for ensuring confidentiality are systematized: the Laplace mechanism, the Gaussian mechanism, the exponential mechanism, and the randomized response method within the framework of Local Differential Privacy (LDP). For each method, optimal use cases in a corporate environment are identified, taking into account the specifics of HR analytics and machine learning.

Ключевые слова: дифференциальная приватность, HR-аналитика, механизм Лапласа, механизм Гаусса, экспоненциальный механизм, локальная приватность, информационная безопасность.

Keywords: differential privacy, HR analytics, Laplace mechanism, Gaussian mechanism, exponential mechanism, local privacy, information security.

Введение

Современный тренд на использование HR-аналитики и систем искусственного интеллекта для управления человеческими ресурсами (Data-Driven HR) ставит перед организациями непростую задачу. Компании стремятся к глубокому анализу данных о своих сотрудниках, охватывая всё: от уровня их вовлеченности и склонности к выгоранию до биометрических показателей. Однако законодательные нормы (например, GDPR) и этические принципы требуют строгого соблюдения конфиденциальности личных данных.

Существующие методы защиты информации, включая маскирование, анонимизацию и k-анонимность, становятся всё менее эффективными. Применение техник, основанных на атаках по сторонним каналам (side-channel attacks) и сопоставлении с общедоступными источниками (такими как LinkedIn), позволяет злоумышленникам восстановить персональную информацию [4, с. 41].

Дифференциальная приватность (англ. differential privacy, DP) — строго математическая концепция, предназначенная для публикации статистической информации о наборах данных при одновременной защите приватности отдельных субъектов этих данных [1]. Применяется для того, чтобы держатель данных мог безопасно делиться агрегированными сведениями о группе, ограничивая при этом утечку информации о конкретных лицах [5]. Добиться этого позволяет введение в вычисления тщательно откалиброванного шума, который сохраняет полезность статистики, но доказуемо ограничивает возможность извлечения информации о любом конкретном участнике набора данных [6, с. 14].

Фундаментальная математическая модель

В основе строгой дифференциальной приватности (чистая ε-DP) лежит понятие смежных баз данных D₁ и D₂ отличающихся ровно на одну запись [1]. Алгоритм A обеспечивает защиту, если для любого подмножества результатов S выполняется условие:

Для применения к сложным алгоритмам (например, в машинном обучении) используется концепция приближенной дифференциальной приватности или ε, δ-DP [3]. В ней вводится параметр δ допускающий ничтожно малую вероятность нарушения строгой ε-приватности [5]:

Значение δ обычно выбирается меньше, чем 1/N, где N — количество сотрудников в базе [6, с. 22].

Архитектурные подходы к приватности

В зависимости от того, на каком этапе происходит защита данных сотрудников, методы DP делятся на два основных типа:

Централизованная DP:

[Данные сотрудников] ──> [Сырая база данных] ──> [Добавление шума] ──> [HR-аналитик]

Локальная DP:

[Данные сотрудников] ──> [Добавление шума] ──> [Агрегированная БД] ──> [HR-аналитик](3)

Централизованная модель (GDP): Сотрудники предоставляют точные сведения в единую базу данных (например, ERP или HRMS), которой они доверяют [4, с. 47]. Механизмы внесения шума применяются на этапе извлечения результатов для запросов. Преимущество: высокая точность аналитики, так как шум добавляется единожды к результату. Недостаток: база подвержена рискам внутренних угроз (например, администраторы БД).

Локальная модель (LDP): Шум вносится непосредственно на устройстве или в интерфейсе ввода данных сотрудника до отправки на корпоративный сервер [2]. Сервер получает уже искаженные, но статистически корректные в совокупности данные. Преимущество: максимальный уровень доверия персонала, так как компания не имеет доступа к индивидуальным ответам. Недостаток: требуется большой объем выборки для достоверности результатов [7, с. 112].

Ключевые математические механизмы Выбор конкретного механизма определяется типом обрабатываемых данных, размерностью и аналитической задачей.

1. Механизм Лапласа (Laplace Mechanism)

Используется для защиты ответов на непрерывные (числовые) скалярные запросы (среднее, сумма) [1]. Плотность распределения шума задается функцией:

Масштаб шума b зависит от L₁-чувствительности запроса () и бюджета приватности (ε) [5]:

Пример: Расчет средней зарплаты или бонусов по IT-отделу. Механизм Лапласа добавит ровно столько шума, чтобы уход топ-менеджера со сверхвысоким окладом нельзя было вычислить по изменению итоговой цифры.

2. Механизм Гаусса (Gaussian Mechanism)

Похож на механизм Лапласа, но генерирует шум из нормального распределения и опирается на L₂-чувствительность (Евклидову норму) [5]:

Применяется в сценариях ε, δ - DP при многомерных запросах и сложном анализе векторов данных [6, с. 54].

3. Экспоненциальный механизм (Exponential Mechanism)

Применяется для получения нечисловых(категориальных) ответов [5]. Оценивает этот механизм «полезность» u (x, r) каждого варианта ответа r и рандомным образом выбирает победителя с вероятностью:

Пример: Определение оптимального направления для корпоративного обучения. HR анализирует профили сотрудников (их грейд, текущие навыки, результаты оценки) с чтобы выбрать обучающий курс для всех на следующий квартал (варианты: «Python», «Soft Skills», «Управление проектами»).ЭМ выбирает курс максимально полезный большинству, но не позволит вычислить какие именно пробелы в навыках (низкие оценки компетенций) имеет конкретный сотрудник.

4. Метод рандомизированного ответа (Randomized Response)

Классический метод для локальной приватности (LDP), идеально подходящий для чувствительных опросов («Играете ли вы в игры на рабочем месте в ПК?» [2]). Метод работает по алгоритму «подбрасывания монетки»:

Сотрудник мысленно подбрасывает монетку.
Если выпал «орел», он отвечает честно.
Если «решка», подбрасывает второй раз и отвечает «Да» (при орле) или «Нет» (при решке).

Зная теорию вероятностей, сервер точно вычисляет долю ответивших «Да» по всей компании, но для конкретного лица сохраняется правдоподобное отрицание [7, с. 115].

Дифференциальная приватность в машинном обучении (DP-SGD) DP-SGD (Differential Private Stochastic Gradient Descent) — алгоритм, который применяется при работе с нейросетями HR-отделом (например, для предсказания увольнений) для устранения, сохранения и дальнейшей обработки уникальных персональных данных сотрудников [3]. Градиенты, полученные от данных конкретных лиц, принудительно клиппируются (ограничиваются по масштабу), а на каждом шаге к ним добавляется гауссовский шум [4, с. 44]. На выходе компания получает прогнозную модель со знаниями общих закономерностей, но без скрытых личных данных.

Архитектура внедрения DP в HR-процессы

Для интеграции дифференциальной приватности рекомендуется следовать модульной схеме [4, с. 49]:

Слой сбора данных: Опросы, логи из мессенджеров, данные СКУД. Здесь определяется тип защиты (LDP или GDP).
Менеджер бюджета приватности: ПО, отслеживающее расход параметра ε. Когда лимит исчерпан, доступ к базе блокируется для предотвращения атак накоплением запросов.
Слой трансформации: Применение библиотек автоматизации (Google DP, Opacus, IBM Diffprivlib), рассчитывающих чувствительность и накладывающих шум.
Слой аналитики: BI-системы (PowerBI) и дашборды, получающие очищенные и безопасные метрики.

Принципы применения различных механизмов сведены в таблицу 1.

Таблица 1.

Применимость механизмов DP к корпоративным данным

Механизм	Тип защищаемых данных	Архитектура доверия	Типичный HR-сценарий
Механизм Лапласа	Непрерывные числовые (скалярные)	Доверенный сервер	Расчет средних зарплат, единичных KPI
Механизм Гаусса	Многомерные векторы, градиенты	Доверенный сервер	Обучение ИИ-моделей (Churn), кластеризация профилей
Экспоненциаль-ный	Категориальные (текст)	Доверенный сервер	Выбор популярных льгот, профилирование должностей
Локальная DP (LDP)	Бинарные и категориальные	Нулевое доверие к серверу	Пульс-опросы, анонимные жалобы, мониторинг рабочих станций

Методы защиты на основе Differential Privacy переводят безопасность персональных данных сотрудников из юридической плоскости (согласия, регламенты) в плоскость строгого математического контроля. Обеспечение конфиденциальности не должно являться препятствием для развития HR-аналитики.

Использование механизмов Лапласа, Гаусса и рандомизированных ответов позволяет HR-директорам крупных корпораций находить идеальный компромисс: извлекать ценные инсайты для оптимизации бизнес-процессов и одновременно гарантировать сотрудникам абсолютную цифровую безопасность. В случаях сбора высокочувствительных социологических метрик рекомендуется внедрение протоколов LDP, исключающих необходимость доверия к центральному хранилищу [2]

Список литературы:

Дифференциальная приватность // Рувики. – Режим доступа: [Рувики: Дифференциальная приватность](https://ru.ruwiki.ru/wiki/Дифференциальная_приватность) (дата обращения: 02.06.2026).
Локальная дифференциальная приватность // Рувики. – Режим доступа: [Рувики: Локальная дифференциальная приватность](https://ru.ruwiki.ru/wiki/Локальная_дифференциальная_приватность) (дата обращения: 02.06.2026).
Дифференциальная приватность в машинном обучении // Хабр. – 2024. – Режим доступа: Статья на Хабре (дата обращения: 03.06.2026).
Запечников С. В., Щербаков А. Ю. Конфиденциальное машинное обучение на основе безопасных вычислений // Безопасность информационных технологий. – 2021. – Т. 28, № 4. – С. 39–51.
Дворк К., Рот А. Алгоритмические основы дифференциальной приватности / пер. с англ. – М.: КноРус, 2022. – 340 с. (Фундаментальный мировой учебник Синтии Дворк — создательницы концепции DP).
Баранов А. В. Математические методы обеспечения конфиденциальности больших данных: учебное пособие / А. В. Баранов. – СПб.: Наука, 2023. – 186 с. (Новое учебное пособие по механизмам Лапласа, Гаусса и расчету бюджетов приватности).
Громов Ю. И., Сидоров С. А. Локальная приватность данных и методы рандомизированного ответа в корпоративных системах // Вопросы кибербезопасности. – 2024. – № 2 (54). – С. 110–118. (Отечественная публикация, детально описывающая LDP и опросы сотрудников).