Поздравляем с 1 мая!
   
Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: Научного журнала «Студенческий» № 14(268)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6

Библиографическое описание:
Дюсов М.А. МЕТОДЫ ГЕНЕРАЦИИ СИНТЕТИЧЕСКИХ ДОКУМЕНТОВ, ВКЛЮЧАЮЩИХ ПЕРСОНАЛЬНЫЕ ДАННЫЕ // Студенческий: электрон. научн. журн. 2024. № 14(268). URL: https://sibac.info/journal/student/268/325271 (дата обращения: 30.04.2024).

МЕТОДЫ ГЕНЕРАЦИИ СИНТЕТИЧЕСКИХ ДОКУМЕНТОВ, ВКЛЮЧАЮЩИХ ПЕРСОНАЛЬНЫЕ ДАННЫЕ

Дюсов Михаил Андреевич

магистрант, кафедра программного обеспечения ЭВМ и информационных технологий, Московский государственный технический университет им. Н.Э. Баумана,

РФ, г. Москва

АННОТАЦИЯ

Ключевым моментом в реализации систем искусственного интеллекта является обучение, для которого необходим набор данных, получить которые в целях обучения сложно или даже незаконно. Одним из решений проблемы выступила генерация синтетических данных. В данной статье рассмотрены виды последних. Произведен критический анализ существующих методов генерации синтетических данных: с использованием стохастических моделей, на основе правил, с помощью генеративно-состязательных сетей. Рассмотрены их преимущества и недостатки, а также определены критерии сравнения. На их основе была создана классификация. Сделан вывод о том, что при создании документов с персональными данными предпочтительно использовать метод генерации синтетических данных с использованием генеративно-состязательных сетей, так как он обеспечивает наилучшие показатели информативности и конфиденциальности.

 

Ключевые слова: синтетические данные, генерация документов, персональные данные, дифференциальная приватность, искусственный интеллект, генеративно-состязательные сети.

 

Введение

В настоящее время невозможно представить мир без искусственного интеллекта, нейросетей и машинного обучения – в последние годы такие системы стали активно развиваться, проникая в различные сферы жизни человека. Ключевым моментом в реализации систем искусственного интеллекта является обучение [1]. Без правильно настроенных весов нейронов нейросеть подобна простой связке контейнеров, которая не способна решать практические задачи. Для обучения необходим набор данных. Однако получить и использовать их третьим лицам в целях обучения сложно или даже незаконно. Многие страны мира ввели специальные законы, которые во многом ограничивают использование персональных данных. Так, в конце апреля 2020 года в России был принят 123-ФЗ, в соответствии с которым устанавливается экспериментальный режим для компаний, разрабатывающих и применяющих технологии ИИ [2]. Конфиденциальные данные могут содержаться во многих документах: от обычного паспорта гражданина Российской Федерации до медицинских карт, где присутствуют сведения, составляющие врачебную тайну [3].

Одним из решений проблемы выступила генерация синтетических данных, которые представляют собой конфиденциальную информацию о человеке. На основе таких данных возможна генерация так называемых «синтетических» документов, содержащих персональные данные. Генерация синтетических данных является альтернативным методом «обезличивания» данных. Данные генерируются случайным образом с ограничениями, позволяющими скрыть конфиденциальную информацию и сохранить определенную статистическую информацию или связи между атрибутами в исходных данных. Такие данные можно использовать для обучения систем, которые затем будут эффективно работать и на реальных данных [4].

За последние пару лет было разработано множество различных методов генерации синтетических данных, которые можно использовать для создания искусственных документов, содержащих персональные данные. Поэтому существует потребность в создании некоторой классификации таких методов, определении их преимуществ и недостатков, а также выводе об области применения.

Виды синтетических данных

Синтетические данные в целом делятся на три категории [5]:

  • полностью синтетические данные;
  • частично синтетические данные;
  • гибридные синтетические данные.

Искусственные данные первой категории сохраняют статистические свойства реальных данных и фактически заменяют их. Генераторы полностью синтетических данных определяют функции плотности атрибутов в исходных данных и оценивают параметры этих функций плотности. Затем для каждого атрибута генерируются защищенные от несанкционированного доступа ряды путем случайной выборки значений из оцененных функций плотности.

В отличие от полностью синтетических данных, метод, используемый для генерации частично синтетических данных, заменяет искусственными значениями только значения выбранного атрибута. Однако это происходит только в том случае, если информация имеет высокий риск нарушения конфиденциальности. Такая маскировка предотвращает повторную идентификацию, тем самым сохраняя конфиденциальность данных.

Гибридные синтетические данные формируются на основе исходных и синтетических данных. Для каждой записи реальных данных выбирается ближайшая запись в синтетических, и они объединяются в так называемые гибридные данные. Они обладают преимуществами как полностью, так и частично синтетических данных. Таким образом, они обеспечивают сохранение конфиденциальности и высокую полезность, но при этом требуют большего объема памяти и времени обработки.

Генерация синтетических данных на основе стохастических моделей

В основе генерации с помощью стохастических моделей лежит создание случайных значений на основе определенных статистических закономерностей [6]. Если структура желаемых синтетических данных известна, а распределение данных не имеет значения, то стохастический процесс является идеальным методом генерации синтетических данных. Например, синтетический набор данных должен иметь вид CSV-файла с определенным количеством столбцов и строк. Генератор случайных чисел может быть использован для заполнения полей в соответствии с заданным распределением.

Существует несколько методов генерации синтетических данных на основе стохастических моделей. Вот некоторые из них:

  1. Модель Гаусса: этот метод основан на предположении, что данные имеют нормальное распределение [7]. Гауссовская модель определяет параметры распределения, такие как среднее и стандартное отклонение, и генерирует данные, соответствующие этому распределению. Но обычно используют смесь Гауссовских моделей, выбирая распределение случайным образом и затем генерируя значения из выбранного распределения.
  2. Симуляция Марковских цепей (Markov Chain Monte Carlo, MCMC): это метод, который позволяет сгенерировать выборку из сложного распределения путем пошагового перемещения по пространству состояний с использованием случайных переходов [8]. Данный метод часто применяется в статистике и машинном обучении для оценки параметров моделей.
  3. Стохастические дифференциальные уравнения (Stochastic Differential Equations, SDE): этот метод используются для моделирования динамических систем с учетом случайных воздействий [9]. Они могут быть использованы для генерации временных рядов и других стохастических данных.

Применимость такой группы методов ограничена случаями, когда содержание синтетических данных не имеет значения и вместо реальных данных достаточно случайного «шума». При этом генерация на основе стохастических моделей не требует много вычислительных ресурсов. Очевидным недостатком является тот факт, что получаемые данные носят случайный характер и слабо отражают реальную информацию.

Генерация синтетических данных на основе правил

Метод генерации на основе правил основан на предопределенных правилах и шаблонах для генерации синтетических данных. В данном случае персональные данные могут быть добавлены в правила или шаблоны, и алгоритмы могут быть использованы для генерации новых документов с персональными данными на основе этих шаблонов [10]. Сложность этих правил и шаблонов может варьироваться от очень простых, учитывающих только желаемый тип данных в столбце (например, содержит ли столбец числовые, категориальные или текстовые данные), до более сложных, определяющих взаимосвязи между различными столбцами и событиями. Таким образом, объем необходимых человеческих усилий и знаний, а также информация, содержащаяся в генерируемых данных, полностью зависят от заданных правил. Однако данный метод сопряжен с несколькими проблемами:

  1. Масштабируемость - наборы данных, содержащие множество различных взаимозависимых столбцов в многотабличной конфигурации, могут требовать сотни сложных и взаимосвязанных правил. Добавлять дополнительные правила становится все сложнее, что практически ограничивает максимальную сложность моделируемых данных.
  2. Предвзятость - поскольку правила определяются человеческими экспертами, их предвзятость отражается в правилах и, следовательно, присутствует в генерируемых данных. Некоторые столбцы таблицы могут отражать четко определенную бизнес-логику, где предвзятость является частью согласованной политики, в то время как другие (например, история болезни) могут быть более подвержены неосознанной предвзятости человека.
  3. Дрейф - реальные данные постоянно меняются, поэтому правила необходимо изменять, чтобы отразить эти изменения. Сложные системы, основанные на правилах, нуждаются в эффективном управлении изменениями.

Однако при успешном решении этих задач система на основе правил может быть достаточно хорошим выбором для тестирования в приложениях, начиная от генерации табличных данных и заканчивая мультимедийным контентом.

Генерация синтетических данных с использованием генеративно-состязательных сетей

Альтернативным методов генерации синтетических документов можно считать генерацию с использованием генеративно-состязательных сетей (GAN). GAN – это метод машинного обучения, построенный на комбинации двух нейронных сетей: генератора и дискриминатора. Генератор создает синтетические данные для документов, а дискриминатор оценивает, насколько они похожи на реальные [4; 11]. Здесь персональные данные могут быть включены в процесс обучения и генерации для создания новых документов с синтетическими персональными данными. Такая генерация не дает строгих гарантий конфиденциальности, но существуют модификации данного подхода, где изменена процедура обучения дискриминатора таким образом, чтобы она была приватной. Одним из примеров модифицированного метода генерации синтетических данных с использованием генеративно-состязательных сетей может служить модификация под названием PATE-GAN, которая использует механизм Private Aggregation of Teacher Ensembles (PATE), который гарантирует конфиденциальность сгенерированных данных [12]. Данный метод предлагает схему модификации GAN-фреймворка для обеспечения дифференциальной приватности, также опираясь на теорему PostProcessing для изменения задачи обучения дифференциально приватного генератора на обучение дифференциально приватного дискриминатора. В этом методе используется методика, которая обеспечивает дифференциально частный механизм обучения глубоких сетей.

Дифференциальная приватность — совокупность методов, которые обеспечивают максимально точные запросы в статистическую базу данных при одновременной минимизации возможности идентификации отдельных записей в ней. Она позволяет создать синтетический набор данных, который статистически соответствует реальным данным, но при этом не содержит никаких прямых идентифицирующих сведений [13].

Одним из примеров использования такого подхода к сокрытию приватной информации может служить PRIVATE-GSD (Private Graph Structured Data) - технология, разработанная для обработки и анализа структурированных данных с соблюдением принципов конфиденциальности и защиты личной информации [14]. Одной из ее главных особенностей является то, что она позволяет выполнить операции анализа данных непосредственно на зашифрованных данных, таким образом, сохраняя полную конфиденциальность персональной информации. Основной принцип PRIVATE-GSD заключается в том, что процесс обработки данных полностью контролируется их владельцем, который имеет возможность определять и управлять параметрами анализа и доступом к информации. Таким образом, PRIVATE-GSD обеспечивает уровень безопасности и приватности, соответствующий современным стандартам и требованиям.

При этом область применения генерации синтетических данных с использованием генеративно-состязательных сетей не ограничена какой-то предметной областью. Так, существует модификация под названием Correlationcapturing Generative Adversarial Network (CorGAN). В данном подходе используются свёрточные нейронные сети для захвата корреляций между соседними медицинскими признаками в пространстве представления данных, комбинируя свёрточные генеративные сети и автоматические энкодеры [4; 15; 16]. Также генеративно-состязательные сети используются для генерации изображений документов, содержащих персональные данные. В дополнение к такой генерации часто используют методы компьютерного зрения для определения текста на картинке [17]. Существующие работы показывают высокую эффективность (даже для таких сложных языков, как китайский), позволяя создавать синтетические фотографии документов и медицинских карт, при этом сохраняя анонимность [18; 19].

Однако синтез данных с использованием генеративно-состязательных сетей является наиболее сложным из всех описанных ранее методов, поскольку содержит множество сложных подкомпонентов. При этом такой метод способен генерировать синтетические данные с высокой степенью сходства с обучающими данными.

Определение критериев классификации и сравнения методов генерации синтетических документов, включающих персональные данные

Для классификации рассмотренных ранее методов были выделены следующие критерии:

  1. Вычислительные мощности: сколько вычислительных мощностей требуется для генерации данных или построения модели.
  2. Человеческий труд: сколько человеческого опыта и труда уходит на процесс генерации данных.
  3. Сложность системы: насколько сложно построить такую систему генерации данных.
  4. Информативность: сколько информации содержится в синтетических данных.
  5. Конфиденциальность: насколько сгенерированные данные сохраняют приватность информации.

    Для удобства шкала для каждого критерия классификации была преобразована числовой вид. Градация выбрана от 1 до 5, при этом:

  • Для критериев «Вычислительные мощности», «Человеческий труд» и «Сложность системы» лучшим значением является 1;
  • Для критериев «Информативность» и «Конфиденциальность» лучшим значением является 5.

Результаты проведенной классификации рассматриваемых методов описаны в таблице 1.

Таблица 1.

Классификация методов генерации синтетических данных

 

Стохастические модели

На основе правил

Генеративно-состязательные сети

Вычислительные мощности

1

2

5

Человеческий труд

1

5

2

Сложность системы

1

3

4

Информативность

1

3

5

Конфиденциальность

1

2

5

 

Заключение

Проведён обзор методов генерации синтетических документов, включающих персональные данные: с использованием стохастических моделей, на основе правил, с помощью генеративно-состязательных сетей. Итог обзора отражён в классификации, представленная в таблице 1. Из неё становится очевидно, что наиболее эффективным с точки зрения «информативности» полученных синтетических документов, включающих персональные данные, является группа методов, использующих генеративно-состязательные сети. Однако методы из данной группы довольно требовательны к вычислительной мощности, которая задействуется при создании синтетических данных, а также к общей сложности системы в целом. Подобный подход целесообразно использовать в случаях, когда синтетические данные на выходе должны как можно точнее отражать реальные данные, при этом сохраняя высокую конфиденциальность персональной информации.

Методы, использующие стохатические модели, менее требовательные как к вычислительным ресурсам, так и к человеческим. Однако точность и «информативность» сгенерированных искусственных данных будет уступать. Такого рода методы целесообразно использовать для стресс-тестирования некоторых систем, где нет острой необходимости в том, чтобы сгенерированные данные были максимально близки к реальным.

Генерация синтетических документов, включающих персональные данные, методами на основе правил обладает преимуществами как в скорости генерации, так и в «информативности» полученных данных. Однако правила необходимо писать вручную, и при сложно структурированной системе это может оказаться решающим фактором. Поэтому если есть возможность улучшить вычислительные мощности, целесообразнее использовать генерацию на основе генеративно-состязательных сетей.

 

Список литературы:

  1. Жуков А.В., Жилина Е.В. Модели и алгоритмы генерации синтетических наборов данных для ML // Информатизация в цифровой экономике. – 2021. – Том 2. – № 3. – С. 95-102.
  2. Федеральный закон от 24.04.2020 № 123-ФЗ «О проведении эксперимента по установлению специального регулирования в целях создания необходимых условий для разработки и внедрения технологий искусственного интеллекта в субъекте Российской Федерации - городе федерального значения Москве и внесении изменений в статьи 6 и 10 Федерального закона "О персональных данных"» // Собрание законодательства РФ. – 2020. – № 17.
  3. Dahmen J., Cook D. SynSys: A synthetic data generation system for healthcare applications // Sensors. – 2019. – Т. 19. – №. 5. – С. 1181.
  4. Ramos, L., Subramanyam, J. Maverick Research: Forget About Your Real Data – Synthetic Data Is the Future of Ai. [электронный ресурс] — Режим доступа. — URL: https://blogs.nvidia.com/blog/2021/06/08/what-is-synthetic-data/ (дата обращения: 01.12.2023)
  5. Рабчевский, А. Н. Синтетические данные и развитие нейросетевых технологий : учебное пособие для вузов / А. Н. Рабчевский. — Москва : Издательство Юрайт, 2023. — 187 с.
  6. Lu Y., Wang H., Wei W. Machine Learning for Synthetic Data Generation: a Review // arXiv preprint arXiv:2302.04062. – 2023.
  7. Gaussian mixture models. – [электронный ресурс] — Режим доступа. — URL: https://scikit-learn.org/stable/modules/mixture.html (дата обращения: 01.12.2023)
  8. Andrieu, C., de Freitas, N., Doucet, A. et al. An Introduction to MCMC for Machine Learning. // Kluwer Academic Publishers. - 2003.
  9. Øksendal, B. Stochastic Differential Equations: An Introduction with Applications. // Springer Berlin Heidelberg. - 2010.
  10. Platzer M., Krchova I. Rule-adhering synthetic data--the lingua franca of learning // arXiv preprint arXiv:2209.06679. – 2022.
  11. Фостер Д. Генеративное глубокое обучение. Творческий потенциал нейронных сетей // СПб : Питер, 2020. – 336 с.
  12. Jordon J., Yoon J., Van Der Schaar M. PATE-GAN: Generating synthetic data with differential privacy guarantees // International conference on learning representations. - 2018.
  13. Differentially Private Synthetic Data. [электронный ресурс] — Режим доступа. — URL: https://www.nist.gov/blogs/cybersecurity-insights/differentially-private-synthetic-data (дата обращения: 01.12.2023)
  14. Liu T. et al. Generating private synthetic data with genetic algorithms // International Conference on Machine Learning. – PMLR, 2023. – С. 22009-22027.
  15. Torfi A., Fox E. A. CorGAN: correlation-capturing convolutional generative adversarial networks for generating synthetic healthcare records // arXiv preprint arXiv:2001.09346. – 2020.
  16. Ishfaq H., Hoogi A., Rubin D. TVAE: Triplet-based variational autoencoder using metric learning // arXiv preprint arXiv:1802.04403. – 2018.
  17. Ren X., Chen K., Sun J. A CNN based scene Chinese text recognition algorithm with synthetic data engine // arXiv preprint arXiv:1604.01891. – 2016.
  18. Simard, P. Best practices for convolutional neural networks applied to visual document analysis / P. Simard, D. Steinkraus, J. Platt // Seventh International Conference on Document Analysis and Recognition, 2003. Proceedings. — 2003. — P. 958—963.
  19. Беляева О.В., Перминов А.И., Козлов И.С. Использование синтетических данных для тонкой настройки моделей сегментации документов // Труды ИСП РАН. - 2020. - Том 32. - №4. - С. 189–202.
Удалить статью(вывести сообщение вместо статьи): 

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.