Статья опубликована в рамках: Научного журнала «Студенческий» № 14(352)

Рубрика журнала: Информационные технологии

Библиографическое описание:

Шаймарданов И.Ф., Ибрагимов Р.Д. РАЗРАБОТКА МЕХАНИЗМА АВТОМАТИЧЕСКОГО ОБНАРУЖЕНИЯ ПЕРСОНАЛЬНЫХ ДАННЫХ В СИСТЕМЕ ДОКУМЕНТООБОРОТА // Студенческий: электрон. научн. журн. 2026. № 14(352). URL: https://sibac.info/journal/student/352/410826 (дата обращения: 26.07.2026).

РАЗРАБОТКА МЕХАНИЗМА АВТОМАТИЧЕСКОГО ОБНАРУЖЕНИЯ ПЕРСОНАЛЬНЫХ ДАННЫХ В СИСТЕМЕ ДОКУМЕНТООБОРОТА

Шаймарданов Ильнар Фаритович

студент, кафедра «Информационных технологий», Институт нефтепереработки и нефтехимии – филиал Уфимского государственного нефтяного технического университета в г. Салавате,

РФ, г. Салават

Ибрагимов Руслан Дамирович

ассистент, кафедра «Информационных технологий», Институт нефтепереработки и нефтехимии – филиал Уфимского государственного нефтяного технического университета в г. Салавате,

РФ, г. Салават

ANALYSIS OF PERSONAL DATA LEAKS RISKS IN DOCUMENT MANAGEMENT SYSTEMS BASED ON DOCUMENT CLASSIFICATION

Shaimardanov Ilnar Faritovich

Student, Department of Information Technologies, The Institute of Oil Refining and Petrochemistry is a branch of Ufa State Petroleum Technical University in Salavat.,

Russia, Salavat

Ibragimov Ruslan Damirovich

Assistant, Department of Information Technologies, The Institute of Oil Refining and Petrochemistry is a branch of Ufa State Petroleum Technical University in Salavat.,

Russia, Salavat

АННОТАЦИЯ

В работе рассматривается разработка механизма автоматического обнаружения персональных данных в документах систем электронного документооборота. Разработанный подход позволяет автоматически анализировать текстовые документы и выявлять наличие персональных данных. Предлагаемый механизм может быть использован для повышения уровня информационной безопасности и контроля обработки документов.

ABSTRACT

The paper discusses the development of a mechanism for automatically detecting personal data in electronic document management systems. The proposed approach allows for the automatic analysis of text documents and the detection of personal data. This mechanism can be used to enhance information security and control the processing of documents.

Ключевые слова: персональные данные; информационная безопасность; документооборот; классификация документов; регулярные выражения.

Keywords: personal data; information security; document management; document classification; regular expressions.

Согласно данным экспертно-аналитического центра InfoWatch, в последние годы наблюдается изменение характера утечек персональных данных, выражающееся в снижении количества инцидентов при одновременном росте их масштабов. В частности, за период 2023–2025 гг. в мире было скомпрометировано более 100 млрд записей персональных данных, из которых около 4,5 млрд приходится на Российскую Федерацию [1].

Рисунок 1. Количество утечек данных и скомпрометированных данных (2023-2025 гг.)

Представленная на рисунке динамика подтверждает указанную тенденцию: количество утечек данных сокращается, однако объем скомпрометированной информации остаётся значительным. Однако данное снижение не свидетельствует о снижении уровня угроз. Напротив, изменение структуры инцидентов, переход теневого рынка данных к закрытым моделям взаимодействия, а также рост доли целевых атак указывают на усложнение характера утечек. В этих условиях отдельные инциденты могут наносить значительно больший ущерб, чем ранее, что подтверждает сохранение высокой значимости задач защиты и контроля персональных данных в информационных системах.

После рассмотрения проблемы утечек персональных данных возникает задача не только их анализа, но и практического выявления в документах. Для этого в работе используется метод поиска персональных данных на основе регулярных выражений.

Суть метода заключается в том, что для каждого типа персональных данных задается свой шаблон, отражающий характерный формат их записи. Такой подход позволяет находить данные в тексте независимо от их расположения и структуры документа. При этом не требуется обучение моделей, что упрощает внедрение метода в существующие системы документооборота [2].

Анализ документа выполняется последовательно. Сначала из файла извлекается текстовое содержимое, после чего к нему применяется набор шаблонов. В результате выявляются фрагменты, содержащие персональные данные. На основе полученных данных формируется общее представление о документе и уровне его чувствительности.

Алгоритм работы можно представить следующим образом:

- загрузка и извлечение текста документа;

- применение шаблонов для поиска персональных данных;

- формирование структурированного результата анализа.

В рамках работы был сформирован набор шаблонов для поиска наиболее распространённых типов персональных данных. Примеры используемых шаблонов приведены ниже:

- ИНН: \b\d{10}(\d{2})?\b ;

- СНИЛС: \b\d{3}-\d{3}-\d{3} \d{2}\b ;

- номер телефона: \+7\s?\(?\d{3}\)?\s?\d{3}-?\d{2}-?\d{2} ;

- адрес электронной почты: [a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-z]{2,} ;

- ФИО: \b[А-ЯЁ][а-яё]+\s[А-ЯЁ][а-яё]+(\s[А-ЯЁ][а-яё]+)?\b .

Использование данных шаблонов позволяет находить персональные данные даже в случае различий в формате их записи.

На рисунке 2 представлен механизм работы разработанного программного решения для автоматического обнаружения персональных данных в документах. Входным элементом системы является документ, содержащий потенциальные персональные данные. Далее документ обрабатывается с использованием средств языка Python и встроенных библиотек для работы с текстом.

Рисунок 2. Механизм работы автоматического обнаружения

Обработка может выполняться как в рамках локального модуля, так и через механизм REST API, что обеспечивает возможность интеграции решения в существующие системы электронного документооборота. На выходе формируется структурированный результат анализа документа, включающий найденные персональные данные и их классификацию по типу, что позволяет использовать его для дальнейшей оценки уровня чувствительности информации.

Предложенный механизм обеспечивает снижение риска утечек персональных данных за счёт автоматического контроля содержания документов на этапе их обработки. Практическая значимость работы заключается в возможности применения разработанного решения в корпоративных системах электронного документооборота для повышения уровня информационной безопасности и предотвращения несанкционированного распространения чувствительной информации.

Список литературы:

Экспертно-аналитический центр InfoWatch. Утечки информации ограниченного доступа. Мир, 2023–2025 годы [Электронный ресурс]. – URL: https://www.infowatch.ru/company/presscenter/news/za-tri-goda-v-rossii-uteklo-4-5-mlrd-zapisey-personalnykh-dannykh (дата обращения: 09.04.2026).
Альмухаметова, Э. И. Актуальность и методы обезличивания персональных данных / Э. И. Альмухаметова, И. Ф. Шаймарданов // Передовые инженерные решения в нефтепереработке и нефтехимии – 2025 : материалы Всероссийской научно-практической конференции, Салават, 24–28 ноября 2025 года. – Салават: Уфимский государственный нефтяной технический университет, 2025. – С. 261-263. – EDN FFYPRO.