Статья опубликована в рамках: Научного журнала «Студенческий» № 22(360)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал
АТАКИ НА ФОРМАТЫ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ КАК УГРОЗА АВТОМАТИЗИРОВАННОМУ АНАЛИЗУ ИНЦИДЕНТОВ НА ОСНОВЕ ЯЗЫКОВЫХ МОДЕЛЕЙ
ATTACKS ON ELECTRONIC DOCUMENT FORMATS AS A THREAT TO LLM-BASED AUTOMATED INCIDENT ANALYSIS
Golubev Grigory Denisovich
Student, Ural State University of Economics,
Russia, Yekaterinburg
АННОТАЦИЯ
Рассматривается класс атак на инструменты автоматического анализа электронных документов, основанный на несоответствии между визуально отображаемым и фактически обработанным содержимым файлов в формате Office Open XML (OOXML). Показано, что такие расхождения позволяют скрыть соответствующие артефакты от инструментов автоматического анализа, в том числе с использованием больших языковых моделей, или ввести вводящие в заблуждение данные и инструкции. Систематизированы основные методы сокрытия и манипулирования контентом, изучены связанные с этим риски и предложены контрмеры на этапе предварительной обработки документов.
ABSTRACT
The paper considers a class of attacks on tools for automated analysis of electronic documents, based on the discrepancy between the visually displayed and the actually processed content of Office Open XML (OOXML) files. It is shown that such discrepancies make it possible to hide relevant artifacts from automated analysis tools, including those based on large language models, or to inject misleading data and instructions. The main methods of content hiding and manipulation are systematized, the associated risks are examined, and countermeasures at the document preprocessing stage are proposed.
Ключевые слова: информационная безопасность; цифровая форензика; OOXML; уклонение от анализа; языковые модели; prompt injection; целостность данных.
Keywords: information security; digital forensics; OOXML; analysis evasion; language models; prompt injection; data integrity.
Современные системы анализа инцидентов все чаще включают модули для автоматической обработки электронных документов – отчетов, вложений электронной почты, офисных файлов и файлов конфигурации. Полнота и надежность анализа напрямую зависят от того, насколько точно инструмент извлечения содержимого воспроизводит данные, фактически присутствующие в файле. Формат Office Open XML (OOXML), лежащий в основе документов Microsoft Office (DOCX, XLSX, PPTX), представляет собой ZIP-архив, содержащий набор фрагментов XML, мультимедийных файлов и описания связей между ними [1].
Сложность и избыточность этой структуры приводят к возможности расхождений между тем, что пользователь видит при открытии документа в редакторе, и тем, что извлекает автоматический синтаксический анализатор.
Именно это несоответствие и представляет угрозу. Большинство инструментов автоматического анализа, включая конвейеры, основанные на больших языковых моделях, работают не с визуальным представлением документа, а с «необработанным текстом», извлеченным из фрагментов XML. Злоумышленник, понимающий разницу между логикой представления и логикой извлечения, может специально спроектировать документ таким образом, чтобы информация, относящаяся к исследованию, либо оставалась скрытой от автоматизированного инструмента, либо, наоборот, присутствовала только в извлекаемом слое и отсутствовала в визуальном представлении.
Методы отклонения содержания. Можно выделить несколько основных процедур:
– скрытый текст: атрибут w:vanish помечает фрагмент как скрытый – он присутствует в XML и извлекается анализатором, но не отображается при отображении по умолчанию; аналогичный эффект достигается при использовании цвета фона шрифта и нулевого размера шрифта;
– отслеживаемые изменения: механизм отслеживания изменений (w:ins, w:del) сохраняет как вставленный, так и удаленный текст – окончательная версия отображается визуально, в то время как в XML присутствуют обе версии, и удаленный фрагмент может содержать важную информацию;
– поля и заполнители: код поля и его отображаемое значение могут отличаться друг от друга, что позволяет показывать пользователю одно значение, сохраняя другое значение в инструкции поля;
– альтернативный контент: конструкция mc:AlternateContent задает основной и резервный варианты разметки, а разные процессоры выбирают разные ветви, что приводит к разной интерпретации одного и того же файла;
– посторонние и неиспользуемые части: содержимое может быть помещено в свойства документа, верхние и нижние колонтитулы, аннотации или в части архива, которые не связаны с основным документом посредством связей (отношений) – оно игнорируется при беглом просмотре, но извлекается анализатором;
– манипуляции с кодировкой: использование управляющих символов Юникода (включая те, которые меняют направление письма) и гомоглифов позволяет визуально исказить строку, сохраняя при этом другое значение в извлеченном слое.
Связь с атаками на языковые модели. Особую опасность представляют отклонения в содержании в системах, в которых извлеченный текст передается в языковую модель. Текст, скрытый или размещенный в невидимых областях, может содержать инструкции, направленные на получение контроля над поведением модели (внедрение инструкций через данные, prompt injection) [2, 3]. Аналитик, просматривающий документ, не видит вредоносной вставки, тогда как модель получает ее как часть входных данных и может изменить вывод – понизить оценку угрозы, проигнорировать показатели компрометации или сделать неверный вывод. Таким образом, атака на формат документа становится вектором атаки на сам процесс анализа.
Сопоставление основных техник и их следствий приведено в таблице 1.
Таблица 1.
Техники расхождения содержимого OOXML и их следствия
|
Техника |
Что видит аналитик |
Что извлекает парсер |
Риск |
|
Скрытый текст (w:vanish) |
— |
Скрытый фрагмент |
Сокрытие или внедрение данных |
|
Регистрируемые исправления (w:ins, w:del) |
Итоговую редакцию |
Удалённый и вставленный текст |
Утечка или сокрытие сведений |
|
Код поля (field code) |
Результат поля |
Инструкцию поля |
Подмена значения |
|
Альтернативное содержимое |
Основную ветвь разметки |
Резервную ветвь (Fallback) |
Неоднозначная интерпретация |
|
Посторонние части архива |
— |
Содержимое части |
Сокрытие данных |
Меры противодействия. Основной принцип защиты заключается в приведении анализируемого контента в единое, четко определенное представление перед передачей в аналитические модули [4]. Имеет смысл: нормализовать документ с явным извлечением и выделением скрытого текста, удаленных исправлений, кодов полей и всех частей архива; проверять наличие отклонений путем сопоставления отображаемого слоя (с помощью доверенного рендеринга) с извлеченным содержимым и сообщать о значительных различиях; обрабатывать извлеченный текст как ненадежные данные, а не инструкции, с защитой при передаче языковой модели; отказаться от обработки деталей и конструкций, которые не являются необходимыми для решаемой задачи.
Заключение. Несоответствие между отображаемым и фактически обработанным содержимым документов формата OOXML является самостоятельным фактором, препятствующим автоматизированному анализу, а в системах, использующих языковые модели, также фактором, способствующим внедрению вредоносных инструкций. Учет такого рода угроз на этапе предварительной обработки данных является необходимым условием надежности автоматизированного анализа инцидентов. Перспективным подходом является разработка стандартных правил для обнаружения аномалий в структуре документа и их интеграции в конвейеры обработки.
Список литературы:
- ECMA-376. Office Open XML File Formats. – 5th ed. – Geneva: Ecma International, 2016. – 5024 p.
- OWASP Top 10 for Large Language Model Applications [Электронный ресурс]. – URL: https://owasp.org/www-project-top-10-for-large-language-model-applications/ (дата обращения: 15.06.2026).
- Greshake K., Abdelnabi S., Mishra S., Endres C., Holz T., Fritz M. Not What You've Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection // Proceedings of the 16th ACM Workshop on Artificial Intelligence and Security (AISec '23). – New York: ACM, 2023. – P. 79–90.
- Garfinkel S.L. Digital forensics research: The next 10 years // Digital Investigation. – 2010. – Vol. 7. – P. S64–S73.

