Статья опубликована в рамках: CXLIX Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 12 мая 2025 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
РАЗРАБОТКА МЕТОДА ОБНАРУЖЕНИЯ СОСТЯЗАТЕЛЬНЫХ АТАК НА НЕЙРОСЕТИ
DEVELOPMENT OF METHOD FOR DETECTING ADVERSARIAL ATTACKS ON NEURAL NETWORKS
Kirill Getmanskiy
student, Department of Automation for Scientific Research, Moscow State University,
Russia, Moscow
Alexey Shishkin
scientific supervisor, doctor of Sciences in Physical and Mathematical Sciences, professor, Moscow State University,
Russia, Moscow
АННОТАЦИЯ
Данная статья посвящена решению задачи обнаружения состязательных атак не нейронные сети. В работе разработан комбинированный метод обнаружения, основанный на анализе промежуточных активаций нейронной сети и оценке неопределенности модели. Предложенный подход сочетает два ключевых метода: вычисление локальной внутренней размерности (ЛВР) для измерения сложности представлений признаков и оценку байесовской неопределенности в нейросетях с дропаут-слоями. Эксперименты проводились на наборах данных MNIST, CIFAR-10 и аудиоданных EMODB. Полученные результаты показали, что состязательные примеры характеризуются более высоким значением ЛВР и неопределенности модели по сравнению с натуральными данными. Разработанный комбинированный метод обнаружения, использующий классификатор на основе случайного леса, достиг точности 96% в классификации примеров на натуральные и состязательные.
ABSTRACT
This study addresses the challenge of detecting adversarial attacks on neural networks. The work focuses on developing a robust detection method by analyzing intermediate layer activations and model uncertainty. The proposed approach combines two key techniques: evaluation of local intrinsic dimensionality (LID) to measure the complexity of feature representation, and assessment of Bayesian uncertainty in neural networks with dropout layers. Experiments were conducted on MNIST and CIFAR-10 datasets, and audio data EMODB. The results demonstrate that adversarial example exhibit higher LID values and model uncertainty compared to natural samples. The developed combined detection method, employing a Random Forest classifier, achieved 96% accuracy in distinguishing adversarial inputs from natural.
Ключевые слова: состязательные атаки, нейронные сети, локальная внутренняя размерность, неопределенность байесовской нейронной сети.
Keywords: adversarial attacks, neural networks, local intrinsic dimensionality, Bayesian neural network uncertainty.
Глубокие нейронные сети приобрели значительную популярность и демонстрируют высокую эффективность при решении разнообразных задач машинного обучения. Они нашли успешное применение в различных задачах распознавания, таких как обработка изображений, анализ графов, обработка текста и распознавание речи. Благодаря этим достижениям методы глубокого обучения применяются в задачах с повышенным требованиям к безопасности.
В последние годы различные исследования продемонстрировали уязвимость моделей глубокого обучения к состязательным атакам. Состязательные атаки – это специальные взаимодействия с нейронными сетями, при которых происходит целенаправленное искажение входных данных таким образом, что модель выдает неверный результат. Атаки производятся посредством состязательных примеров, незначительно отличающихся от оригинальных данных. Различия между состязательными примерами настолько незначительны, что оказываются непримечательны для человеческого восприятия.
Пусть – это изображение из оригинального набора данных, где
– размерность изображения,
– количество каналов. Пусть
} функция, принимающая на вход изображение и возвращающая предсказанный нейронной сетью класс, p – количество классов. Состязательным примером называется
такой, что
при условии, что для некоторого малого
выполняется
. Состязательные примеры обладают свойствами, подчеркивающими важность разработки эффективного метода их обнаружения:
- Состязательный примеры, сгенерированные для атаки на одну нейронную сеть, зачастую оказываются успешными при атаке на сети других архитектур, обученные на том же наборе данных или на другом наборе из схожей предметной области.
- Несмотря на малое отличие состязательного примера от оригинального изображения, разница выходов нейронной сети достаточно сильная и может быть больше, чем разница между двумя натурально разными изображениями, принадлежащими разным классам.
Для разработки метода обнаружения состязательных атак использовать атаки, показавшие свою эффективность против различных архитектур нейронных сетей и использующие эффективные алгоритмы минимизации состязательных возмущений. В рамках работы были рассмотрены атаки, предложенные Николасом Карлини и Дэвидом Вагнером в 2017 году [1]. Предложенные ими атаки были новым подходом, ориентированным на построение минимальных по норме, но высокоэффективных возмущений, способных приводить к ошибочной классификации современные нейросетевые модели. Эти атаки все так же остаются актуальными и считаются одними из сильнейших состязательных атак.
Алгоритм генерации состязательных примеров нацелен на итеративное нахождение минимального по норме возмущения, при добавлении которого к исходному натуральному изображению результат классификации состязательного примера моделью оказывается ошибочным. На рис. 1 Показаны результаты генерации состязательных примеров для некоторых изображений из набора данных CIFAR-10.
Рисунок 1. Изображения тестовой выборки набора данных CIFAR-10 и состязательные примеры, сгенерированные на их основе
В рамках исследования были обучены сверточные нейронные сети для классификации изображений из наборов данных MNIST и CIFAR-10, а также аудиосигналов из набора данных EMODB. В результате обучения моделей были достигнуты показатели точности классификации объектов из тестовых выборок, равные 99.26%, 87.32% и 83.17% соответственно. Затем корректно классифицированные объекты были искусственно зашумлены и на их основе были сгенерированы состязательные примеры. Значения точностей классификации состязательных примеров представлены в таблице 1.
Таблица 1.
Точности классификации состязательных примеров
Набор данных |
Точность ( |
Точность ( |
MNIST |
3.74% |
3.77% |
CIFAR-10 |
0.01% |
0.01% |
EMODB |
0.0% |
1.2% |
В качестве метода обнаружения состязательных атак можно воспользоваться локальной внутренней размерностью (ЛВР). Локальная внутренняя размерность – это характеристика, которая описывает сложность структуры данных в окрестности фиксированной точки в пространстве данных, позволяя оценивать эффективное число степеней свободы или параметров, необходимых для ее описания в локальном масштабе. В отличие от глобальных подходов, локальная размерность анализирует поведение расстояний или плотности в окрестности точки, а не всей выборки.
Рисунок 2. Пример данных с меньшей локальной размерностью
Данные в действительности могут быть мерными, однако локально могут вести себя как данные меньшей размерности. Пример представлен на рис. 2. Набор данных в совокупности является двумерным, однако внутри области, выделенной зеленым цветом, локальная плотность объектов возрастает линейно с линейным ростом радиуса окружности внутри области и, соответственно, данные ведут себя как одномерные.
Классические модели экспансионной размерности основаны на наблюдении, что во многих метрических пространствах (включая евклидово пространство) объем мерного шара растет пропорционально радиусу
по мере увеличения радиуса. Исходя из этой зависимости роста объема от расстояния, размерность m может быть получена следующим образом:
Радиус шара можно рассматривать как вероятностную меру, связанную с его внутренней областью и обозначаемую как
. Функцию
можно интерпретировать как функцию распределения, лежащего в основе распределения расстояний. Обобщая эту концепцию на любую вещественную функцию, отличную от нуля в окрестности
, ЛВР может быть найдена по следующей формуле [2]:
В практических приложениях с дискретными точками данных можно получить оценку ЛВР с использованием расстояний до ближайших соседей и аппроксимировать ее следующим образом:
В рамках работы вычислялись ЛВР промежуточных представлений примеров по мере их прохождения через слои нейронной сети. График значений ЛВР натуральных объектов и состязательных примеров для набора данных MNIST представлен на рис. 3.
Рисунок 3. Значения ЛВР для натуральных объектов и состязательных примеров, сгенерированных на их основе, для набора данных MNIST
Для всех рассмотренных моделей и наборов данных оказываются справедливы следующие утверждения:
- Значения локальных внутренних размерностей промежуточных представлений искусственно зашумленных и исходных примеров существенно не отличаются друг от друга.
- Состязательные примеры, сгенерированные с использованием разных метрик, имеют схожие значения локальных внутренних размерностей их промежуточных представлений.
- Значения локальных внутренних размерностей состязательных примеров оказываются выше, чем у натуральных объектов.
Еще одним инструментом обнаружения состязательных возмущений пространства данных является неопределенность выхода байесовской нейронной сети.
Этот способ применим к нейросетевым моделям с дропаут-слоями. Переводя дропаут-слои модели в состояние обучения и проводя проходов нейронной сети по входным данным можно получить значение неопределенности нейронной сети. для тестового примера
и стохастических предсказаний
величина неопределенности
может быть посчитана следующим образом:
Полученные значения неопределенности для каждого набора данных представлены в таблице 2.
Таблица 2.
Значения неопределенностей нейронных сетей
Тип изображения |
MNIST |
CIFAR-10 |
EMODB |
Исходные |
0.0006 |
0.0059 |
0.0052 |
Зашумленные |
0.0006 |
0.0063 |
0.0049 |
Состязательные примеры |
0.0238 |
0.0285 |
0.0097 |
Состязательные примеры |
0.0228 |
0.0275 |
0.0090 |
Во всех случаях значения неопределенностей моделей для исходных и зашумленных изображений отличаются незначительно, либо же не отличаются вовсе. Значения неопределенности состязательных примеров оказываются в разы больше.
На основании вышеизложенных наблюдениях о значениях ЛВР промежуточных представлений нейронных сетей и значениях неопределенностей моделей, в рамках работы был разработан комбинированный метод обнаружения состязательных атак на нейронные сети с дропаут-слоями.
При подаче на вход обученной нейросетевой модели входного изображения, для каждого из ее слоев находится ЛВР в окрестности внутреннего представления этого изображения, помещенного к внутренним представлениям корректно классифицированных изображений из тестовой выборки. Далее получаем значение неопределенности модели для этого изображения. Таким образом формируется вектор, состоящий из значений ЛВР для каждого слоя сети и одного значения неопределенности модели.
Рассматриваем эту задачу как задачу бинарной классификации, при которой сформированные вышеуказанным образом векторы безвредных объектов помечаются меткой класса "0", а векторы состязательных примеров помечаются меткой класса "1". Для оценки эффективности метода используем натуральные изображения из набора данных MNIST и состязательные примеры, сгенерированные на их основе.
В качестве классификаторов были рассмотрены эффективности следующих моделей машинного обучения: логистическая регрессия, решающие деревья, XGBoost, AdaBoost, метод случайного леса, метод k ближайших соседей и метод опорных векторов. Для подбора гиперпараметров моделей машинного обучения был применен метод полного перебора с использованием алгоритма 5-кратной кросс-валидации. Лучшую точность обнаружения состязательных возмущений показала модель случайного леса, с достигнутой точностью детектирования равной 96%.
Список литературы:
- Carlini N., Wagner D. Towards evaluating the robustness of neural networks //2017 ieee symposium on security and privacy (sp). – Ieee, 2017. – С. 39-57.
- Houle M. E. Local intrinsic dimensionality I: an extreme-value-theoretic foundation for similarity applications //Similarity Search and Applications: 10th International Conference, SISAP 2017, Munich, Germany, October 4-6, 2017, Proceedings 10. – Springer International Publishing, 2017. – С. 64-79.
- Feinman R. et al. Detecting adversarial samples from artifacts //arXiv preprint arXiv:1703.00410. – 2017.
дипломов
Оставить комментарий