Статья опубликована в рамках: CXXXVII Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 13 мая 2024 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
ИССЛЕДОВАНИЕ ВЛИЯНИЯ ИНИЦИАЛИЗАЦИИ ОБУЧАЕМЫХ ПАРАМЕТРОВ НА СХОДИМОСТЬ ОБУЧЕНИЯ СВЁРТОЧНОЙ НЕЙРОННОЙ СЕТИ
АННОТАЦИЯ
Инициализация начальных значений нейронной сети, в задачах глубокого обучения является важной задачей, от которого зависит весь дальнейший процесс обучения нейронной сети. Данная статья представляет исследование влияния различных методов инициализации обучаемых параметров на сходимость обучения свёрточной нейронной сети (СНС). В работе анализируются эффекты различных стратегий инициализации, таких как случайная инициализация, инициализация по методу Ксавье, инициализация по методу Хе и другие. Эксперименты проводятся на открытых наборах данных и с целью оценки влияния выбора метода инициализации на скорость сходимости обучения, достижение оптимальных результатов и общую производительность модели. Полученные результаты могут быть полезны для оптимизации процесса обучения СНС и повышения их эффективности в различных задачах машинного обучения и компьютерного зрения.
Ключевые слова: машинное обучение, глубокое обучение, компьютерное зрение, свёрточная нейронная сеть, обучаемые параметры, веса, инициализация.
Для проведения исследования был разработан программный код на языке программирования Java, без применения сторонних библиотек, с помощью которого моделировалась работа свёрточной нейронной сети. Непосредственно архитектура нейронной сети представляет собой классическую свёрточную нейронную сеть, состоящую из четырёх слоёв свёртки, два слоя субдискретизации, а именно макспулинга (от английского max-pooling), и трёх полносвязных слоёв (классическое представление многослойного персептрона) (рис. 1). Все свёрточные слои содержат фильтры свёртки размерностью 3 на 3. Между слоями использовалась функция активации ReLU [1], кроме выходного слоя, где была применена функция SoftMax, классическая для задач классификации. В качестве функции ошибки была использована категориальная кросс-энтропия [2].
Рисунок 1. Схематичное представление архитектуры свёрточной нейронной сети
В качестве данных для обучения был выбран набор изображений Cifar10 [3], состоящих из 50000 экземпляров цветных изображений для обучающей выборки и 10000 экземпляров цветных изображений для выборки тестирования. Изображения имеют размер 32 на 32 пикселя и разбиты на 10 классов.
Для обучения был использован классический алгоритм градиентного спуска, а это значит, что всего в нейросети содержится 890176 обучаемых параметров (весовых коэффициентов фильтров свёртки, весовых коэффициентов полносвязных слоёв и смещений).
Для исследований использовалось пять стратегий инициализации начальных значений обучаемых параметров: случайная инициализация значениями от -1 до 1, инициализация значениями нормального распределения относительно нуля, инициализация методом Ксавье [4], инициализация методом Лекуна [5] и инициализация методом Хи [6]. Результаты исследований приведены на рисунке 2.
Рисунок 2. График зависимости значений точности обучения от эпохи
Из графика видно, что метод случайной инициализации начальных значений приводит к несходимости свёрточной нейронной сети, остальные же варианты отличаются по скорости обучения. Наилучшей оказалась стратегия инициализации методом Лекуна.
Подводя итог, можно констатировать, что выбор стратегии является важным вопросом в глубоком обучении нейросетевых моделей. Его можно интерпретировать, как один из гиперпараметров модели, выбор которого зависит от конкретной архитектуры нейронной сети.
Список литературы:
- Brownlee, Jason “A Gentle Introduction to the Rectified Linear Unit (ReLU)” // Machine Learning Mastery, 2019
- Осовский С. Нейронные сети для обработки обработки информации / пер. с польск. М.: Финансы и статистика, 2002. 344с.
- University of Toronto, Alex Krizhevsky's home page, Cifar10 [Электронный ресурс] https://www.cs.toronto.edu/~kriz/cifar.html (дата обращения 12.04.24)
- Glorot X., Bengio Y. Understanding the difficulty of training deep feedforward neural networks // Proc. Of the thirteenth intern. Conf. an artificial intelligence and statistics. Sardinia: Domus de Maria, 2010. P. 249-256
- Y.A. LeCun, L. Bottou, G.B. Orr, K. R. Muller // Neural networks: Tricks of the trade. Berlin, Heidelberg: Springer, 2012. P. 9-48
- A. Choromanska, M. Henaff, M. Mathieu, G. B. Arous, Y. LeCun // Artificial Intelligence and Statistics. 2015. №2, P.192-304
дипломов
Оставить комментарий