Статья опубликована в рамках: LXXXV Международной научно-практической конференции «Вопросы технических и физико-математических наук в свете современных исследований» (Россия, г. Новосибирск, 24 марта 2025 г.)

Наука: Информационные технологии

Секция: Методы и системы защиты информации, информационная безопасность

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Некрасов Н.М. СРАВНИТЕЛЬНЫЙ АНАЛИЗ РЕКУРРЕНТНЫХ И СВЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ: ПРИНЦИПЫ, ОСОБЕННОСТИ И ОБЛАСТИ ПРИМЕНЕНИЯ // Вопросы технических и физико-математических наук в свете современных исследований: сб. ст. по матер. LXXXV междунар. науч.-практ. конф. № 3(76). – Новосибирск: СибАК, 2025. – С. 25-32.

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов

СРАВНИТЕЛЬНЫЙ АНАЛИЗ РЕКУРРЕНТНЫХ И СВЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ: ПРИНЦИПЫ, ОСОБЕННОСТИ И ОБЛАСТИ ПРИМЕНЕНИЯ

Некрасов Никита Михайлович

аспирант, Финансовый университет при Правительстве РФ,

РФ, г. Москва

COMPARATIVE ANALYSIS OF RECURRENT AND CONVOLUTIONAL NEURAL NETWORKS: PRINCIPLES, FEATURES, AND APPLICATIONS

Nikita Nekrasov

PhD student,

Financial University under the Government of the Russian Federation,

Russia, Moscow

АННОТАЦИЯ

В данной статье проводится сравнительный анализ рекуррентных (RNN) и сверточных (CNN) нейронных сетей, рассматриваются их архитектурные особенности, принципы работы и области применения. Особое внимание уделяется преимуществам и ограничениям каждой модели в задачах обработки изображений, текста и временных рядов.

ABSTRACT

This article presents a comparative analysis of recurrent (RNN) and convolutional (CNN) neural networks, examining their architectural features, principles of operation, and areas of application. Special attention is given to the advantages and limitations of each model in image processing, text analysis, and time series prediction.

Ключевые слова: Рекуррентные нейронные сети, сверточные нейронные сети, машинное обучение, фильтрация информации.

Keywords: Recurrent neural networks, convolutional neural networks, machine learning, information filtering.

Рост объемов, данных в социальных сетях, сопровождаемый увеличением распространения дезинформации, токсичного контента и спам-активности, требует внедрения высокоэффективных методов фильтрации информации. Традиционные алгоритмы классификации демонстрируют ограниченные возможности при работе с большим количеством мультимодальных данных и динамическими структурами информации. В связи с этим актуальными становятся перспективные технологии.

Одним из перспективных подходов к фильтрации информации являются алгоритмы глубокого обучения для обработки изображений и видео. Сверточная нейронная сеть (Convolutional neural network, CNN) - это тип архитектуры нейронной сети глубокого обучения, обычно используемый в компьютерном зрении. Компьютерное зрение — это область искусственного интеллекта, которая позволяет компьютеру понимать и интерпретировать изображение или визуальные данные. Сверточная нейронная сеть —расширенная версия искусственных нейронных сетей (ANN), которая в основном используется для извлечения признаков из набора данных в виде сетки. Например, визуальные наборы данных, такие как изображения или видео, где шаблоны данных играют важную роль.

Обычная нейронная сеть состоит из трех типов слоев:

Входной слой - это слой, в который подаются данные для модели. Количество нейронов в этом слое равно числу признаков в данных (например, количеству пикселей на изображении).
Скрытые слои: данные из входного слоя передаются в скрытые слои. В зависимости от модели и объема данных может быть несколько скрытых слоев. Каждый скрытый слой может иметь разное количество нейронов, обычно большее, чем количество признаков. Выходные данные каждого слоя вычисляются путем матричного умножения выходных данных предыдущего слоя на обучаемые веса текущего слоя, затем добавляются обучаемые смещения и применяется активационная функция, которая делает сеть нелинейной [1].
Выходной слой: Выходные данные из последнего скрытого слоя подаются в логистическую функцию, которая преобразует результат для каждого класса в вероятность.

Данные поступают в модель, и на каждом слое вычисляется выход, что называется прямым распространением. Затем происходит оценка ошибки с помощью функции ошибки. Функция ошибки показывает, насколько эффективно работает сеть. После этого выполняется обратное распространение, рассчитывая производные, чтобы минимизировать ошибку и улучшить работу модели.

Сверточная нейронная сеть состоит из нескольких слоев, таких как входной слой, сверточный слой, слой подвыборки активационный слой, полносвязный слой и выходной слой.

Рисунок 1. Простая архитектура сверточной нейронной сети [3]

Математическая модель сверточной нейронной сети выглядит следующим образом:

Сверточные операции: Если входное изображение представлено тензором Х размером H*W*C, а ядро свертки – тензором К размером k*k*C, то результат свертки:

(1)

где: Y(i, j) — значение в выходной карте признаков (результате свертки) в позиции (i, j);

X(i+m,j+n,c) — значение входного изображения в позиции (i+m,j+n) в канале c;

K(m,n,c) — значение ядра свертки (фильтра) в позиции (m,n) для канала c;

C — число каналов входного изображения (например, 3 для RGB).

k — размер ядра свертки (обычно k*k, например, 3*3 или 5*5);

m, n, — индексы по ширине и высоте ядра свертки.

Шаг и паддинг: Шаг определяет насколько сдвигается ядро при свертке. Паддинг добавляет рамку из нулей вокруг изображения для сохранения размера выхода.
Размер выходного тензора после свертки:

(2)

где: H_out, W_out — высота и ширина выходной карты признаков после применения свертки;

H, W — высота и ширина входного изображения.

k — размер ядра свертки (например, k=3 для фильтра 3*3);

p — размер паддинга (количество добавляемых пикселей по краям входного изображения);

s — шаг, который задает расстояние перемещения ядра свертки по изображению.

Сверточные нейронные сети имеют свои недостатки и преимущества:

Таблица 1.

Преимущества и недостатки сверточных нейронных сетей

Преимущества	Недостатки
Отлично справляются с обнаружением паттернов и признаков в изображениях, видео и аудиосигналах;	Требуют значительных вычислительных ресурсов и большого объема памяти для обучения;
Устойчивы к изменениям масштаба, вращения и сдвига объектов;	Для обучения необходимы большие объемы размеченных данных;
Поддерживают обучение "от конца до конца", без необходимости ручного выделения признаков;	Сложно интерпретировать, что именно сеть "выучила" и как она принимает решения;
Эффективно работают с большими объемами данных, обеспечивая высокую точность.	Могут переобучаться, если данных недостаточно или отсутствует правильная регуляризация.

Сверточные нейронные сети стаются основой обработки изображений, но их возможности расширяются благодаря новым архитектурам (например, Vision Transformers). Однако для мультимодальных задач CNN часто комбинируются с другими технологиями, такими как рекуррентные сети (RNN) и трансформеры, что позволяет решать задачи с высокой сложностью.

Рекуррентные нейронные сети (Recurrent Neural Networks, RNN) предназначены для работы с последовательными данными, где текущий элемент зависит от предыдущих.

Отличительной особенностью рекуррентных нейронных сетей является их скрытое состояние, также называемое памятью. Оно сохраняет важную информацию из предыдущих входных данных последовательности. Благодаря использованию одних и тех же параметров на всех этапах обработки, рекуррентные нейронные сети работают стабильно с любыми входными данными, что уменьшает сложность модели по сравнению с традиционными нейронными сетями. Эта способность делает рекуррентные нейронные сети особенно эффективными для задач, связанных с последовательностями.

Существует 4 типа рекуррентных нейронных сетей в зависимости от входов и выходов в сети:

Один к одному: рекуррентные нейронные сети типа «один к одному» функционирует как стандартная нейронная сеть и представляет собой самую простую архитектуру. В этой конфигурации есть один вход и один выход. Она обычно используется для простых задач классификации, где обработка входных данных не зависит от предыдущих элементов;
Один ко многим: в рекуррентных нейронных сетях типа «один ко многим» сеть принимает один входной элемент и последовательно генерирует несколько выходов. Такая архитектура полезна, когда из одного входного элемента необходимо получить последовательность предсказаний;
Многие к одному: рекуррентные нейронные сети типа «многие к одному» принимает на вход последовательность данных и генерирует один выход. Такой подход эффективен, когда для предсказания требуется учесть общий контекст всей входной последовательности;
Многие ко многим: рекуррентные нейронные сети типа «многие ко многим» обрабатывает последовательность входных данных и генерирует последовательность выходов. Такая конфигурация идеально подходит для задач, где входные и выходные последовательности должны соответствовать друг другу во времени, будь то в формате «один к одному» или «многие ко многим».

Существует несколько видов рекуррентных нейронных сетей, каждая из которых разработана для решения определенных задач или преодоления специфических ограничений:

1. Простая рекуррентная сеть: классическая версия рекуррентных нейронных сетей с одним скрытым слоем, где веса используются одинаково на всех временных шагах. Простая рекуррентная сеть хорошо обучаются коротким зависимостям, но их ограничивает проблема исчезающего градиента, что затрудняет обучение на длинных последовательностях [2];

2. Двунаправленная рекуррентная сеть: эти сети обрабатывают данные как в прямом, так и в обратном направлениях, что позволяет учитывать, как предыдущий, так и последующий контекст для каждого шага. Такая архитектура идеально подходит для задач, где доступна вся последовательность, например, для распознавания именованных сущностей или ответов на вопросы;

3. Долгая краткосрочная память (LSTM): LSTM-сети внедряют механизм памяти, который решает проблему исчезающего градиента. Каждая ячейка LSTM имеет три типа "врат":

Входные врата: регулируют, сколько новой информации следует добавить в состояние ячейки;
Врата забывания: определяют, какую часть прошлой информации следует отбросить;
Выходные врата: управляют тем, какую информацию нужно выдать на текущем шаге.

Благодаря этому механизму LSTM способны обрабатывать долгосрочные зависимости, что делает их незаменимыми для задач, где важен контекст из начала последовательности;

4. Сети с управляемыми рекуррентными блоками (GRU): GRU упрощают архитектуру LSTM, объединяя входные и врата забывания в единые врата обновления и упрощая механизм выхода. Этот подход повышает вычислительную эффективность, при этом GRU часто показывают результаты, сопоставимые с LSTM. Они подходят для задач, где важны простота и быстрое обучение.

Рисунок 2. Простая архитектура рекуррентной нейронной сети [3]

Математическая модель рекуррентных нейронных сетей выглядит следующим образом [4]:

1. Обновление скрытого состояния:

(3)

где: ht — скрытое состояние на шаге t;

ht−1— скрытое состояние на предыдущем шаге;

xt— входное значение на шаге t;

Wh, Wx— матрицы весов для скрытого состояния;

bh— вектор смещения;

f — функция активации (например, tanh или ReLU).

2. Выход рекуррентных нейронных сетей:

(4)

где: Yt — выход сети на шаге t;

Wy— матрица весов для выхода;

by— вектор смещения;

g — функция активации.

Рекуррентные нейронные сети имеют свои недостатки и преимущества:

Таблица 2.

Преимущества и недостатки рекуррентных нейронных сетей

Преимущества	Недостатки
Рекуррентные нейронные сети способны сохранять информацию о предыдущих шагах ввода, что делает их идеальными для задач прогнозирования временных рядов, где важно учитывать прошлые данные. Эта возможность особенно ярко проявляется в улучшенных версиях, таких как LSTM;	Во время обратного распространения градиенты уменьшаются с каждым шагом, что приводит к незначительным обновлениям весов. Это ограничивает способность рекуррентных нейронных сетей обучаться на долгосрочных зависимостях, что критично для задач вроде машинного перевода.
Рекуррентные нейронные сети можно комбинировать с конволюционными слоями, что позволяет учитывать более широкие окрестности пикселей. Это значительно повышает точность при обработке изображений и видеоданных.	В некоторых случаях неконтролируемое увеличение градиентов, что может вызывать слишком большие обновления весов и дестабилизировать обучение.

Рекуррентные и сверточные нейронные сети решают разные задачи и имеют уникальные преимущества. CNN оптимально обрабатывают изображения и пространственные данные, выявляя локальные паттерны с помощью сверток, что делает их незаменимыми в компьютерном зрении. RNN, напротив, ориентированы на анализ последовательностей, позволяя учитывать временные зависимости, что особенно полезно для обработки текста, речи и временных рядов.

Однако RNN сталкиваются с проблемами затухания градиентов, что затрудняет обучение на длинных последовательностях. Улучшенные модели, такие как LSTM и GRU, решают эту проблему, но увеличивают вычислительную сложность. CNN, в свою очередь, не могут эффективно работать с последовательными данными без модификаций. В связи с этим гибридные архитектуры (CRNN, CNN+LSTM) демонстрируют высокую эффективность в задачах, где требуется как пространственный, так и временной анализ, например, в распознавании рукописного текста или обработке видео.

Таким образом, выбор между RNN и CNN зависит от типа данных и задачи. В то время как CNN остаются стандартом для обработки изображений, RNN (и их усовершенствованные варианты) продолжают находить применение в анализе временных последовательностей. Будущее глубокого обучения все чаще объединяет эти подходы, создавая мощные гибридные модели для комплексной обработки данных.

Список литературы:

Бахтеев Р.М., Жуйков В.Е. Применение сверточных нейронных сетей для обработки изображений // Вестник компьютерных и информационных технологий. – 2019. – № 16. – С. 12–19.
Гаврилов А.А., Смирнов И.В. Гибридные модели глубокого обучения: объединение CNN и RNN // Искусственный интеллект и принятие решений. – 2021. – № 2. – С. 45–56.
Прошина М.В. Современные методы обработки естественного языка: нейронные сети // Экономика строительства – 2022 - №5 – С. 27-42
Shi X., Chen Z., Wang H., Yeung D.Y., Wong W.K., Woo W.C. Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting // Advances in Neural Information Processing Systems (NeurIPS). – 2015. – P. 802–810.

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов

СРАВНИТЕЛЬНЫЙ АНАЛИЗ РЕКУРРЕНТНЫХ И СВЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ: ПРИНЦИПЫ, ОСОБЕННОСТИ И ОБЛАСТИ ПРИМЕНЕНИЯ

Оставить комментарий