Статья опубликована в рамках: LXIII Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 07 марта 2018 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Козлов В.К. ИСКУССТВЕННЫЕ НЕЙРОННЫЕ СЕТИ ДОЛГОЙ КРАТКОСРОЧНОЙ ПАМЯТИ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. LXIII междунар. студ. науч.-практ. конф. № 3(62). URL: https://sibac.info/archive/technic/3(62).pdf (дата обращения: 14.07.2025)

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

У данной статьи нет
дипломов

ИСКУССТВЕННЫЕ НЕЙРОННЫЕ СЕТИ ДОЛГОЙ КРАТКОСРОЧНОЙ ПАМЯТИ

Козлов Валентин Константинович

студент, кафедра компьютерных систем и технологий НИЯУ МИФИ,

РФ, г. Москва

Искусственные нейронные сети (ИНС) и методы машинного обучения обрели большую популярность в последнее время. Во многом это связано с возросшими вычислительными мощностями, позволяющими обучать сложные математические модели и проводить исследования в этой области. Новости пестрят заголовками об успехах ученых и инженеров из крупных технологических гигантов, таких как Google, Amazon, Apple, Facebook. Мир переживает настоящую «революцию нейронных сетей». Очевидно, что в будущем ИНС значительно повлияют на жизнь человека. Благодаря им уже сейчас стало возможным решение многих задач, к которым нельзя применить стандартные алгоритмические подходы. Распознавание образов, обработка естественного языка, построение аналитических моделей, прогнозирование и мониторинг — вот неполный список типичных задач, решаемых с помощью искусственных нейронных сетей.

Основными составляющими ИНС являются нейроны. Нейрон – это вычислительная единица, которая получает информацию, производит над ней простые вычисления и передает ее дальше [1]. На рисунке 1 показана структура абстрактного нейрона с n входами. Каждый i-тый входной канал может передавать вещественное значение x_i. Функция f, вычисляемая в теле абстрактного нейрона, может быть выбрана произвольно. Обычно, входные каналы связаны с весовым коэффициентом. Это означает, что входная информация x_i умножается на соответствующий ей коэффициент w_i.

Рисунок 1. Модель абстрактного нейрона

Если рассматривать каждый узел ИНС как примитивную функцию, которая однозначно преобразует входную информацию в некоторое выходное значение, то искусственные нейронные сети есть ни что иное, как сети примитивных функций. Различные модели ИНС отличаются друг от друга, главным образом, используемыми примитивными функциями, схемой соединений нейронов и временем передачи информации между ними.

В обобщенном виде ИНС имеют структуру, показанную на рисунке 2. Сеть можно рассматривать как функцию Ф от параметров x, y, z. Узлы ИНС вычисляют примитивные функции f₁, f₂, f₃, f₄, которые в свою очередь необходимы для вычисления функции Ф, которую можно назвать сетевой функцией. Изменение весов а₁,a₂,…,a₅ вызывает изменение сетевой функции.

Рисунок 2. Функциональная модель ИНС

Для любой модели искусственной нейронной сети важны следующие параметры:

структура узлов сети;
топология сети;
обучающий алгоритм, вычисляющий веса сети.

Одной из популярных моделей ИНС является рекуррентная нейронная сеть (РНС). В отличие от традиционной нейронной сети, она содержит обратные связи и позволяет сохранять информацию, используя свою внутреннюю память. Благодаря этому РНС может обрабатывать серии событий во времени или последовательные пространственные цепочки. РНС также широко применяются в области обработки естественных языков, генерации речи и машинного перевода. Структура рекуррентной нейронной сети приведена на рисунке 3.

Рисунок 3. Функциональная модель РНС

Здесь X_t – входные данные; O_t – выходные данные; S_t – скрытое состояние, выполняющее функцию хранения; U, V, W – параметры нейронной сети.

На схеме представлена развернутая РНС. Это сделано для того, чтобы показать, что рекуррентные нейронные сети используются для обработки временных последовательностей. Так, например, если стоит задача обработки предложений естественного языка, то количество слоев нейронной сети будет соответствовать количеству слов в предложении.

Одним из преимуществ использования рекуррентных нейронных сетей является то, что с их помощью можно связывать предыдущую информацию с текущим заданием. Так, например, при анализе текущего кадра видеозаписи может быть полезна информация о предыдущих кадрах. Действительно, если для выполнения текущей задачи необходима недавняя информация, то использование РНС оправдано и приведет к нужному результату. Однако если необходимо анализировать продолжительный по времени отрезок информации, содержащий большое количество объектов, то применение рекуррентных нейронных сетей, скорее всего, не будет оптимальным. Дело в том, что РНС не способны отслеживать долговременные связи. Этого недостатка лишены нейронные сети долгой краткосрочной памяти, или сокращенно LSTM-сети.

LSTM-сеть – вид рекуррентной нейронной сети, способной к обучению долговременным зависимостям [2]. Её отличие от стандартной РНС заключается в структуре повторяющегося модуля нейронной сети. Вместо одного слоя, используемого в РНС, в LSTM используются четыре слоя, взаимодействующие между собой особым образом. Структура повторяющегося модуля LSTM-сети приведена на рисунке 4.

Рисунок 4. Структура модуля LSTM-сети

На схеме прямоугольником обозначены слои нейронной сети, овалом – поточечные операции. Основным элементом LSTM-сети является состояние ячейки, представляющее из себя горизонтальную линию в самом верху схемы [4]. Состояние ячейки проходит напрямую через всю цепочку, участвуя в некоторых линейных преобразованиях. LSTM может удалять информацию из состояния ячейки с помощью фильтров, которые реализованы в виде сигмоидального слоя нейронной сети и поточечной операции умножения [3]. Всего в модуле LSTM-сети три таких фильтра.

Работу модуля LSTM-сети можно описать следующим алгоритмом:

1. Определение информации, которую можно удалить из состояния ячейки. Это действие выполняет слой σ₁, который обрабатывает входные данные h_t-1 и x_tи возвращает коэффициент от 0 до 1. Чем меньше этот коэффициент, тем большее количество информации будет удалено.

2. Определение информации, которая будет обновлена в состоянии ячейки. За это действие отвечает слой σ₂.

3. Построение вектора новых значений, которые добавляются в состояние ячейки. Выполняется слоем tanh₁.

4. Формирование выходной информации. Сначала применяется слой σ₃, который решает, какая информация из состояния ячейки будет выведена. Затем значения состояния ячейки проходят через слой tanh₂, чтобы получить на выходе значения из диапазона от -1 до 1, и перемножаются с выходными значениями сигмоидального слоя, что позволяет выводить только требуемую информацию.

LSTM-сети – значительный шаг в развитии рекуррентных нейронных сетей. Их использование позволяет избежать проблемы долговременных зависимостей, расширяя круг задач, решаемых с помощью методов машинного обучения. LSTM-сети заняли свое место среди других искусственных нейронных сетей, став наиболее популярным решением в сфере обработки естественного языка.

Список литературы:

Raul Rojas Neural Networks. A Systematic Instruction. Springer-Verlag, 1996. – 502 с.
Felix Gers Long Short-Term Memory in Recurrent Neural Networks. EPFL, 2001. – 102 с.
Understanding LSTM Networks [Электронный ресурс]. – URL: http://colah.github.io/posts/2015-08-Understanding-LSTMs (дата обращения: 15.02.2018).
LSTM Networks for Sentiment Analysis [Электронный ресурс]. – URL: http://deeplearning.net/tutorial/lstm.html (дата обращения: 15.02.2018).