Телефон: +7 (383)-202-16-86

Статья опубликована в рамках: LXV Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 14 мая 2018 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Яцино С.Л. СРАВНЕНИЕ ТИПОВ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ СЕМАНТИЧЕСКОГО АНАЛИЗА ТЕКСТА // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. LXV междунар. студ. науч.-практ. конф. № 5(64). URL: https://sibac.info/archive/technic/5(64).pdf (дата обращения: 22.08.2019)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

СРАВНЕНИЕ ТИПОВ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ СЕМАНТИЧЕСКОГО АНАЛИЗА ТЕКСТА

Яцино Станислав Леонидович

магистрант, факультет автоматизированных и информационных систем, ГГТУ имени П.О. Сухого,

Белоруссия, г. Гомель

Научный руководитель Комраков Владимир Викторович

канд. техн. наук, доцент ГГТУ имени П.О. Сухого,

Белоруссия, г. Гомель

Искусственная нейронная сеть (ИНС) представляет собой вычислительную нелинейную модель, основанную на нейронной структуре мозга, которая может научиться выполнять такие задачи, как классификация, прогнозирование, принятие решений, визуализация и другие.

Выбор типа нейронной сети является важным этапом для применения ее на практике. В этой статье будут кратко рассмотрены такие топологии сетей как многослойный персептрон, сверточная нейронная сеть, рекурсивная нейронная сеть, рекуррентная нейронная сеть, долгая краткосрочная память, модели последовательности к последовательности и сделан вывод.

1. Многослойный персептрон

Многослойный персептрон имеет три или более слоев. Он использует нелинейную функцию активации (в основном гиперболическую касательную или логистическую функцию), которая позволяет классифицировать данные, которые не являются линейно разделяемыми. Каждый узел в слое соединяется с каждым узлом на следующем уровне, делая сеть полностью подключенной. Используется, например, для распознавания речи и машинного перевода.

2. Сверточная нейронная сеть (CNN)

Сверточная нейронная сеть (CNN) содержит один или несколько сверточных слоев, объединенных или полностью связанных и использует вариации многослойных персептронов, рассмотренных выше. Свертонные слои используют операцию свертки для ввода, передающего результат на следующий слой. Эта операция позволяет быть сети глубже с гораздо меньшим количеством параметров.

Сверточные нейронные сети демонстрируют выдающиеся результаты в приложениях для изображения и речи. Юн Ким в сверточных нейронных сетях для классификации предложений описывает процесс и результаты задач классификации текста с использованием CNN [1]. Он представляет модель, построенную поверх word2vec, проводит серию экспериментов с ней и тестирует ее на нескольких тестах, демонстрируя, что модель отлично работает.

Сян Чжан и Ян Лекун, демонстрируют, что CNN могут достичь выдающейся производительности без знания слов, фраз, предложений и любых других синтаксических или семантических структур в отношении человеческого языка [12]. Семантический анализ [10], обнаружение парафраз [3], распознавание речи [2] также являются приложениями CNN.

3. Рекурсивная нейронная сеть (RNN)

Рекурсивная нейронная сеть (RNN) представляет собой тип глубокой нейронной сети, образованной путем рекурсивного применения одного и того же набора весов по структуре, чтобы сделать структурированное предсказание по входным структурам с переменным размером или скалярное предсказание на нем путем прохождения данной структуры в топологическом порядке [9].

4. Рекуррентная нейронная сеть (RNN)

Рекуррентная нейронная сеть (RNN), в отличие от первичной нейронной сети, представляет собой вариант рекурсивной нейронной сети, в которой связи между нейронами создают направленный цикл. Это означает, что выход зависит не только от текущих входов, но и от состояния нейрона предыдущего шага. Эта память позволяет пользователям решать проблемы обработки естественного языка, такие как распознавание рукописного ввода или распознавание речи. В статье «Генерация естественного языка, перефразирование и суммирование обзоров пользователей с рекуррентными нейронными сетями» авторы демонстрируют рекуррентную модель нейронной сети (RNN), которая может генерировать новые предложения и сводки документов [7].

Сивэй Лай, Линг Ху, Кан Лю и Чун Чжао создали рекуррентную сверточную нейронную сеть для классификации текста без человеко-ориентированных функций и описали ее в статье «Рекуррентные сверточные нейронные сети для текстовой классификации». Их модель была сравнена с существующими методами классификации текста, такими как Bag of Words, Bigrams + LR, SVM, LDA, Tree Kernels, рекурсивная нейронная сеть и CNN. Было показано, что их модель превосходит традиционные методы для всех используемых наборов данных [8].

5. Долгая краткосрочная память (LSTM)

Долгосрочная краткосрочная память (LSTM) представляет собой специфическую рекуррентную архитектуру нейронной сети (RNN), которая была разработана для более точного моделирования временных последовательностей и их дальнодействующих зависимостей, чем обычные RNN [4]. LSTM не использует функцию активации в своих рекуррентных компонентах, сохраненные значения не изменяются, и градиент не стремится пропасть во время обучения. Обычно узлы LSTM реализованы в «блоках» по несколько единиц. Эти блоки имеют три или четыре «затвора» (например, входной, забывающий и выходной), которые управляют потоком информации, используя логистическую функцию.

В статье «Долгая краткосрочная память рекуррентных нейронных сетей для крупномасштабного акустического моделирования» Хасим Сак, Эндрю Стар и Франсуаза Бьюфайс показали, что глубокие архитектуры LSTM RNN обеспечивают самую высокую производительность.

В статье «Частеречная разметка» с двунаправленной долгой краткосрочной памяти, Пейлу Ван, Яо Цянем, Франком К. Сун, Лэй Хэем и Хай Чжао, была представлена модель [5]. Модель достигла производительности с отметкой 97.40%. Apple, Amazon, Google, Microsoft и другие компании включили LSTM в качестве основного элемента в свои продукты.

6. Модели последовательности к последовательности

Обычно модель последовательности к последовательности состоит из двух рекуррентных нейронных сетей: кодера, который обрабатывает вход и декодер, который производит результат. Кодер и декодер могут использовать одни и те же или разные наборы параметров.

Модели последовательности к последовательности в основном используются в автоответчиках, чатах и машинных переводах. Такие многослойные ячейки успешно использовались для перевода и в обучении последовательностям [11].

В режиме обнаружения парафраз с использованием рекурсивного автокодера представлена новая рекурсивная архитектура автокодера. Представления являются векторами в n-мерном семантическом пространстве, где фразы со схожими значениями близки друг к другу [6].

Вывод

В этой статье были описаны различные варианты искусственных нейронных сетей которые обычно используются для семантического анализа текста. Было показано, как эти сети функционируют и как их различные типы используются в задачах обработки естественного языка. Было продемонстрировано, что для семантического анализа текста лучше подойдут такие типы сети как сверточные и рекуррентные нейронные сети, а также долгая краткосрочная память.

 

Список литературы:

  1. Convolutional Neural Networks for Sentence Classification [Электронный ресурс]. – Режим доступа: http://www.aclweb.org/anthology/D14-1181 (дата обращения: 08.05.18)
  2. Convolutional Neural Networks for Speech Recognition [Электронный ресурс]. – Режим доступа: https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/CNN_ASLPTrans2-14.pdf (дата обращения: 08.05.18)
  3. Detecting Semantically Equivalent Questions in Online User Forums [Электронный ресурс]. – Режим доступа: https://www.aclweb.org/anthology/K15-1013 (дата обращения: 08.05.18)
  4. Long Short-Term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling [Электронный ресурс]. – Режим доступа: https://wiki.inf.ed.ac.uk/twiki/pub/CSTR/ListenTerm1201415/sak2.pdf (дата обращения: 08.05.18)
  5. Natural Language Generation, Paraphrasing and Summarization of User Reviews with Recurrent Neural Networks [Электронный ресурс]. – Режим доступа: http://www.meanotek.ru/files/TarasovDS(2)2015-Dialogue.pdf (дата обращения: 08.05.18)
  6. Paraphrase Detection Using Recursive Autoencoder [Электронный ресурс]. – Режим доступа: https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/CNN_ASLPTrans2-14.pdf (дата обращения: 08.05.18)
  7. Part-of-Speech Tagging with Bidirectional Long Short-Term Memory Recurrent Neural Network [Электронный ресурс]. – Режим доступа: https://arxiv.org/pdf/1510.06168.pdf (дата обращения: 08.05.18)
  8. Recurrent Convolutional Neural Networks for Text Classification [Электронный ресурс]. – Режим доступа: https://www.aaai.org/ocs/index.php/AAAI/AAAI15/paper/view/9745/9552 (дата обращения: 08.05.18)
  9. Recursive neural network [Электронный ресурс]. – Режим доступа: https://en.wikipedia.org/wiki/Recursive_neural_network (дата обращения: 08.05.18)
  10. Semantic Parsing via Staged Query Graph Generation: Question Answering with Knowledge Base [Электронный ресурс]. – Режим доступа: http://www.aclweb.org/anthology/P15-1128 (дата обращения: 08.05.18)
  11. Sequence to Sequence Learning with Neural Networks [Электронный ресурс]. – Режим доступа: https://arxiv.org/pdf/1409.3215.pdf (дата обращения: 08.05.18)
  12. Text Understanding from Scratch [Электронный ресурс]. – Режим доступа: https://arxiv.org/pdf/1502.01710.pdf (дата обращения: 08.05.18)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий