Статья опубликована в рамках: Научного журнала «Студенческий» № 23(151)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3
НЕЙРОСЕТЕВАЯ МОДЕЛЬ ДЛЯ ИСПРАВЛЕНИЯ ГРАММАТИЧЕСКИХ, ОРФОГРАФИЧЕСКИХ И ПУНКТУАЦИОННЫХ ОШИБОК
GRAMMATICAL, SPELLING AND PUNCTUATION ERRORS CORRECTION NEURAL NETWORK
Ivan Tarabukin
student, Department of economic mathematics, informatics and statistics, Tomsk State University of Control Systems and Radioelectronics,
Russia, Tomsk
АННОТАЦИЯ
Данная статья посвящена результатам спроектированной модели нейронной сети для исправления грамматических, орфографических и пунктуационных ошибок. В качестве результата работы нейронной сети представлена точность исправлений для двух выбранных статей из новостных лент «Яндекс.Новости» и «РИА Новости».
ABSTRACT
This article is devoted to the results of the designed model of the neural network to correct grammatical, spelling and punctuation errors. The accuracy of corrections for two selected articles from the news feeds "Yandex.Novosti" and "RIA Novosti" is presented as a result of the neural network.
Ключевые слова: нейронные сети; keras; обработка естественного языка; исправление ошибок в тексте; bert.
Keywords: neural networks; keras; natural language processing; correction of errors in the text; bert.
В данной статье рассмотрены результаты спроектированной модели нейронной сети, исправляющей грамматические, орфографические и пунктуационные ошибки.
В современном мире стремительно развивается область обработки естественного языка. Оно изучает проблемы компьютерного анализа и синтеза текстов на естественных языках. Применительно к нейронной сети в области обработки естественного языка слово «анализ» означает понимание языка, а синтез – генерацию грамматически и орфографически правильного текста. Одним из примеров задач обработки естественного языка является автоматическое исправление ошибок в тексте [1]. Данная задача является одной из самых сложных задач в данной области, в настоящее время отсутствует универсальное решение [1]. Нейронная лингвистическая модель может быть разработана и использоваться автономно, например, для генерации новых последовательностей текста или быть основой многих других моделей [2].
Для реализации приложения по исправлению грамматических, орфографических и пунктуационных ошибок в тексте была выбрана нейронная сеть BERT, фреймворк для глубокого обучения Tensorflow в связке с библиотекой Keras, который предполагает использование языка программирования Python [3]. В целях выбора лингвистической модели для реализации приложения были рассмотрены предобученные лингвистические модели.
Весь процесс работы приложения поделён на три основных этапа каждый из которых может быть выполнено либо по отдельности, либо в совокупности один с другим:
- нормализация входного текста;
- исправление грамматических и орфографических ошибок;
- исправление пунктуационных ошибок.
Исправление грамматических и орфографических ошибок поделено на 2 этапа:
- генерация всех возможных исправлений для слова;
- оценка сгенерированных слов в модели относительно контекста.
Для оценки качества реализованного приложения было подготовлено 2 датасета из новостных лент «Яндекс.Новости» и «РИА новости». Из данных новостных лент были взяты случайные статьи и были поделены на 1-4 предложения. В данных предложениях были заменены некоторые буквы в случайных словах, тем самым генерируя ошибочные предложения. Всего подготовлено по 350 текстов с ошибками на каждый датасет. Каждый текст передавался в приложение в качестве входного параметра и полученный результат сравнивался с оригинальным предложением.
Для оценки точности исправления использовалась следующая формула:
(1)
A – точность исправлений;
TP – правильно исправленные предложения;
FP – неправильно исправленные предложения.
В результате проведённой оценки точности для первого датасета было исправлено 294 предложения, для второго датасета было исправлено 271 предложения. Используя формулу 1, можно посчитать точность исправлений для каждого датасета, что составляет 84% и 77,4% соответственно. В среднем точность исправлений из двух датасетов составляет 80,4%.
Вывод. Обработка естественного языка является одной из актуальных задач, решаемых искусственными нейронными сетями. В этой области заинтересованы крупнейшие компании в IT, например, Google, IBM, Facebook. В статье описана работы модели нейронной сети для исправления грамматических, орфографических и пунктуационных ошибок. В качестве результата работы нейронной сети представлена точность исправлений для двух выбранных статей из новостных лент «Яндекс.Новости» и «РИА Новости».
Список литературы:
- Recent Trends in Deep Learning Based Natural Language Processing [Электронный ресурс] — Режим доступа. — URL: https://arxiv.org/pdf/1708.02709.pdf (дата обращения: 15.02.2021)
- Саймон Хайкин: Нейронные сети: полный курс, 2-е изд.: Пер. с англ. — М.: ООО «И.Д. Вильямс», 2016. — 1104 с. : ил. — Парал. тит. англ.
- Официальный сайт Keras [Электронный ресурс] — Режим доступа. — URL: https://keras.io (дата обращения 15.02.2021)
Оставить комментарий