Статья опубликована в рамках: CXXXI Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 09 ноября 2023 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Двинянинова В.А. РАЗРАБОТКА ПОДСИСТЕМЫ ФОРМИРОВАНИЯ ОБУЧАЮЩЕЙ ВЫБОРКИ ДЛЯ ОЦЕНКИ ТЕКСТОВ НА АНГЛИЙСКОМ ЯЗЫКЕ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. CXXXI междунар. студ. науч.-практ. конф. № 11(129). URL: https://sibac.info/archive/technic/11(129).pdf (дата обращения: 25.07.2026)

Проголосовать за статью

Конференция завершена

Эта статья набрала 112 голосов

Дипломы участников

РАЗРАБОТКА ПОДСИСТЕМЫ ФОРМИРОВАНИЯ ОБУЧАЮЩЕЙ ВЫБОРКИ ДЛЯ ОЦЕНКИ ТЕКСТОВ НА АНГЛИЙСКОМ ЯЗЫКЕ

Двинянинова Валерия Андреевна

студент, кафедра электронных вычислительных машин, Вятский государственный университет,

РФ, г. Киров

Крутиков Александр Константинович

научный руководитель,

старший преподаватель, Вятский государственный университет,

РФ, г. Киров

DEVELOPMENT OF A SUBSYSTEM FOR THE FORMATION OF A TRAINING SAMPLE FOR THE EVALUATION OF TEXTS IN ENGLISH

Valeria Dvinyaninova

student, Department of Electronic Computing Machines, Vyatka State University,

Russia, Kirov

Alexander Krutikov

scientific supervisor, senior lecturer, Vyatka State University,

Russia, Kirov

АННОТАЦИЯ

В данной статье представляется обзор существующих подходов к формированию обучающей выборки для оценки текстов на английском языке, а также предлагается новая подсистема, основанная на инновационных методах обработки и анализа текстов. Анализируется эффективность предложенной подсистемы в сравнении с существующими методами и оценивается ее потенциал для использования в широком спектре приложений, включая автоматическую классификацию текстов, анализ тональности, и автоматическое создание резюме и аннотаций. Полученные результаты подчеркивают важность предложенного подхода и его потенциал для улучшения и автоматизации процессов обработки текстовых данных на английском языке.

ABSTRACT

This article provides an overview of existing approaches to the formation of a training sample for evaluating texts in English, and also proposes a new subsystem based on innovative methods of text processing and analysis. The efficiency of the proposed subsystem is analyzed in comparison with existing methods and its potential for use in a wide range of applications is evaluated, including automatic classification of texts, tonality analysis, and automatic creation of summaries and annotations. The results obtained emphasize the importance of the proposed approach and its potential for improving and automating the processing of text data in English.

Ключевые слова: обучающая выборка, нейронные сети, эссе, английский язык.

Keywords: training sample, neural networks, essay, English.

С ростом объема текстовых данных в современном информационном пространстве возрастает потребность в эффективных методах оценки и анализа текстов на естественных языках. Особенно важным становится формирование обучающей выборки, способной обеспечить точные оценки и классификацию текстов на английском языке. В связи с этим, разработка подсистемы, способной эффективно формировать обучающую выборку для оценки текстов на английском языке, представляет собой актуальную исследовательскую задачу, которая стимулирует создание новых методов и технологий в области обработки естественного языка.

Данное приложение может быть полезно для тех, кто обучается английскому языку, хочет научиться писать без ошибок. Наиболее актуальна разработка может быть для тех, кто готовится к экзаменам, оно облегчает проверку текста, заданного пользователем. Также может быть востребовано в системах онлайн-обучения, где требуется автоматизированный контроль за качеством написания и грамматикой, что в конечном счете способствует повышению общего уровня владения английским языком.

Использование нейронной сети в данной теме обусловлено их способностью эффективно обрабатывать и анализировать большие объемы текстовых данных. Некоторые причины, по которым использование нейронных сетей в данной области является важным:

способность извлекать сложные зависимости;
обучаемость и адаптивность, так как нейронные сети могут быть обучены на большом количестве данных и адаптироваться к различным стилям и особенностям текстов;
использование нейронных сетей позволяет улучшить точность оценки качества текста благодаря их способности распознавать сложные языковые конструкции, семантику и контекст;
автоматизация процесса оценки, что экономит время и ресурсы, освобождая людей от рутинной работы по проверке и оценке текстов.

Использование нейронных для оценки текстов на английском языке обеспечивает автоматизированные и адаптивные методы обработки текстовой информации, что способствует повышению качества и эффективности процесса оценки.

Разрабатываемый программный продукт должен обладать следующими функциональными возможностями:

система сбора данных. Возможность собирать и обрабатывать большие объемы текстовых данных на английском языке из различных источников, включая интернет, базы данных и другие текстовые наборы;
автоматизированный отбор и фильтрация данных. Способность автоматически отбирать и фильтровать текстовые данные на основе заранее определенных критериев и параметров, обеспечивая формирование качественной обучающей выборки;
методы автоматической разметки данных. Разработка методов и алгоритмов для автоматической разметки обучающей выборки, учитывающих различные аспекты оценки текста на английском языке, включая правописание, грамматику, стиль и семантику.

В ходе разработки были проанализированы виды нейронных сетей и выбрана рекуррентная нейронная сеть. Рекуррентные нейронные сети предназначены для анализа последовательностей данных, где учитывается контекст и зависимости между элементами последовательности.

Рекуррентные нейронные сети представляют собой тип нейронных сетей, где связи между компонентами формируют последовательность. Это позволяет обрабатывать последовательные события во времени или последовательные пространственные шаблоны. В отличие от многослойных перцептронов, рекуррентные сети могут использовать свою внутреннюю память для работы с последовательностями переменной длины. Из-за этой особенности RNN эффективно применяются в задачах, где целостный объект может быть разбит на составляющие, такие как распознавание рукописного текста или распознавание речи.

При проектировании была выбрана нейронная сеть LSTM, которая является частным случаем рекуррентной нейронной сети. В отличие от стандартных RNN, которые могут иметь проблемы с сохранением информации о давно прошедших событиях из-за проблемы затухающего градиента, LSTM способна более эффективно сохранять и использовать контекст из прошлых событий при обработке последовательностей.

Благодаря своей способности сохранять долгосрочные зависимости, LSTM часто используется в задачах, требующих анализа и обработки длинных последовательностей данных. Она позволяет моделировать сложные зависимости, которые могут быть присущи временным рядам, текстам, аудио- и видеоданным, что делает ее незаменимой в областях, где необходимо учитывать контекст и долгосрочные зависимости между элементами последовательности [1].

Из-за своей способности эффективно моделировать долгосрочные зависимости в последовательностях текстовых данных LSTM была выбрана для разработки для оценки текстов на английском языке. Это особенно важно при работе с текстами на естественных языках, таких как английский, где контекст и порядок слов могут играть решающую роль в определении значения и смысла предложений.

LSTM способна обрабатывать сложные структуры текста, учитывая зависимости между словами и фразами в предложении, а также в контексте более широкого текста. Это позволяет ей эффективно улавливать нюансы языка, такие как смысловые оттенки, контекстуальные нюансы и связи между различными частями текста. Такие возможности делают LSTM идеальным выбором для анализа и оценки текстов на английском языке, особенно в контексте создания обучающей выборки для оценки и классификации текстовых данных.

При проектировании была использована детализированная диаграмма потоков данных для того, чтобы наглядно отследить каждый процесс.

Получение данных. Для формирования блока обучающей выборки необходим большой объем данных в виде текстов на английском языке.

Преобразование данных. Собранные данные требуется подготовить к формату, который может быть использован нейронной сетью.

Обработка данных. Данные могут содержать ошибки и неточности, которые требуется обработать. Также важно устранить выбросы и выбрать наиболее значимые данные для будущего прогнозирования.

Создание обучающей выборки. Данные должны быть разделены на два набора – обучающий и тестовый. Обучающий набор используется для обучения нейронной сети, в то время как тестовый набор служит для проверки ее эффективности и точности.

Обучение нейронной сети. Процесс обучения нейронной сети основан на данных из обучающего набора. Обучение заключается в настройке весов связей между нейронами таким образом, чтобы сеть могла правильно классифицировать входные данные. Процесс обучения состоит из нескольких циклов, на каждом из которых сеть обрабатывает входные данные, вычисляет ошибку, а затем корректирует веса связей для уменьшения ошибки. Этот процесс продолжается до тех пор, пока сеть не достигнет требуемой точности классификации или не будет обучена на всех доступных данных.

Таким образом, диаграмма потоков данных демонстрирует последовательность действий, необходимых для создания обучающего набора и использования нейронной сети (рисунок 1).

Рисунок 1. Диаграмма потоков данных

Также формирование обучающей выборки может быть представлено в нотации IDEF0.

Описание процесса формирования блока обучающей выборки:

Определение исходных данных для формирования блока обучающей выборки;
Описание шагов для формирования блока обучающей выборки на основе этих данных.

Контекстная диаграмма выполняется в нотации IDEF0 и показывает систему c точки зрения внешнего наблюдателя. IDEF0 - это методология для анализа и оптимизации бизнес-процессов, основанная на графическом представлении функций или работ, которые необходимо выполнить для достижения определенных целей. Эта нотация предоставляет универсальное средство для моделирования бизнес-процессов и может быть использована для анализа, документирования и оптимизации различных процессов в организации [2].

Построение модели формирования обучающей выборки начинается с описания функционирования системы в целом в виде контекстной диаграммы (рисунок 2).

Рисунок 2. Контекстная диаграмма IDEF0 «Формирование блока обучающей выборки»

В настоящее время, продолжается тестирование приложения. Оцениваются возможности его модернизации и масштабирования.

Список литературы:

Рекуррентные нейронные сети, проблема исчезающего градиента и LSTM. URL: https://skine.ru/articles/333588/ (дата обращения 13.10.2023)
Цуканова О. А. Методология и инструментарий моделирования бизнеспроцессов: учебное пособие – СПб.: Университет ИТМО, 2015. – 100 с.