Поздравляем с Новым Годом!
   
Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: Научного журнала «Студенческий» № 39(293)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6, скачать журнал часть 7, скачать журнал часть 8, скачать журнал часть 9

Библиографическое описание:
Латыпов Р.Х. РАЗРАБОТКА МОДУЛЯ КЛАССИФИКАЦИИ ТЕКСТОВ МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ // Студенческий: электрон. научн. журн. 2024. № 39(293). URL: https://sibac.info/journal/student/294/351266 (дата обращения: 06.01.2025).

РАЗРАБОТКА МОДУЛЯ КЛАССИФИКАЦИИ ТЕКСТОВ МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ

Латыпов Радмир Халимович

магистрант, кафедра цифровых технологий и моделирования, Уфимский государственный нефтяной технический университет,

РФ, г. Уфа

Захаров Андрей Владимирович

научный руководитель,

канд. физ.-мат. наук, доц., Уфимский государственный нефтяной технический университет,

РФ, г. Уфа

DEVELOPMENT OF A TEXT CLASSIFICATION MODULE USING MACHINE LEARNING METHODS

 

Radmir Latypov

master's student, Department of Digital Technologies and Modelling, Ufa State Petroleum Technical University,

Russia, Ufa

Andrey Zakharov

scientific supervisor, Candidate of Physical and Mathematical Sciences, Associate Professor, Ufa State Petroleum Technical University,

Russia, Ufa

 

АННОТАЦИЯ

Данная работа исследует задачу проблемы классификации литературных текстовых материалов на основе методов машинного и глубокого обучения. Для решения задачи предложен метод классификации текстов, учитывающий предобработку и специфику литературных текстовых материалов, позволяющий при использовании алгоритмов машинного обучения, повысить точность и быстродействие классификации текстов.

ABSTRACT

This paper investigates the problem of literary text classification problem based on machine learning and deep learning methods. To solve the problem, a method of text classification is proposed, which takes into account preprocessing and specificity of literary text materials, allowing, when using machine learning algorithms, to improve the accuracy and speed of text classification.

 

Ключевые слова: классификация текстов, машинное обучение, Наивный Байес, SVM, токенизация.

Keywords: text classification, machine learning, Naive Bayes, SVM, tokenization.

 

Классификация является задачей, широко используемой в настоящее время. Она используется в сферах медицины, коммерции, безопасности и распознавании изображений. Классификация используется для определения категорий предмета предсказания на основе предоставляемых данных. В условиях огромного количества данных, требующих автоматической обработки, классификация играет важную роль.

Рассматривая одну из основных подзадач информационного поиска, речь пойдет о классификации текстов или классификации естественного языка. Она заключается в стремлении пользователя из неструктурированных данных получить документы, соответствующие его запросу. К условиям поисковых запросов могут относиться не только ключевые слова, но и требования к стилю документа, удобочитаемости текста, возрасту автора и т. д. Для удовлетворения этих запросов документ должен иметь набор данных, характеризующих его особенности. В интернете примеры работы классификаций можно увидеть каждый день: реклама, которую мы видим вытекает из подобных классификаторов; поисковики используют эту методологию для обеспечения информационной и общественной безопасности; введение борьбы со спамом используется с помощью классификации текстов.

В сфере анализа и обработки естественного языка огромную значимость имеют модели машинного обучения, в частности использование нейронных сетей и методов глубокого обучения. Современные модели, основывающиеся на этих технологиях, способны автоматически извлекать и классифицировать текстовые элементы, что чрезвычайно важно в условиях растущего объема информации. Как отмечено, «наиболее продвинутыми и точными средствами обработки естественного языка в настоящее время являются модели обработки естественного языка, опирающиеся на методики и алгоритмы машинного и глубокого обучения с применением нейронных сетей» [1, 2]. Это подтверждает непрерывные усилия в направлении повышения точности и эффективности компьютерных моделей, что делает их необходимыми инструментами в анализе данных на различных уровнях.

Пользователи в интернете могут найти готовые решения классификации текстов, но они нередко становятся сложными для их понимания в использовании. Также стоит иметь ввиду, что каждый алгоритм обладает своими уникальными свойствами и способностью обработать данные с применением различных решений или дисперсии [3]. Наконец, отсутствие информации о работоспособности ресурса, высокая стоимость и ограниченный доступ к продукту могут отпугнуть пользователя.

Среди задач классификации текстов рассмотрим анализ литературных жанров. Эта задача является сложной, в которой стоить обратить внимание особенностям, характерным для каждого жанра. К примеру, какой используется стиль написания, какие используются тематические элементы и какие языковые конструкции используются в жанре. Одним из важных этапов для обучения классификатора текстов является обработка учебного материала. Включение этих условий в задачу классификации требует основательной обработки текста. Например, одним из основных алгоритмов обработки является лексическая декомпозиция, которая включает в себя разделение текста на токены [4].

Современные методы машинного обучения в области классификации текстов все больше уделяют внимание особенностям текстовых данных. Разнообразие алгоритмов, включая применение методов энтропии, способствует существенному улучшению результатов. Косвенные данные свидетельствуют о том, что «использование энтропии в качестве меры взвешивания позволяет существенно повысить качество методов машинного обучения для классификации» [5]. Следовательно, интеграция таких методов является важным шагом на пути к созданию более гибких и надежных классификаторов.

Исследования, проведенные на практике, подтверждают эффективность использования нейронных сетей и других методов, таких как SVM, при обработке и классификации сложных текстов. Однако именно нейронные сети обладают гибкостью и способностью учитывать внутренние зависимости и структуру текста на более глубоком уровне. Применение сложных сетевых архитектур, включая рекуррентные и сверточные нейронные сети, позволяют извлекать больше информации из текстовых образцов, что делает такой подход наиболее подходящим для классификации текстов по жанрам. Отмечается, что "нейронные сети могут быть использованы для классификации текстов по жанрам, так как они способны анализировать зависимости и внутреннюю структуру информации, распределяя образцы по категориям" [6].

В случаях, где требуется повышенная точность, такие методы как Наивный Байес имеют очевидные недостатки. Метод максимума энтропии может быть более предпочтителен, так как он не делает предположений о независимости признаков [7]. Он предлагает более гибкий подход, избавляясь от ограничений, связанных с независимостью признаков, что может значительно улучшить результаты в сложных задачах классификации текстов. Понимание этих особенностей помогает создавать более точные и настраиваемые модели, способные эффективно различать различные жанры. Например, научная фантастика может быть отличена сложными техническими описаниями и специализированной терминологией, в то время как романтические произведения часто содержат эмоционально насыщенные описания и взаимодействия между персонажами.

При разработке приложения классификации текстов следует оценить качество обученной модели. Одним из основных способов оценки являются метрики, такие как точность, полнота и F-мера, которые помогают определить, насколько успешно модель справляется с поставленной задачей. Точность показывает долю правильно классифицированных объектов относительно всех объектов, полнота указывает на способность модели обнаруживать все положительные примеры из всех имеющихся, а F-мера совмещает обе эти метрики, обеспечивая баланс между ними. В условиях работы с несбалансированными данными, когда одна категория может значительно доминировать над другими, выбор подходящих методов оценки становится критически важным, так как они позволяют избежать предвзятости в классификации и более точно измерить способность модели выявлять и различать литературные жанры [8].

Для дальнейших исследований рекомендуется более глубокое изучение интеграции различных методов машинного обучения, включая использование нейронных сетей, с целью улучшения качества классификации и повышения эффективности обработки сложных литературных форм.

Это поможет разрабатываемым моделям лучше приспосабливаться к возрастающим запросам в области анализа текстов, предоставляя более точные средства для их автоматической категоризации и таким образом соответствуя изменяющимся научным и практическим требованиям.

 

Список литературы:

  1. Гудфеллоу Я. Глубокое обучение / Я. Гудфеллоу, И. Бенджио, А. Курвилль ; перевод с английского А. А. Слинкина. — 2-е изд. — Москва : ДМК Пресс, 2018. — 652 с. — ISBN 978-5-97060-618-6.
  2. Бирюков А.А., Терещенко И.А. Перспективы применения технологии обработки естественного языка в рамках цифровой трансформации экономики РФ и построения цифрового общества // Информационное общество. — 2023. — № 2.
  3. Шарден Б. Крупномасштабное машинное обучение вместе с Python : учебное пособие / Б. Шарден, Л. Массарон, А. Боскетти ; перевод с английского А. В. Логунова. — Москва : ДМК Пресс, 2018. — 358 с. — ISBN 978-5-97060-506-6.
  4. Черников, Б.Н. Информационные технологии управления [Электронный ресурс]: учебник / Б.В. Черников. - М. : ФОРУМ: ИНФРА-М, 2019. - 368 с.
  5. Кузнецов Игорь Александрович. Методы и алгоритмы машинного обучения для предобработки и классификации слабоструктурированных текстовых данных в научных рекомендательных системах: Дис. ... канд. техн. наук. — Москва, 2019.
  6. Устьянцев К. А., Суслова И. А. Нейронные сети — области применения и перспективы развития прорывных цифровых технологий // [б. и.]. — [б. г.]. — С. 253-254.
  7. Самигулин Т.Р., Джурабаев А.Э.У. Анализ тональности текста методами машинного обучения // Научный результат. Информационные технологии. — 2021. — Т. 6, № 1. — С. 55-62. DOI: 10.18413/2518-1092-2021-6-1-0-7.
  8. Садов М.А. Исследование методов классификации текстов для несбалансированных данных // Научный журнал «Полиматис». — 2016. — № 2.

Оставить комментарий