Статья опубликована в рамках: XXXIII Международной научно-практической конференции «Вопросы технических и физико-математических наук в свете современных исследований» (Россия, г. Новосибирск, 23 ноября 2020 г.)

Наука: Информационные технологии

Секция: Математическое моделирование, численные методы и комплексы программ

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Исмуканова А.Н., Есмагамбетова Г.К., Кубигенова А.Т. [и др.] ПРИМЕНЕНИЕМ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ К ЗАДАЧЕ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ ТЕКСТОВ // Вопросы технических и физико-математических наук в свете современных исследований: сб. ст. по матер. XXXIII междунар. науч.-практ. конф. № 11(26). – Новосибирск: СибАК, 2020. – С. 13-19.

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов

ПРИМЕНЕНИЕМ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ К ЗАДАЧЕ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ ТЕКСТОВ

Исмуканова Айгерим Наурызбаевна

преподаватель, магистр информационных систем, Кокшетауский университет им. Ш.Уалиханова,

Республика Казахстан, г. Кокшетау

Есмагамбетова Галия Кайратовна

преподаватель, магистр информационных систем, Кокшетауский университет им. Ш.Уалиханова,

Республика Казахстан, г. Кокшетау

Кубигенова Акку Толегеновна

преподаватель, магистр информационных систем, Кокшетауский университет им. Ш.Уалиханова,

Республика Казахстан, г. Кокшетау

Макатова Асия Еншлесовна

преподаватель, магистр информационных систем, Кокшетауский университет им. Ш.Уалиханова,

Республика Казахстан, г. Кокшетау

Ожибаева Замзагуль Манаповна

преподаватель, магистр информационных систем, Кокшетауский университет им. Ш.Уалиханова,

Республика Казахстан, г. Кокшетау

APPLICATION OF MACHINE LEARNING METHODS TO THE PROBLEM OF AUTOMATIC TEXT CLASSIFICATION

АННОТАЦИЯ

В статье описаны исследования в области компьютерных технологий, способных к точной оценке классификации научного текста. Рассмотрены вопросы, связанные с применением методов машинного обучения к задаче автоматической классификации текстов. Представлена модель LSA,которая может использоваться для разного ряда задач при обобщении или расширении смысла поискового запроса.

ABSTRACT

The article describes research in the field of computer technology, capable of precision classification of scientific text. New technologies for the LSA model could represent a important advance of the assessment of scientific texts. LSA model despite the complexity of the opacity and can be used for a number of different tasks with a generalization or extension of the meaning of the search query.

Ключевые слова: латентный семантический анализ (ЛСА), искусственные нейронные сети (ANNs), машинное обучение (МА), мешок слов.

Keywords: latent semantic analysis (LSA), artificial intelligence (AI), artificial neural network (ANNs), machine learning (ML), Bag of words.

Цель статьи состоит в том, чтобы проанализировать, как новые алгоритмы могут с помощью латентно семантического анализа и применение Байесовского подхода улучшить качество оценки кратких научных материалов. Метод латентного анализа, несмотря на трудоемкость и непрозрачность, может использоваться для разного ряда задач при расширении смысла поискового запроса.

Несмотря на то, что за последние 40 лет исследования в области Искусственного интеллекта (ИИ) достигли значительных успехов, конечная цель этих исследований – создание машин, понимающих человеческий язык, все еще не достигнута полностью.

Исторически так сложилось, что исследования в области ИИ сосредоточены на задачах, которые считались интеллектуально сложными, и поэтому впечатляющими для человека оказались: все математические игры, головоломки, игра в шахматы на гроссмейстерском уровне, автоматическое доказательство научных теорем и т.д.

Не правильное вероятностное распределение слов в любом естественном языке является определенным недостатком. Но эту задачу возможно решить сглаживанием выборки и с применением Байесовского подхода. Например, применение фонетических словосочетаний: распределение становится более «нормальным». Либо используют вероятностный ЛСА (латентно- семантический анализ), так называемый PLSA (Probabilistic latent semantic analysis), сконструированный на мультиноминальном распределении [1, c. 25-82].

Но недостатком метода ЛСА является «туманность» самого метода в частности, выбора количества сингулярных значений диагональной матрицы и интерпретации результата примененных к обработка неструктурированной информации.

Фундаментальный характер в области Искусственного интеллекта проявляется и отражается множеством подходов к пониманию роли науки и технике в разработке создании интеллектуальных машин.

Источники, которого могут быть прослежены от философских работ Канта и Хайдеггера, называется гипотезой воплощенного познания: познание может прийти только из машин, оборудованных сенсорными и моторными навыками (Ручьи, 1990; Лакофф и Джонсон, 1999).Эта точка зрения особенно популярна в области робототехники и нейробиологии и находится в прямом противоречии к высокоуровневому "символическому ИИ" подходу. Хьюберт Дрейфус решительно утверждал, в начале 1960-х, что человеческий разум глубоко зависит от бессознательных инстинктов и рефлексов, что эти навыки не могут быть получены с помощью формальных правил (Дрейфус, 1967).

Расширения этой модели включают лингвистическую модальность, логик высшего порядка, пропозициональные отношения (Крессуэлл, 1985) и т.д. Особенно обоснованной теорией является - Transparent Intensional Logic (TIL), введенной впервые в (Tichý, 1969). TIL основывается на различии между значением, ссылкой и обозначении, позволяет принципиально выводить над предложениями обобщенных в логических построений произвольные высшего порядка. Текущую работу можно посмотреть также из материалов Матерна и (1989); Матерна (2004). Спецификация правило происходит на более низком уровне, и семантические свойства надеются стать (то есть, проявляются в поведении машины) не будучи явно запрограммированными (Чалмерс, 1992) [3, 68]. К примерным исследованиям можно включать Искусственные Нейронные сети (ANNs), статистическое моделирование и другие разделы науки машинного обучения. Благодаря доказанной математической основе и использованию математики как базового языка, этот подход позволил «сотрудничать» через многие ранее разъединенные области информатики, такие как обработка изображений, речевая обработка или обработка естественного языка, а также экономика, биология и сама математика (Russell и Norvig, 2009) [2, с. 28].

Общая теория классификации строится не на пустом месте. Камни в ее фундамент закладывались такими классиками систематики, как К. Линней, Д.И. Менделеев, А.А. Любищев. Их труды в этом направлении отличаются большим дальнодействием. Критикуя проявления узости в долгосрочном планировании науки, А.А. Любищев подчеркивал важность поиска и выделял необходимость упорядочения, рассматривая в триединстве план, поиск и порядок. Откликаясь на статью академика Н.Н.Семенова «Наука сегодня и завтра» в газете «Известия» за 9 августа 1959г., он писал: «На ближайшие 50-100 лет с полной уверенностью можно сказать, что огромная работа должна быть проделана каталогизации и упорядочению колоссального количества отдельных факторов».

Задачей машинного обучения относится процесс выполнения переработки информации с помощью интеллектуальной структуры. Этот метод был разработан с появлением ИИ.

Машинное обучение - используется в распознавании текстов во входном потоке. Математический анализ применяется в машинных алгоритмах при изучении разделов теоретической информатики, и известна как вычислительная теория обучения(англ. Computational learning theory).

К области машинного обучения относится большой класс задач на распознавание образов - это исследование рукописного текста, символики, знаков, речи, анализ текстов.

ИИ фокусируется на построении компьютерных программ, которые учатся на опыте (относительно некоторого полезного, но ограниченного класса задач и показатели производительности (Mitchell, 1997)), называют Машинное обучение (МА). Его цель состоит в том, чтобы произвести методы, которые обнаруживают образцы и регулярность в полуструктурированных или неструктурированных данных. Много небольших разделов МА включают классификацию, кластеризацию, вероятностное обоснование или теорию решений.

Несмотря на его успешные приложения, текущие современные методы МА содержат многое из того, что можно было вызвать “достоинством при необходимости” — математические модели, которые управляют ими позади сцены, выбраны для их вычислительного удобного манипулирования, и обычно содержат упрощенные предположения; их часто трудно интерпретировать для человеческих экспертов. С небольшим количеством творческой лицензии это можно было также вызвать “немой, но полезной” парадигмой: даже самые усовершенствованные и современные методы NLP, как варианты Скрытого Выделения Дирихле, описанного в работе, отмечены наивными предположениями, в котором базовая модель явно не соответствует в моделировании естественного языка.

Работа, описанная в этой статье полностью подпадает под эту парадигму. Речь идет о конкретном подполе машинного обучения называется "обучение без учителя", где данные поступают в таком низком качестве и в таких больших количествах, что человеческий “контроль”, а также любые проверки человека при ее обработке, является неосуществимым.

Эта начальная глава представляет информацию для последующей части, которая опишет в «безнадзорных» областях определенные методы семантического анализа [4, с. 199-200].

В первой части рассматривается задача масштабируемости при применении этих методов к обширным, современным наборов данных. Затем вторая часть применяет эти общие семантические методы для конкретных, реальных проблем. В нем представлены некоторые связанные семантические алгоритмы, например как тема и сегментация языка.

Цель их состоит в том, чтобы удостовериться, что мы сравниваем “груши с грушами” при рассмотрении семантического сходства в неоднородных текстах.

Семантическая статистика. В данной ситуации определенная актуальность работы по разработки систем преобразования текстовой информации, испытывают трудности даже высококвалифицированные специалисты, в поиске документов и распределение полученных текстовых данных по темам.

Чтобы получить информацию или документ часто используют отдельные абзацы, отрывки, предложения, фразы или даже просто последовательности символов. Идеальная детализация, что представляет собой “документ” зависит от предполагаемого применения состава.

Статистическая гипотеза семантики служила важной ступенькой к более конкретным, расчетно-ориентированным экземплярам, таким как основанное на расстоянии представление о гипотезе «мешок» слов.

Bag of words или мешок слов. Мешок слов или Bag of Words – данная модель не редко рассматривается при обработке документов и текстов, использующий беспорядочный комплекс слов, входящих в обрабатываемый текст. Модель рассматривают в виде матрицы, в которой строка совпадает с отдельным текстом, а столбец – входящим в него словам. Числом вхождения данного слова в определенный документ относятся ячейки. Эта модель преобразовывает человеческий язык слов в понятный для компьютера кодового языка двоичных цифр.

В Информационном поиске гипотеза «мешка слов» предусматривает, что такие частотности слова могут использоваться, чтобы оценить семантическую уместность документов. Другими словами, это утверждает, что частоты отдельных слов достаточно показательны из семантической ассоциации между двумя документами (или документом и запросом).

Само собой разумеется, гипотеза «мешок слов» крайне наивна с лингвистической точки зрения. Игнорируя порядок слов, а также любую синтаксическую структуру, может обязательно подвергнутся серьезной потере информации.

По этой причине в данной работе рассматриваются, в основном, вопросы, связанные с применением методов машинного обучения к задаче автоматической классификации текстов. Отметим некоторые характерные особенности этой задачи:

1. Тексты являются текстами на естественном языке, не имеют четкой формализации, не структурированы, не являются техническими.

2. Количество классов в задачах классификации текстов, как правило, достаточно велико, а сами классы имеют мало общего. Впрочем, в более сложных случаях, не рассмотренных в настоящей работе, классы могут образовывать иерархию.

3. Как правило, большой важностью обладают вопросы производительности, т.к. в приложениях тексты необходимо обрабатывать в реальном масштабе времени.

4. Сама задача достаточно хорошо исследована, имеется большое количество публикаций, посвященных этой теме и содержащих оценки качества работы различных алгоритмов на стандартных наборах данных.

Повышение качества классификации новостных текстов на основе использования современных методов машинного обучения.

Для достижения этой цели в научной работе решаются следующие задачи:

1. Разработка способов признакового описания текстовых документов.

2. Анализ существующих методов решения традиционных задач машинного обучения и модификация этих методов с целью повышения показателей качества моделей, получаемых с их помощью.

3. Разработка модифицированных версий классических алгоритмов машинного обучения.

4. Разработка методов построения модельных деревьев, решений алгоритмических композиций на их основе для решения задач восстановления регрессии и классификации.

5. Сравнительный анализ известных и предложенных автором методов машинного обучения применительно к задачам восстановления регрессии и классификации.

ВЫВОДЫ

Проанализировав вышеизложенный материал можно сделать вывод, что исследование научных текстов фокусировалось на факторах, влияющих на понимание метода с помощью анализа. В этом исследовании использован изученный материал учеными, а также определены и предложены методы и анализы в классификации текста: с помощью латентно-семантического анализа с применением Байесовского подхода.

На базе теоретического конструирования моделей всех возможных форм исследуемой действительности, развитие научных теорий выявило и реализовало возможность построения классификаций [2, 36-38].

Список литературы:

Аббаси, Ахмед и Синьчунь Чен. 2006 год. Визуализация авторства для идентификации. В материалах конференции по информатике и безопасности Информатика ISI 2006, том 3975 лекций в области компьютерных наук, 60-71. Сан-Диего, Калифорния, США: Springer, стр. 25-82.
Airoldi, E., D. Blei, S. Fienberg и E. Xing. 2007. Объединение стохастических блочных моделей и смешанного членства для статистического сетевого анализа. Статистический сетевой анализ: модели, проблемы и новые направления 57 -74. , стр. 28.
Ньюман Д., А. Асунсьон, П. Смит и М. Веллинг. 2007. Распределенный вывод для скрытого распределения Дирихле. Достижения в системах обработки нейронной информации 20: 17-24. , стр. 68.
Розова С.С. Классификационная проблема в современной науке. Новосибирск: Наука. Сиб. отд-ние, 1986 г., с. 199-200.

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов

Оставить комментарий

Оставаясь на сайте, вы даете согласие на обработку файлов cookie, пользовательских данных, собираемых, в том числе с использованием сервиса Яндекс.Метрика, в целях обеспечения работы сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, измените настройки браузера или покиньте сайт.