Статья опубликована в рамках: XLVI Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 07 июня 2018 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Лемешева А.В. СПОСОБ АНАЛИЗА ТЕКСТОВЫХ ДОКУМЕНТОВ НА ОСНОВЕ ИЕРАРХИЧЕСКОЙ СТРУКТУРИЗАЦИИ И КЛАССИФИКАЦИИ ИХ КОМПОНЕНТОВ // Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ: сб. ст. по мат. XLVI междунар. студ. науч.-практ. конф. № 11(46). URL: https://sibac.info/archive/meghdis/11(46).pdf (дата обращения: 31.07.2026)

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

У данной статьи нет
дипломов

СПОСОБ АНАЛИЗА ТЕКСТОВЫХ ДОКУМЕНТОВ НА ОСНОВЕ ИЕРАРХИЧЕСКОЙ СТРУКТУРИЗАЦИИ И КЛАССИФИКАЦИИ ИХ КОМПОНЕНТОВ

Лемешева Анастасия Владимировна

магистрант 2 курса, кафедра вычислительной техники, филиал ФГБОУ ВО «НИУ «МЭИ» в г. Смоленске,

РФ, г. Смоленск

Зернов Михаил Иванович

научный руководитель,

д-р. военных наук, профессор, кафедра вычислительной техники, филиал ФГБОУ ВО «НИУ «МЭИ» в г. Смоленске,

РФ, г. Смоленск

Автоматизированный анализ текстовых документов является актуальной задачей, так как растет количество документов, хранящихся в электронном виде. Одной из задач анализа текстовых документов является задача извлечения информации.

На практике часто возникает потребность в обработке документов, имеющих некоторую структуру, т.е. содержащих информационные блоки, характерные для каждого документа данного типа. Если документ имеет четко определенную структуру, т.е. информационные блоки в документе имеют строго сформулированные правила заполнения (примером такого документа может служить анкета), а их положение в документе определено и не может измениться, то при извлечении данных из такого документа, они будут однозначно идентифицированы. Но не всегда текстовые документы имеют такие строгие требования. В слабоструктурированных документах данные могут повторяться в разных контекстах, важно однозначно понять контекст для последующего анализа выделенных данных.

Для извлечения информации из текста разработаны различные инструментальные средства. Часть из них основана на методах машинного обучения, часть – на написании правил извлечения информации [1]. При использовании методов машинного обучения с учителем используются размеченные особым образом обучающие наборы текстов. Как правило, обучающие выборки имеют большой объем (сотни и тысячи текстов). Другой особенностью методов машинного обучения являются сложность в локализации причин ошибочной работы системы.

Но не всегда есть возможность сформировать достаточное количество обучающих примеров. Тогда можно применить подход, основанный на применении правил извлечения информации. К его достоинствам можно отнести относительную простоту реализации, а также более простой поиск причин некорректной работы алгоритма, по сравнению с методами машинного обучения.

Еще одной часто встречающейся задачей при обработке текста является задача классификации, т.е. отнесения текста к некоторому классу на основании наличия или отсутствия у него определенных признаков. При решении задачи классификации также можно выделить два основных подхода: подход, основанный на машинном обучении, и подход, опирающийся на написание ряда правил. Наиболее распространен подход, использующий машинное обучение, и часто при определении принадлежности текста к классу учитывают частоту вхождения слов в текст определенного класса и частоту его использования во всех документах обучающей выборки [2]. При анализе коротких текстов, содержащих однотипный набор слов, использование такого подхода представляется нецелесообразным. А для узкоспециализированных документов характерен узкий набор слов.

При выборе подхода к анализу текстовых документов следует учитывать особенности структуры документа, условий решаемой задачи и требований к решению этой задачи.

В рамках решения задачи извлечения информации из слабоструктурированных текстовых документов для некоторой определенной предметной области подход, основанный на написании правил, представляется более удобным. Так как в случае небольших изменений в структуре не требуется переобучения системы в целом, достаточно внести изменения в отдельные правила. И интерпретация результатов работы системы является относительно простой задачей. Для написания правил извлечения информации из текста часто удобно использовать регулярные выражения, с их помощью можно создавать шаблоны для поиска подстрок в тексте. Возможность использования регулярных выражений встроена во многие языки программирования.

При извлечении данных по некоторому шаблону может возникнуть ситуация, когда будет извлечено несколько подходящих подстрок, но их употребление будет относится к разному контексту. Например, в документе существует обязательный раздел, содержащий описание целей создания этого документа. Возникает необходимость проверить его наличие и извлечь некоторые данные из этого фрагмента. Использование правила, которое находит по шаблону слово «цель» и извлекает предложение с этим словом, не всегда допустимо, так как в тексте данное слово может употребляться несколько раз и в разных контекстах. Тогда следует применить данное правило не ко всему тексту документу, а к такому его фрагменту, который будет содержать только необходимую искомую информацию.

Для этого следует определить структуру документа. Эксперт предметной области, к которой относятся анализируемые документы, выделяет структурные части документа, которые характерны для всех анализируемых документов коллекции и отмечает данные, которые требуется извлечь. Это первый этап анализа.

На втором этапе определяется, каким образом можно идентифицировать извлекаемые данные. Если достаточно некоторого ключевого слова (для примера, приведенного выше, таким словом будет «цель»), поясняющего контекст употребления извлекаемых данных, то оставляем этот информационный блок. Если ключевое слово в блоке встречается несколько раз и не позволяет однозначно интерпретировать извлеченные данные, то разбиваем исходный информационный блок таким образом, чтобы слова, используемые для анализа контекста, встречались однократно. Т.е. делим анализируемые информационный блок на составные части. На этом этапе возможно возвращение к первому этапу и уточнение структуры документа. Если такое разделение невозможно, или невозможно само выделение некоторого ключевого слова, то следует провести более подробный анализ контекста употребления извлекаемых данных. Эксперт отмечает такие фрагменты, для которых требуется глубокий анализ. Рассмотрим подробнее способ такого анализа.

Представим эту задачу, как задачу классификации коротких фрагментов текста, состоящих из одного предложения. Принадлежность фрагмента к одному из классов означает однозначную идентификацию извлеченных из этого фрагмента данных. Под анализом контекста будем понимать обработку предложения, из которого были извлечены искомые данные. Тогда анализируемые предложения представляются как набор слов, приведенных к нормальной форме, без учета знаков препинания (формула 1).

(1)

где n – количество слов в предложении.

Под нормальной формой понимается нормальная грамматическая форма, например, для имен существительных – это именительный падеж и единственной число. Для каждого класса формируется свой набор примеров предложений. Причем список примеров должен содержать различные синтаксические конструкции, которые могут быть использованы в данном контексте. При анализе отдельных коротких фрагментов текста в документе, относящимся к узкой предметной области, такой список не будет содержать большое разнообразие примеров. Основная идея заключается в том, анализируемое предложение сравнивается с каждым примером класса и вычисляется длина непрерывной совпадающей последовательности, выбирается максимальная длина. Далее сравнение происходит с примерами другого класса и также вычисляется максимальная длина совпадающей последовательности. Полученные длины сравниваются между собой и выбирается наибольшая. Тогда анализируемый фрагмент относится к тому классу, для которого и была получена наибольшая совпадающая последовательность.

Так как для естественного языка характерно использование синонимов, формируется словарь, содержащий синонимы. Если проверяемые слова оказываются синонимами, то они также считаются совпадающими и увеличиваются длину искомой последовательности.

На третьем этапе пишутся правила, шаблоны для извлечения информации.

На четвертом этапе происходит извлечение информации по правилам, написанным на третьем этапе.

На пятом этапе извлеченные данные идентифицируется. Идентификация происходит тем способом, который указал эксперт на втором этапе. Т.е. это можно сделать с помощью поиска слов, однозначно указывающих на контекст, или решив задачу классификации, рассмотренную выше. Для решения задачи классификации требуется использование списка примеров для классов и словарей синонимов, морфологических словарей, содержащих нормальные формы слов. Такие словари можно создавать ограниченные лексически, т.е. они могут содержать только те слова, которые используются в рассматриваемых фрагментах документов. Следует предусмотреть возможность пользователя добавлять и редактировать словари и список примеров, для повышения точности анализа документа.

На шестом этапе извлеченные данные представляются пользователю в удобном для восприятия виде. В зависимости от вида извлекаемой информации, она может быть представлена в виде графиков, схем, таблиц, баз данных и т.д.

Таким образом, предложенный способ анализа слабоструктурированных текстовых документов основан на написании правил извлечения данных и их идентификации. А разработанный способ классификации позволяет классифицировать короткие фрагменты текста с однотипным набором слов.

Список литературы:

Автоматическая обработка текстов на естественном языке и анализ данных: учеб. пособие / Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. — М.: Изд-во НИУ ВШЭ, 2017. — 269 с.
Батура Т.В. Методы автоматической классификации текстов // Программные продукты и системы. 2017. Т.30. № 1. С. 85-99.

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

У данной статьи нет
дипломов