ИССЛЕДОВАНИЕ МОДЕЛЕЙ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ В ЭКСПЕРТНОЙ СИСТЕМЕ КОНТЕНТ-АНАЛИЗА

Статья опубликована в рамках: V Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 22 октября 2012 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Шевина Т.О. ИССЛЕДОВАНИЕ МОДЕЛЕЙ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ В ЭКСПЕРТНОЙ СИСТЕМЕ КОНТЕНТ-АНАЛИЗА // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. V междунар. студ. науч.-практ. конф. № 5. URL: https://sibac.info/archive/technic/5.pdf (дата обращения: 24.07.2026)

Условия публикаций
Все статьи конференции

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

У данной статьи нет
дипломов

ИССЛЕДОВАНИЕ МОДЕЛЕЙ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ В ЭКСПЕРТНОЙ СИСТЕМЕ КОНТЕНТ-АНАЛИЗА

Шевина Татьяна Олеговна

магистрант второго года обучения, факультет информатики СГАУ им. С.П. Королева (национального исследовательского университета), г. Самара

E-mail: tatyana.shevina@gmail.com

Солдатова Ольга Петровна

научный руководитель, канд. тех. наук, доцент кафедры Информационных систем и технологий СГАУ им. С.П. Королева (национального исследовательского университета), г. Самара

Одной из проблем современных информационных систем является проблема структуризации и формализации материалов, представленных на естественном языке. Важным компонентом данной проблемы остается эффективность применения методик контент-анализа текстов, то есть выделения количественных характеристик (так называемый количественный анализ) и смыслового содержания текста (так называемый качественный анализ).

Количественные характеристики текста пригодны для анализа нейронными сетями — при достаточном объеме обучающей выборки нейронная сеть (особенно — сеть с нечеткой логикой) способна достаточно точно аппроксимировать вектор входных характеристик. Здесь важным условием успешности анализа можно считать плотное покрытие пространства ключевых слов текстами обучающей выборки и использование эффективных алгоритмов лемматизации слов (то есть усечения морфологических признаков слова) [3, c. 95].

Однако при попытках автоматизировать качественный анализ текста на естественном языке выявляется проблема нехватки информации о предметной области, которой при ручном контент-анализе обладает эксперт. Таким образом, возникает необходимость дополнительного обучения системы в ходе функционирования, а также объяснения получаемого результата, что приводит нас к концепции экспертной системы.

Типичная экспертная система состоит из следующих основных компонентов: Инженера знания, подсистемы приобретения знаний, базы знаний, рабочей базы данных, решателя, подсистемы пояснений, интерфейса пользователя и Пользователя.

База знаний предназначена для хранения долгосрочных данных, описывающих определенную предметную область, и правил, описывающих целесообразные преобразования данных этой области. При создании базы знаний необходимо описать смысловое содержание предметной области. Следует иметь такую форму описания знаний, которая гарантирует их обработку формальными методами. Для этих целей используют различные модели представления знаний.

Процедуры вывода позволяют на основании общих правил вывести решение для заданной конкретной ситуации, описываемой некоторыми исходными данными. Цепочка логического вывода строится по мере приближения к решению, в зависимости от выведенных на каждом шаге данных и выведенных к этому шагу новых знаний. Конкретные формы организации дедуктивного вывода зависят от того, в какой форме представлены знания в базе знаний.

Продукционная модель представления знаний наиболее распространена в приложениях. Модель реализуется правилами-продукциями: ЕСЛИ (условие), ТО (заключение). Условиями здесь являются любые суждения, соединенные связками конъюнкций и дизъюнкций.

Применяя такую модель к тексту на естественном языке, необходимо будет разделить перед началом анализа текст на логические единицы, что само по себе является нетривиальной задачей. Для семантического анализа такая модель не слишком удобна, а вот для синтаксического анализа — как раз подходит.

Например, алгоритм определения границ слова в данной модели может быть записан так: «Если справа и слева от некоторого набора букв стоят пробелы или знаки препинания, то набор букв является простым словом».

Конечно, данный алгоритм не годится для поиска сложных слов, пишущихся через дефис, однако универсальности здесь и не требуется.

Необходимо лишь было показать, что продукционная модель предполагает большую строгость и формальность при написании условий левой части продукции, а при контент — анализе содержания такие свойства обеспечить очень сложно.

Продукционные модели удобны для представления логических взаимосвязей между фактами, так как они более формализованы и достаточно строгие (теоретические), модульные (продукции явно между собой не связаны, поэтому их можно модифицировать по модульной технологии), соответствуют долговременной памяти человека [4, c. 3].

Фреймовая модель представления знаний задает остов описания класса объектов и удобна для описания структуры и характеристик однотипных объектов (процессов, событий) описываемых фреймами — специальными ячейками (шаблонами понятий) фреймовой сети (знания).

Фрейм — хранилище знаний, он может быть активирован как автономный элемент и как элемент сети. Фрейм — это модель единицы знаний, активизация фрейма аналогична активизации этого кванта знаний — для объяснения, предсказания и т. п. Отдельные характеристики (элементы описания) объекта называются слотами фрейма. Фреймы сети могут наследовать слоты других фреймов сети.

Фреймовое представление наглядно и структурировано (модульно) и позволяет получать описание системы в виде связанных, иерархических структур (модулей – фреймов, единиц представления знаний) [4, c. 4].

Однако сама задача качественного контент-анализа и состоит в выделении в ходе решения смысловой структуры текста. Таким образом, фреймовые модели в рамках поставленной задачи будут пригодны для декомпозиции текста на логические блоки (абзацы, части, главы, предложения), однако при работе с текстовым полотном невозможно будет выделить семантику текста, чего явно необходимо для разрабатываемой экспертной системы.

Под семантикой, с точки зрения информационных технологий, можно понимать принципы организаций языковых конструкций естественного языка.

Под семантической моделью текста можно понимать эквивалент данного текста, представленный таким образом, чтобы анализ смысловой нагрузки текста мог быть выполнен с использованием автоматизированных систем.

Развитие технологий построения семантических моделей во многом связано с развитием идеи, которая получила название «Семантическая сеть». В соответствии с концепцией семантической сети, для каждого текста должна быть построена соответствующая ему семантическая модель. Так, при анализе текстов на естественном языке анализироваться будет не сам текст, а его семантическая модель. Семантические модели текстов также становятся пригодными для сравнения [2, c. 187].

Однако модель семантической сети в рамках данной задачи также должна быть модифицирована внешними знаниями о языке: построением понятийных полей. Понятийное поле необходимо для выделения области контент-анализа отдельно взятого слова, содержит ключевое слово со своим понятийным контекстом, который представлен в форме синонимов первого и второго круга.

Определение понятийного поля состоит в формировании смысловых блоков текста из слов, исходя из их значения. При этом выбранные ключевые слова должны являться значимыми для данного текста [1, c. 569].

Таким образом, объединяя статистические результаты, результаты контент-анализа и семантическое представление признака внутри данного текста, можно построить единую модель, содержащую полную информацию по интересующему слову — понятию. Проводя последовательный анализ для блоков понятийного пространства, можно сформировать наиболее полную модель знаний исследуемой предметной области.

Список литературы:

Шевина Т.О. Нейронечеткое прогнозирование рейтинга политических фигур на основе контент-анализа СМИ// V Междунар. научно-практическая конференция учащихся и студентов: тезисы докл. конф. (г. Протвино Московской обл., 10—11 февраля 2012 года). — Протвино, 2012. С. 568—570.
Шевина Т.О., Построение семантической модели для задачи контент-анализа политической статьи//Информационно-телекоммуникационные системы и технологии: тезисы докл. Всерос. конф. (Кемерово, 20—22 сентября 2012 г.). — Кемерово, 2012. С. 187—188.
Шевина Т.О. Решение задачи контент-анализа с помощью нейросетевых моделей//Прикладная информатика и компьютерное моделирование: том 4 тезисов докл. всерос. конф.(г. Уфа, 25—28 мая 2012 года). — Уфа, —2012. С. 94—96.
[Электронный расурс] — Режим доступа — URL: http://www.intuit.ru/department/expert/intsys/14/3.html(дата обращения: 19.10.2012).