Статья опубликована в рамках: Научного журнала «Студенческий» № 12(32)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5

Библиографическое описание:
Бычкова В.Н. ПРОГРАММА ВЫДЕЛЕНИЯ КЛЮЧЕВЫХ СЛОВ ТЕКСТА // Студенческий: электрон. научн. журн. 2018. № 12(32). URL: https://sibac.info/journal/student/32/111644 (дата обращения: 21.09.2019).

ПРОГРАММА ВЫДЕЛЕНИЯ КЛЮЧЕВЫХ СЛОВ ТЕКСТА

Бычкова Вероника Наилевна

студент, факультета автоматизированных систем обработки информации и управления, КНИТУ-КАИ,

РФ, г. Казань

В поисковых системах находится огромное количество источников информации на самые различные вопросы. И как же здесь найти именно то, что нужно? Мощность серверов по обработке информации, конечно, очень большая, но этого будет недостаточно, чтобы по запросу просмотреть все источники информации, к которым есть доступ по сети. Необходимо некоторым образом уменьшить количество просматриваемых при запросе источников информации. Для этого используется индексация документов. Индексация текстовых документов состоит в том, чтобы к каждому документу создать поисковый образ документа, характеризующий его содержание.

Индексация текстовых документов может происходить разными методами. Один из вариантов – координатное индексирование. В этом случае текст представляется множеством ключевых слов, отражающих содержание текста.

Для того чтобы отделить ключевые слова от «неключевых», индексаторы используют общие методические указания:

  • служебные слова (предлоги, союзы, частицы и т. д.) следует считать неключевыми;
  • в качестве ключевых слов могут выступать существительные, прилагательные, числительные, причастия и их сочетания, наречия, деепричастия и местоимения в состав ключевых слов не входят, глаголы – очень редко;
  • не следует включать в словарь ключевых слов термины, которые очень редко встречаются в данном документном массиве, их можно учесть в отдельном списке в роли ключевых слов-кандидатов;
  • часто встречающиеся, но общие термины («метод», «система», «описание», «устройство» и т. п.) надо либо исключить, либо использовать в сочетании с другими словами, которые сузили бы их значение;
  • не имеет смысла включать в словарь термины, не относящиеся к данной терминологической области [2].

Координатные индексы строятся на моделях представления текстов. Модели представления текста представляют собой вектор из слов, содержащихся в текстах и весов этих слов. Существуют следующие методы построения векторов текста: Bag-of-Words, Word2Vec, Doc2Vec [3].

Идея метода Bag-of-Words (мешок слов) состоит в том, что слова, которые встречаются в тексте чаще всего, отражают основной смысл текста. При этом методе вес слова подсчитывается как количество вхождений каждого слова в текст. Сложность состоит в том, что чем больше текст, тем больше в нём слов и тем больше ресурсов компьютера понадобится для обработки текста.

Модель Word2Vec также составляет вектора содержащихся в нём слов, но в отличие от «мешка слов» в качестве веса используется контекстная близость слов. То есть если два слова встречаются с одними и теми же словами рядом, то эти два слова имеют схожий смысл и будут иметь близкое значение координат вектора.

Метод Doc2Vec представляет собой два метода: distributed memory (DM, распределенная память) и distributed bag of words (DBOW, распределенный мешок слов). Метод DM прогнозирует слово по известным предшествующим словам и вектору абзаца. DBOW прогнозирует случайные группы слов в абзаце только на основании вектора абзаца.

Рассмотрим задачу определения ключевых слов текста.

Ключевые слова для текстов выбираются двумя способами. В первом случае выбирается слово, которое чаще всего встречается в тексте. Во втором случае используется характеристика TF*IDF [4].

Для понижения значимости слов, которые встречаются почти во всех документах, вводят инверсную частоту термина IDF (inverse document frequency) - это логарифм отношения числа всех документов D к числу документов, содержащих некоторое слово t. Параметр TF (term frequency) - это отношение числа раз, которое некоторое слово t встретилось в документе d, к длине документа. Коэффициент TF*IDF равен произведению TF и IDF. TF играет роль повышающего множителя, IDF - понижающего. Тогда весовыми параметрами векторной модели некоторого документа можно принять коэффициенты TF*IDF входящих в него слов.

Для решения задачи определения ключевых слов текста была разработана программа. Перед выполнением программы необходима предварительная обработка слов текста. Заранее следует убрать из текста знаки препинания, частицы, предлоги, союзы, местоимения. Эти части речи встречаются в тестах чаще других слов, но не несут смысла, поэтому не могут стать ключевыми словами. В русском языке каждое слово имеет множество словоформ с различными окончаниями. Приведение слов к начальной форме программно очень сложно реализовать, поэтому в качестве данных используются слова, заранее приведённые к начальной форме.

Разработанная программа производит обработку данных в два этапа. На первом этапе формируется список слов, встречающихся в тексте, и количество их вхождений в текст. Для этого каждое слово проверяется на наличии его в списке. Если слова ещё нет, то оно вносится в список. Если слово уже есть, то к количеству его вхождений прибавляется единица. На втором этапе, имея частоту вхождений всех слов в текст происходит подсчёт характеристики TF*IDF.

В качестве текстовых данных были взяты многим известные две истории из сказок Григория Остера «Котёнок по имени Гав». Первым текстом является история о том, что щенок попросил котёнка присмотреть за его котлетой, а котёнок её спрятал в себя. Вторым текстом является история, когда щенок и котёнок прячутся от дождя на чердаке.

На рисунке 1 приведён фрагмент таблицы с исходными данными программы.

 

Исходные

Код

Текстовое слово

Часть речи

Номер текста

58

гав

С

1

61

очень

Н

1

62

хорошо

Н

1

63

спрятать

Г

1

66

съесть

Г

1

67

дождь

С

2

68

громко

Н

2

69

стучать

Г

2

70

крыша

С

2

71

котёнок

С

2

 

Рисунок 1. Фрагмент исходных данных программы

 

На рисунках 2 и 3 приведён фрагмент частотных характеристик слов и строка результата работы программы.

 

Рисунок 2. Фрагмент результирующих данных программы

 

Рисунок 3. Строка результатов работы программы

 

В результате работы программы для представленных входных данных можно отметить, что методы дали разный результат. В первом тексте «щенок» является самым частым словом, но это слово также достаточно часто встречается и во втором тексте. Показатель TF*IDF учитывает встречаемость слова в другом тексте и считает слово «щенок» менее значимым. Слова с максимальным TF*IDF подходят для ключевых слов, различающих два текста по смыслу. Слова «котлета» и «бояться» дают вполне конкретное определение о содержании текстов. Кроме того, из таблицы результатов можно заметить, что слова «щенок», «котёнок», «гав» встречаются в обоих текстах одинаково часто и, используя их в качестве ключевых, можно сказать, что оба текста рассказывают об одном и том же.

 

Список литературы:

  1. Р.С. Гиляревский основы информатики URL: http://rykovodstvo.ru/exspl/43507/index.html?page=30
  2. Л.Б. Зупарова, Т. А. Зайцева Аналитико-синтетическая переработка информации URL: https://studfiles.net/preview/2957462/page:66/
  3. Современные методы анализа тональности текста URL: http://datareview.info/article/sovremennyie-metodyi-analiza-tonalnosti-teksta/
  4. Методы автоматической классификации текстов URL: http://www.swsys.ru/index.php?page=article&id=4252

Оставить комментарий