Статья опубликована в рамках: CXX Международной научно-практической конференции «Экспериментальные и теоретические исследования в современной науке» (Россия, г. Новосибирск, 29 декабря 2025 г.)

Наука: Технические науки

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Комаров И.Д. МЕТОД АВТОМАТИЧЕСКОГО ИНДЕКСИРОВАНИЯ НАУЧНЫХ ТЕКСТОВ НА ОСНОВЕ КОМБИНИРОВАННЫХ ВЕКТОРНЫХ ПРЕДСТАВЛЕНИЙ И ГРАФА СЕМАНТИЧЕСКОЙ БЛИЗОСТИ // Экспериментальные и теоретические исследования в современной науке: сб. ст. по матер. CXX междунар. науч.-практ. конф. № 12(112). – Новосибирск: СибАК, 2025. – С. 120-126.

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов

МЕТОД АВТОМАТИЧЕСКОГО ИНДЕКСИРОВАНИЯ НАУЧНЫХ ТЕКСТОВ НА ОСНОВЕ КОМБИНИРОВАННЫХ ВЕКТОРНЫХ ПРЕДСТАВЛЕНИЙ И ГРАФА СЕМАНТИЧЕСКОЙ БЛИЗОСТИ

Комаров Иван Дмитриевич

аспирант Всероссийского института научной и технической информации РАН (ВИНИТИ РАН),

РФ, г. Москва

A METHOD OF AUTOMATIC INDEXING OF SCIENTIFIC TEXTS BASED ON COMBINED VECTOR REPRESENTATIONS AND A SEMANTIC PROXIMITY GRAPH

Komarov Ivan Dmitrievich

Postgraduate student at the All-Russian Institute of Scientific and Technical Information of the Russian Academy of Sciences (VINITI RAS),

Russia, Moscow

АННОТАЦИЯ

Цель научного исследования – разработка и экспериментальная верификация нового метода автоматического индексирования, основанного на комбинации статистических, статических и контекстуальных векторных представлений с последующим ранжированием в пространстве семантической близости. Основные результаты научного исследования: статья содержит характеристику предлагаемого метода, результаты экспериментального исследования на примере научных статей с разметкой ключевых терминов, описание программной реализации авторского подхода. Разработанный метод позволяет повысить точность и смысловую адекватность автоматического индексирования научных текстов и может быть интегрирован в системы управления научной информацией, цифровые библиотеки и аналитические платформы. Перспективным направлением дальнейших исследований является автоматический подбор оптимальных весовых коэффициентов для компонентов комбинированного дескриптора и учёт метаданных документа.

ABSTRACT

The objective of this research is to develop and experimentally verify a new automatic indexing method based on a combination of statistical, static, and contextual vector representations, followed by ranking in a semantic proximity space. The main results of this research include: a description of the proposed method, the results of an experimental study using scientific articles with key term annotation, and a description of the software implementation of the author's approach. The developed method improves the accuracy and semantic adequacy of automatic indexing of scientific texts and can be integrated into scientific information management systems, digital libraries, and analytical platforms. A promising direction for further research is the automatic selection of optimal weighting factors for the components of a combined descriptor and the consideration of document metadata.

Ключевые слова: метод; автоматическое индексирование научных текстов; комбинированные векторные представления слов; граф семантической близости; ранжирование.

Keywords: method; automatic indexing of scientific texts; combined vector representations of words; semantic proximity graph; ranking.

Задача автоматической индексации научных текстов ключевыми терминами является важной составляющей систем управления научно-технической информацией. Качество её решения определяет эффективность поиска, кластеризации и рекомендации публикаций в современных цифровых библиотеках и аналитических системах [1-3]. Традиционные статистические методы (например, TF-IDF) и более продвинутые алгоритмы на основе графов (TextRank) демонстрируют ограниченную эффективность при работе со специфической научной терминологией, так как не учитывают семантическую близость и контекстуальную уместность терминов в полной мере [6].

Современные подходы, основанные на векторных представлениях слов, позволяют преодолеть эти ограничения. Однако каждая группа методов имеет определенные недостатки. Так, статистические подходы не учитывают семантику слов, статические эмбеддинги (Word2Vec, FastText) не разрешают проблему многозначности терминов в различных направлениях науки, а контекстуальные модели (BERT) могут недостаточно отражать глобальную статистическую специфичность термина в рамках пула научно-технических текстов [4], [5]. Таким образом, актуальной является разработка метода, интегрирующего достоинства разноуровневых подходов для повышения точности и полноты извлечения ключевых терминов.

Предлагаемый метод представляет собой последовательный конвейер обработки текста, ключевым элементом которого является формирование комбинированного векторного дескриптора для терминов-кандидатов.

Текст очищается, токенизируется и подвергается морфологическому анализу с определением частей речи (POS-тегирование). Термины-кандидаты выделяются в виде униграмм биграмм и триграмм, соответствующих заданным синтаксическим шаблонам, характерным для номинативных групп. Основным используемым шаблоном является (Adj|Noun)+ Noun, где Adj — прилагательное, Noun — существительное.

Для каждого уникального термина-кандидата t формируется комбинированный дескриптор , где [;] - операция конкатенации векторов, α, β, γ - весовые коэффициенты, определяемые на валидационной выборке, - статистический компонент, который рассчитывается как TF-IDF или BM25-вес термина t относительно всего обрабатываемого документа или выборки научных текстов, - элемент статического эмбеддинга, который отражает вектор термина t, полученный из предобученной модели FastText, - векторное представление, полученное для термина t в контексте конкретного предложения или абзаца текущего документа с использованием научной модели SciBERT.

Строится неориентированный взвешенный граф G = (V, E). Множество вершин V соответствует множеству терминов-кандидатов. Ребро между вершинами и проводится, если термин входит в множество k ближайших соседей термина в пространстве комбинированных дескрипторов (метод k-NN, k = 5-10). Вес ребра вычисляется как косинусная близость между векторами и . Таким образом, граф кодирует семантические связи между терминами, основанные на трёх рассматриваемых аспектах.

С целью ранжирования вершин графа применяется алгоритм PageRank, модифицированный для работы со взвешенными рёбрами. Итеративный процесс распространения весов в графе позволяет выявить термины, являющиеся наиболее важными в семантической структуре текста. Термины с наибольшим весом (рангом) формируют ядро ключевых слов. Для обеспечения тематического разнообразия перечня применяется дополнительная фильтрация: вершины графа кластеризуются с помощью алгоритма Louvain для выявления сообществ семантически близких терминов. Из каждого кластера выбирается 1-2 термина с наивысшим весом PageRank.

Научная новизна представленного метода заключается в том, что он предлагает схему интеграции статистической специфичности (TF-IDF), общей семантики (FastText) и контекстуальной значимости (SciBERT) в единый дескриптор, что позволяет комплексно оценивать релевантность термина. В отличие от классического метода TextRank, где рёбра строятся на основе ко-вхождений в текстовом окне, в предложенном подходе граф строится в семантическом пространстве, сформированном на основе интегрального векторного представления текстовой информации.

Для оценки эффективности предложенного метода был проведён эксперимент на примере двух наборов научных статей с ручной разметкой ключевых терминов:

1. Inspec (аннотации 500 статей по компьютерным наукам).

2. Krapivin (полные тексты 398 научных статей).

В качестве базовых методов сравнения выбраны TF-IDF, TextRank, KeyBERT (метод, основанный на концепции SciBERT).

Результаты эксперимента (табл. 1) обусловили, что предложенный метод (обозначенный как Combined-Graph) более эффективен в сравнении с базовыми подходами по метрике гармонического среднего между точностью и полнотой на обоих наборах текстов.

Таблица 1.

Результаты экспериментального сравнения методов по показателю гармонического среднего между точностью и полнотой (шаг расчёта = 10)

Метод	Inspec	Krapivin
TF-IDF	0,318	0,235
TextRank	0,334	0,248
KeyBERT (SciBERT)	0,427	0,351
Предлагаемый метод (Combined-Graph)	0,463	0,382

Источник: разработано автором.

Наибольший прирост качества (по сравнению с лучшим базовым методом KeyBERT) наблюдается на выборке данных Krapivin, содержащем полные тексты. Это указывает на то, что комбинирование признаков особенно эффективно в условиях более длинных и тематически разнородных документов, где требуется тонкое взвешивание специфичности и общности терминов.

Метод реализован в виде Python с модульной архитектурой, соответствующей указанным выше этапам. Используемые ключевые технологии и библиотеки программной реализации:

1. Язык программирования - Python 3.8+.

2. Обработка текста: токенизация, POS-тегирование, лемматизация.

3. Векторизация слов: scikit-learn (TF-IDF), gensim (FastText), transformers (SciBERT).

4. Графовые алгоритмы: networkx (построение графа, PageRank), python-louvain (кластеризация).

5. Интерфейс - FastAPI для предоставления REST API.

# Пример программного вызова

from text_indexer import ScientificTextIndexer

indexer = ScientificTextIndexer(model_path='./models')

text = "Полный текст научной статьи..."

keywords = indexer.extract_keywords(

text=text,

top_k=10,

weights={'alpha': 0.3, 'beta': 0.3, 'gamma': 0.4} # Веса для V_stat, V_embed, V_ctx

)

Для интерпретации результатов реализована функция визуализации графа. Его узлы (термины-кандидаты) окрашены в соответствии с кластерами, выявленными алгоритмом Louvain. Размер узла пропорционален весу PageRank. Толщина ребра отражает вес семантической близости.

# Создание графа

G = nx.Graph()

# Добавление узлов с атрибутами (кластер, вес)

nodes = [

('word2vec', {'cluster': 'red', 'weight': 0.15}),

('fasttext', {'cluster': 'red', 'weight': 0.12}),

# ... остальные узлы

]

for node, attrs in nodes:

G.add_node(node, **attrs)

# Добавление ребер с весами

edges = [

('word2vec', 'fasttext', {'weight': 0.9}),

('word2vec', 'эмбеддинги', {'weight': 0.8}),

# ... остальные ребра

]

for u, v, attrs in edges:

G.add_edge(u, v, **attrs)

# Визуализация

pos = nx.spring_layout(G, seed=42)

colors = [G.nodes[n]['cluster'] for n in G.nodes()]

sizes = [G.nodes[n]['weight'] * 3000 for n in G.nodes()]

widths = [G.edges[e]['weight'] * 3 for e in G.edges()]

plt.figure(figsize=(12, 8))

nx.draw_networkx(G, pos, node_color=colors, node_size=sizes,

width=widths, with_labels=True,

font_size=10, font_weight='bold')

# Легенда

legend_elements = [

mpatches.Patch(color='red', label='Методы векторизации'),

mpatches.Patch(color='blue', label='Архитектура моделей'),

mpatches.Patch(color='green', label='Задачи обработки')

]

plt.legend(handles=legend_elements, loc='upper right')

plt.title('Граф семантической близости терминов', fontsize=14)

plt.axis('off')

plt.tight_layout()

plt.savefig('semantic_graph.png', dpi=300, bbox_inches='tight')

plt.show()

Таким образом, разработан новый метод автоматического индексирования научных текстов, основанный на комбинации статистических, статических и контекстуальных векторных представлений терминов и их последующем графовом ранжировании в едином пространстве семантической близости. Подход реализован в виде программного модуля с чёткой архитектурой, использующего современные библиотеки обработки естественного языка и машинного обучения.

Список литературы:

Жаксыбаев Д. О., Мизамова Г. Н. Алгоритмы обработки естественного языка для понимания семантики текста // Труды Института системного программирования РАН. – 2022. – Т. 34. – №. 1. – С. 141-150.
Куровский С. В., Мишин Д. А., Анастасиади Д. Е., Матюхин Ф. М. Разработка информационной технологии защиты персональной информации // Мягкие измерения и вычисления. - 2025. - Т. 89. - № 4. - С. 89-97.
Куровский С. В., Мишин Д. А. Информационно-поисковая система анализа научных журналов: свидетельство о регистрации программы для ЭВМ RU 2025688510, 21.10.2025. Заявка № 2025685952 от 26.09.2025.
Лыченко Н. М., Сороковая А. В. Сравнение эффективности методов векторного представления слов для определения тональности текстов // Математические структуры и моделирование. – 2019. – №. 4 (52). – С. 97-110.
Мусаев А. А., Григорьев Д. А. Обзор современных технологий извлечения знаний из текстовых сообщений // Компьютерные исследования и моделирование. – 2021. – Т. 13. – №. 6. – С. 1291-1315.
Рыбаченко И. А. Анализ технологий автоматизированного извлечения нарратива из текста социальных медиа // Доклады Томского государственного университета систем управления и радиоэлектроники. – 2025. – Т. 28. – №. 1. – С. 100-107.

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов