Статья опубликована в рамках: XCV Международной научно-практической конференции «Вопросы технических и физико-математических наук в свете современных исследований» (Россия, г. Новосибирск, 26 января 2026 г.)

Наука: Информационные технологии

Секция: Системный анализ, управление и обработка информации

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Комаров И.Д. СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ ВЕКТОРНОГО ПРЕДСТАВЛЕНИЯ СЛОВ ДЛЯ ЗАДАЧИ АВТОМАТИЧЕСКОГО ИНДЕКСИРОВАНИЯ НАУЧНЫХ ТЕКСТОВ // Вопросы технических и физико-математических наук в свете современных исследований: сб. ст. по матер. XCV междунар. науч.-практ. конф. № 1(86). – Новосибирск: СибАК, 2026. – С. 23-28.

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов

СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ ВЕКТОРНОГО ПРЕДСТАВЛЕНИЯ СЛОВ ДЛЯ ЗАДАЧИ АВТОМАТИЧЕСКОГО ИНДЕКСИРОВАНИЯ НАУЧНЫХ ТЕКСТОВ

Комаров Иван Дмитриевич

аспирант Всероссийского института научной и технической информации РАН (ВИНИТИ РАН),

РФ, Москва

COMPARATIVE ANALYSIS OF METHODS OF VECTOR REPRESENTATION OF WORDS FOR THE TASK OF AUTOMATIC INDEXING OF SCIENTIFIC TEXTS

Komarov Ivan Dmitrievich

Postgraduate student at the All-Russian Institute of Scientific and Technical Information of the Russian Academy of Sciences (VINITI RAS),

Russia, Moscow

АННОТАЦИЯ

Цель научного исследования – проведение сравнительного анализа методов векторного представления слов для оценки их эффективности в задаче автоматического индексирования научных текстов. Основные результаты научного исследования: статья содержит систематизацию методов векторизации, результаты разработки методологии их сравнения на едином конвейере обработки научных текстов, проведения экспериментальной оценки на выборке статей и формулировку практических рекомендаций по выбору метода векторного представления. Перспективными направлениями дальнейших исследований являются разработка более эффективных гибридных методов, создание и использование узкоспециализированных предиктивных моделей для конкретных научных дисциплин, а также оптимизация вычислительной сложности контекстуальных моделей для их массового применения в системах научной информации.

ABSTRACT

The objective of this research is to conduct a comparative analysis of word vector representation methods to evaluate their effectiveness in automatically indexing scientific texts. The main findings of this research include: a systematization of vectorization methods, the development of a methodology for comparing them within a single scientific text processing pipeline, an experimental evaluation on a sample of articles, and the formulation of practical recommendations for selecting a vector representation method. Promising areas for further research include the development of more effective hybrid methods, the creation and use of highly specialized predictive models for specific scientific disciplines, and the optimization of the computational complexity of contextual models for their widespread use in scientific information systems.

Ключевые слова: методы векторного представления слов; автоматическое индексирование научных текстов; сравнительный анализ; экспериментальная оценка; практические рекомендации.

Keywords: word vector representation methods; automatic indexing of scientific texts; comparative analysis; experimental evaluation; practical recommendations.

Автоматическое индексирование научных текстов ключевыми терминами выступает задачей информационного поиска и обработки естественного языка, цель которой состоит в автоматическом определении набора лексических единиц, наиболее релевантно и полно отражающих основное содержание документа [2], [3]. Качество решения данной задачи влияет на эффективность последующих процессов, а именно поиска, классификации, кластеризации и реферирования научных публикаций в цифровых библиотеках и системах научного знания [1].

Традиционные частотные и статистические методы индексирования научных текстов часто отражают недостаточную семантическую чувствительность, неспособность распознавать синонимию и учитывать контекстное употребление терминов [6]. При этом современные подходы, основанные на использовании векторных представлений слов (эмбеддингов), позволяют перейти от поверхностного сопоставления строк к работе с непрерывными векторными пространствами, где семантическая близость выражается через геометрическую близость векторов.

В связи с наличием множества методов генерации векторных представлений и их постоянным развитием актуальной является задача систематического сравнительного анализа данных методов именно в контексте автоматического индексирования научных текстов [4]. Такой анализ должен оценивать применимость методов с учётом специфики научного дискурса (наличие сложной терминологии, многокомпонентных номинализаций, аббревиатур) и вычислительной эффективности.

Методы векторного представления лексических единиц для рассматриваемой задачи можно разделить на три основные категории, эволюционировавшие от статистических подходов к глубоким нейросетевым архитектурам: статистические и частотные методы, статические эмбеддинги, контекстуальные эмбеддинги на основе трансформеров (табл. 1).

Статистические и частотные методы не генерируют распределённые представления в явном виде, но формируют вектор документа или термина на основе статистики. Общее свойство статических эмбеддингов – статичность, поскольку каждому слову соответствует один вектор вне зависимости от контекста употребления. Ключевым отличием контекстуальных эмбеддингов на основе трансформеров выступает динамичность, так как вектор одного и того же слова различен в разных контекстах. Это позволяет корректно обрабатывать многозначные термины (например, «клетка» в биологии и «клетка» в юриспруденции).

Таблица 1.

Сравнительная характеристика методов векторного представления для задачи индексирования научных текстов

Критерий	Статистические и частотные методы (TF-IDF, TextRank)	Статические эмбеддинги (Word2Vec, FastText)	Контекстуальные эмбеддинги (BERT, SciBERT)
Учёт контекста	Отсутствует	Локальный (окно фиксированного размера)	Глобальный (всё предложение или документ)
Разрешение полисемии	Отсутствует	Отсутствует	Да
Обработка OOV-слов	Да	Да	Да
Требуемый объём данных	Малый	Очень большой	Очень большой
Вычислительная сложность (инференс)	Низкая	Низкая	Высокая
Семантическая обобщённость	Низкая	Высокая (для слов из словаря)	Очень высокая
Способ получения вектора для n-граммы (термина)	Прямой расчёт	Усреднение векторов слов	Усреднение векторов токенов

Источник: составлено автором на основе [1]; [4-6]

Для сравнения методов был реализован единый конвейер автоматического индексирования научных текстов, состоящий из следующих этапов:

1. Препроцессинг (токенизация, лемматизация, удаление стоп-слов (за исключением экспериментов с методом BERT, где используется встроенный в функционал токенизатор).

2. Выделение кандидатов в ключевые термины (извлечение всех униграмм, биграмм и триграмм, соответствующих заданным шаблонам частей речи ((Прил|Сущ)+ Сущ).

3. Векторизация и ранжирование кандидатов (для каждого термина-кандидата вычисляется векторное представление выбранным методом. При использовании статических эмбеддингов вектор n-граммы вычисляется как среднее векторов входящих в него слов. В рамках применения BERT-моделей осуществлялось усреднение векторов выходного слоя для токенов, составляющих n-грамму. Ранжирование кандидатов производилось по косинусной близости между вектором термина и всего документа (TF-IDF - по весу, статические эмбеддинги - вектор документа как среднее векторов его слов или токенов)).

4. Оценка качества (эксперимент проводился на выборке открытых научных статей E-library (направление - информатика) с ручными ключевыми терминами. Использовались традиционные индикаторы, в частности, точность, полнота, гармоническое среднее между точностью и полнотой (шаг расчета = 5, 10, 15), а также nDCG (нормализованный параметр качества ранжирования), оценивающий релевантность, порядок ранжирования найденных терминов).

В табл. 2 представлены результаты по всей выборке научных текстов.

Таблица 2.

Результаты экспериментальной оценки методов (шаг расчёта = 10)

Метод векторизации	Гармоническое среднее между точностью и полнотой	Нормализованный параметр качества ранжирования
TF-IDF (базовый уровень)	0,318	0,401
TextRank	0,334	0,419
Word2Vec (Skip-Gram)	0,352	0,455
FastText	0,368	0,478
BERT (базовая версия)	0,391	0,502
SciBERT (дообученная модель на научных текстах)	0,427	0,541

Источник: разработано автором.

Контекстуальные модели векторизации слов (BERT, SciBERT) показывают статистически значимое превосходство по двум переменным. Это подтверждает гипотезу о значимости учёта контекста для корректного понимания научной терминологии. Метод SciBERT доминирует над базовой версией BERT, что подчёркивает важность использования доменно-специфичных моделей для задач обработки научных текстов. Среди статических эмбеддингов лучший результат показал FastText, что объясняется его устойчивостью к морфологии и OOV-словам, часто встречающимся в научных текстах (новые термины, комбинации). Статистические методы (TF-IDF, TextRank) формируют нижний базовый уровень качества. Их преимущество состоит в крайне низкой вычислительной стоимости и простоте реализации.

Выбор оптимального метода для системы автоматического индексирования научных текстов должен осуществляться на основе баланса между требованиями к качеству, доступными вычислительными ресурсами и спецификой обрабатываемых данных. Для создания высококачественной системы с приоритетом на максимальной точности и полноте индексирования рекомендуются контекстуальные эмбеддинги на основе доменно-специфичных моделей (SciBERT). Необходимо обеспечить наличие GPU- или TPU-ускорителей для приемлемой скорости обработки информации. Данный подход научно обоснован и подтверждён результатами эксперимента.

В сценариях, где значимыми представляются интерпретируемость результата и простота реализации (базовые исследовательские прототипы, образовательные задачи), допустимо применение усовершенствованных статистических методов, таких как TextRank или модификации TF-IDF с расширенным набором признаков. Однако следует учитывать их объективно более низкий уровень качества системного анализа и обработки слов в научных текстах.

Перспективным направлением выступает практическое применение смешанного подхода. Так, можно использовать быстрый статический эмбеддинг FastText для первичного отбора терминов-кандидатов, а затем применять контекстуальную модель SciBERT для их точного ранжирования и фильтрации, что позволит повысить общую эффективность системы.

Таким образом, проведённый сравнительный анализ методов векторного представления слов подтвердил, что их эволюция от статистических к контекстуальным нейросетевым моделям приводит к существенному повышению качества автоматического индексирования научных текстов ключевыми терминами. Установлено, что модели на основе трансформеров (BERT), особенно дообученные на научных текстах (SciBERT), отражают наилучшие результаты по переменным гармонического среднего между точностью и полнотой, нормализованного параметра качества ранжирования. Их основное преимущество заключается в существовании способности формировать контекстно-зависимые представления, что позволяет корректно обрабатывать многозначную научную терминологию. Статические эмбеддинги, в частности FastText, остаются эффективным и ресурсо-оптимальным решением, особенно в задачах, требующих обработки незнакомых слов или работы в условиях ограниченных вычислительных мощностей.

Список литературы:

Жаксыбаев Д. О., Мизамова Г. Н. Алгоритмы обработки естественного языка для понимания семантики текста // Труды Института системного программирования РАН. – 2022. – Т. 34. – №. 1. – С. 141-150.
Куровский С. В., Мишин Д. А., Анастасиади Д. Е., Матюхин Ф. М. Разработка информационной технологии защиты персональной информации // Мягкие измерения и вычисления. - 2025. - Т. 89. - № 4. - С. 89-97.
Куровский С. В., Мишин Д. А. Информационно-поисковая система анализа научных журналов: свидетельство о регистрации программы для ЭВМ RU 2025688510, 21.10.2025. Заявка № 2025685952 от 26.09.2025.
Лыченко Н. М., Сороковая А. В. Сравнение эффективности методов векторного представления слов для определения тональности текстов // Математические структуры и моделирование. – 2019. – №. 4 (52). – С. 97-110.
Мусаев А. А., Григорьев Д. А. Обзор современных технологий извлечения знаний из текстовых сообщений // Компьютерные исследования и моделирование. – 2021. – Т. 13. – №. 6. – С. 1291-1315.
Рыбаченко И. А. Анализ технологий автоматизированного извлечения нарратива из текста социальных медиа // Доклады Томского государственного университета систем управления и радиоэлектроники. – 2025. – Т. 28. – №. 1. – С. 100-107.

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов