Статья опубликована в рамках: XCIX Международной научно-практической конференции «Вопросы технических и физико-математических наук в свете современных исследований» (Россия, г. Новосибирск, 25 мая 2026 г.)

Наука: Информационные технологии

Секция: Автоматизация и управление технологическими процессами и производствами

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Парфенов С.В. ГИБРИДНЫЙ МЕТОД АВТОМАТИЗИРОВАННОГО СОПОСТАВЛЕНИЯ СТРОИТЕЛЬНЫХ МАТЕРИАЛОВ С ПОЗИЦИЯМИ НОРМАТИВНОЙ БАЗЫ ДАННЫХ // Вопросы технических и физико-математических наук в свете современных исследований: сб. ст. по матер. XCIX междунар. науч.-практ. конф. № 5(90). – Новосибирск: СибАК, 2026. – С. 8-13.

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов

ГИБРИДНЫЙ МЕТОД АВТОМАТИЗИРОВАННОГО СОПОСТАВЛЕНИЯ СТРОИТЕЛЬНЫХ МАТЕРИАЛОВ С ПОЗИЦИЯМИ НОРМАТИВНОЙ БАЗЫ ДАННЫХ

Парфенов Сергей Владимирович

аспирант, Национальный исследовательский Московский государственный строительный университет (НИУ МГСУ),

РФ, г. Москва

Введение

Автоматизация процессов сметного нормирования является одним из приоритетных направлений цифровой трансформации строительной отрасли. По данным производственной практики ООО «АЛЬФАСТРОЙ», подготовка локальных смет в ручном режиме требует от 40 до 60 человеко-часов на типовой объект, а отклонение фактических затрат от сметных показателей достигает 15–25%. Переход к ресурсно-индексному методу ценообразования и введение актуализированной федеральной сметно-нормативной базы 2022 года (ФСНБ-2022), включающей около 100 000 нормативных позиций, существенно увеличили трудоёмкость расчётов [3].

Центральной задачей автоматизированного формирования сметной документации является сопоставление наименований строительных материалов из проектных спецификаций с позициями корпоративных справочников номенклатуры. Задача характеризуется высокой вариативностью входных данных: один и тот же материал может быть обозначен в спецификации сокращениями, торговыми марками, синонимами, аббревиатурами и различными форматами записи технических параметров. Традиционные методы поиска не обеспечивают достаточной точности для практического применения.

Цель настоящего исследования — повышение точности автоматизированного сопоставления строительных материалов с позициями справочника номенклатуры за счёт доменно-ориентированной адаптации поисковых компонентов. Разработан гибридный метод, объединяющий алгоритм взвешенного частотного поиска (BM25), семантический поиск на основе нейросетевых векторных представлений предложений (Sentence-BERT) с индексацией в библиотеке быстрого векторного поиска (FAISS) и нечёткое сравнение строк (rapidfuzz), дополненный двухэтапным механизмом предобработки запросов и словарём синонимов строительной терминологии.

Анализ существующих подходов

Методы разреженного поиска основаны на статистических характеристиках вхождения терминов. Алгоритм BM25 [8] вычисляет релевантность документа на основе взвешенного частотного анализа с учётом длины. По данным BEIR-бенчмарка [9], BM25 достигает среднего nDCG@10 = 43,4 при zero-shot поиске по разнородным коллекциям; для специализированных технических баз без адаптации точность ещё ниже. Плотный семантический поиск использует нейросетевые векторные представления для кодирования семантики. Модель Sentence-BERT [6] на сиамской архитектуре BERT с применением mean pooling генерирует семантически значимые эмбеддинги, а библиотека FAISS [2] обеспечивает эффективный поиск ближайших соседей в многомерных векторных пространствах. Исследования показывают [1, 5], что комбинирование разреженного и плотного поиска стабильно превосходит каждый метод в отдельности, а специализированная обработка доменной терминологии является более значимым фактором точности, чем выбор архитектуры поиска [4, 10]. Задача автоматизированного сопоставления строительных материалов с нормативной базой в масштабе свыше 100 000 позиций с применением доменно-адаптивных весовых коэффициентов для русскоязычной строительной терминологии ранее не решалась.

Предлагаемый гибридный метод

Метод включает два этапа: предобработку запроса и гибридный поиск. Итоговый гибридный скор вычисляется по формуле:

S(q, d) = w1•SBM25(q, d) + w2•SSEM(q, d) + w3•SFUZZY(q, d), (1)

где q — нормализованный запрос; d — позиция базы данных; w1, w2, w3 — весовые коэффициенты; SBM25, SSEM, SFUZZY — нормированные скоры компонентов поиска соответственно.

Анализ ошибок базовой конфигурации показал, что оптимальный баланс компонентов существенно различается для разных категорий материалов. На этой основе введены дифференцированные весовые коэффициенты по пяти инженерным системам (таблица 1). В основе классификации лежит подсчёт совпадений токенов запроса с тематическими ключевыми словами каждой из пяти систем; система с наибольшим счётом признаётся определённой.

Таблица 1.

Весовые коэффициенты компонентов по категориям материалов

Инженерная система	w₁ (BM25)	w₂ (Семантика)	w₃ (Fuzzy)
Электроснабжение и слаботочные системы	0,55	0,30	0,15
Отопление	0,50	0,35	0,15
Вентиляция	0,50	0,35	0,15
Водоснабжение и канализация	0,45	0,40	0,15
По умолчанию	0,50	0,35	0,15

В основе классификации лежит подсчёт совпадений токенов запроса с тематическими ключевыми словами каждой из пяти систем; система с наибольшим счётом признаётся определённой.

Практика работы со спецификациями показала: одно и то же изделие нередко записывается принципиально по-разному. Разработанный алгоритм последовательно выполняет пять преобразований — сначала текст приводится к нижнему регистру и очищается от лишних символов, затем унифицируются обозначения единиц измерения (ДУ, ду → DN; ф → Ø; мм. → мм), нормализуются марки материалов (полипропилен → ПП; поливинилхлорид → ПВХ), извлекаются ключевые технические параметры (диаметр, класс прочности, марка, ГОСТ), после чего запрос расширяется синонимами из отраслевого словаря. Последний содержит порядка 95 групп эквивалентных наименований, а также таблицу соответствия дюймовых обозначений стандарту DN.

При настройке BM25 параметр насыщения частотности k₁ установлен равным 1,5, коэффициент нормализации по длине b = 0,75 — оба значения подобраны в ходе предварительного тестирования. Для формирования семантических эмбеддингов выбрана многоязычная модель paraphrase-multilingual-MiniLM-L12-v2: она продуцирует 384-мерные векторы, поддерживает русский язык и сохраняет приемлемую скорость вычислений. Векторный индекс FAISS типа IVF256,PQ32 строится однократно при запуске; на практике поиск 50 ближайших кандидатов среди 101 750 записей занимает менее 100 мс. Нечёткое сравнение выполняется функцией token_sort_ratio библиотеки rapidfuzz — перед расчётом расстояния Левенштейна она сортирует токены, что устраняет влияние порядка слов в наименовании.

Экспериментальная апробация и результаты

Тестовая выборка собрана из реальных спецификаций трёх строительных объектов ООО «АЛЬФАСТРОЙ» и насчитывает 4 758 пар вида «входное наименование — корректная позиция справочника». Разметку выполнили два сметчика независимо, итоговую проверку провёл руководитель проекта. По инженерным системам выборка распределилась так: электроснабжение и слаботочные - 1 237 позиций (26%), водоснабжение и канализация - 1 142 (24%), вентиляция - 1 071 (22,5%), отопление - 785 (16,5%), прочие и неклассифицированные - 523 (11%). Качество оценивалось по трём показателям: доле запросов с верным ответом на первой позиции (top-1), доле с верным ответом в тройке лидеров (top-3) и среднему обратному рангу (MRR).

В сравнении участвовали пять конфигураций: три однокомпонентные (только BM25, только Sentence-BERT, только rapidfuzz), базовый гибрид без нормализации и полная версия предлагаемого метода. Сводные результаты приведены в таблице 2.

Таблица 2.

Сравнительные результаты конфигураций метода сопоставления (n = 4 758)

Метод / Конфигурация	Top-1, %	Top-3, %	MRR
Только BM25	38	51	0,427
Только Sentence-BERT	41	55	0,464
Только Fuzzy (rapidfuzz)	29	44	0,347
Базовый гибрид (без нормализации)	46	53	0,509
Гибрид + нормализация (без синонимов)	61	72	0,648
Предлагаемый метод (полная конфигурация)	78	87	0,813

Данные таблицы 2 наглядно демонстрируют: ни один однокомпонентный метод не преодолевает отметку 41% по top-1, тогда как уже базовый гибрид без нормализации даёт 46%. Включение нормализации подняло показатель до 61% - прирост 15 п.п. сам по себе весом. Дополнительное подключение словаря синонимов улучшило результат до 78%, то есть принесло ещё 17 п.п. Итоговое превышение над базовым гибридом - 32 п.п., над лучшим однокомпонентным методом (Sentence-BERT) - 37 п.п. Значение top-3 = 87% означает, что в режиме подтверждения специалистом система фактически покрывает весь объём запросов. Между категориями заметен разброс: для электроснабжения top-1 составил 86,5%, для водоснабжения и канализации - лишь 68,8%. Это закономерно: трубопроводная арматура имеет наиболее высокую терминологическую вариативность, а словарь синонимов охватывает её пока не полностью.

Заключение

В работе предложен и проверен на реальных производственных данных гибридный метод сопоставления строительных материалов с позициями корпоративного справочника объёмом 101 750 записей. Три поисковых компонента - BM25, Sentence-BERT+FAISS и rapidfuzz - объединены через взвешенную функцию агрегации с коэффициентами, дифференцированными по инженерным системам. Нормализация запросов и словарь синонимов строительной терминологии обеспечили прирост точности с 46% до 78% (+32 п.п. по метрике top-1), что подтверждает практическую состоятельность подхода. В дальнейшем метод планируется расширить на следующий уровень задачи - сопоставление позиций внутреннего справочника с видами работ нормативных баз ГЭСН/ФЕР, что позволит замкнуть полный цикл автоматизированного формирования локальных смет.

Список литературы:

Akanbi L., Zhang J. Design information extraction from construction specifications to support cost estimation // Automation in Construction. — 2021. — Vol. 130. — Art. 103869.
Askari A., Abolghasemi A., Piwowarski B., Broschart A., Verberne S. Injecting the BM25 Score as Text Improves BERT-Based Re-rankers // Proceedings of ECIR. — 2023. — P. 66–75.
Chen J., Bao Y. Toward construction-specialized, small language models: the interplay of domain adaptation, model scale and data volume // Advanced Engineering Informatics. — 2025. — Vol. 66. — Art. 102984.
Johnson J., Douze M., Jégou H. Billion-Scale Similarity Search with GPUs // IEEE Transactions on Big Data. — 2021. — Vol. 7(3). — P. 535–547.
Karpukhin V., Oğuz B., Min S., Lewis P., Wu L., Edunov S., Chen D., Yih W. Dense Passage Retrieval for Open-Domain Question Answering // Proceedings of EMNLP. — 2020. — P. 6769–6781.
Reimers N., Gurevych I. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks // Proceedings of EMNLP. — 2019. — P. 3982–3992.
Robertson S., Walker S. Some simple effective approximations to the 2-Poisson model for probabilistic weighted retrieval // Proceedings of SIGIR. — 1994. — P. 232–241.
Sawarkar K., Mangal A., Solanki S.R. Blended RAG: Improving RAG Accuracy with Semantic Search and Hybrid Query-Based Retrievers // arXiv: 2404.07220. — 2024.
Thakur N., Reimers N., Rücklé A., Srivastava A., Gurevych I. BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models // NeurIPS. — 2021. — P. 1–36.
Zheng Z., Lu X.Z., Chen K.Y., Zhou Y.C., Lin J.R. Pretrained domain-specific language model for natural language processing tasks in the AEC domain // Computers in Industry. — 2023. — Vol. 144. — Art. 103776.
Петроченко М.В., Недвига П.Н., Кукина А.А., Шерстюк В.В. Классификация строительной информации в BIM с использованием алгоритмов искусственного интеллекта // Вестник МГСУ. — 2022. — Т. 17. — Вып. 11. — С. 1537–1550.
Федосеева Т.А. Цифровизация строительных организаций: технологии и опыт // Строительство и архитектура. — 2023. — № 4. — С. 31.

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов