Поздравляем с Днем студента!
   
Телефон: 8-800-350-22-65
Напишите нам:
WhatsApp:
Telegram:
MAX:
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: XCIV Международной научно-практической конференции «Вопросы технических и физико-математических наук в свете современных исследований» (Россия, г. Новосибирск, 22 декабря 2025 г.)

Наука: Информационные технологии

Секция: Системный анализ, управление и обработка информации

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Гребенкин А.С. МЕТОД МАССОВОГО CBR-ПРОГНОЗИРОВАНИЯ ДЛЯ ЗАДАЧ ПРОСТРАНСТВЕННОГО АНАЛИЗА // Вопросы технических и физико-математических наук в свете современных исследований: сб. ст. по матер. XCIV междунар. науч.-практ. конф. № 12(85). – Новосибирск: СибАК, 2025. – С. 15-23.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

МЕТОД МАССОВОГО CBR-ПРОГНОЗИРОВАНИЯ ДЛЯ ЗАДАЧ ПРОСТРАНСТВЕННОГО АНАЛИЗА

Гребенкин Алексей Сергеевич

магистрант, Новосибирский государственный технический университет,

РФ, г. Новосибирск

АННОТАЦИЯ

В статье предложен метод массового Case-Based Reasoning для решения задач пространственного прогнозирования. В отличие от классического применения CBR для анализа единичных случаев, предложенный подход систематически применяет метод к множеству виртуальных случаев, покрывающих анализируемую территорию. Выделен класс задач пространственного прогнозирования, характеризующихся массовостью анализа, пространственной связностью объектов и неравномерностью исторических данных. Разработана архитектура системы массового прогнозирования, формирующая целостную пространственную картину распределения целевой величины на основе анализа прошлых прецедентов. Метод обеспечивает эффективную работу с ограниченными данными и интерпретируемость результатов. Применимость подхода продемонстрирована на задаче прогнозирования зон риска дорожно-транспортных происшествий.

 

Ключевые слова: Case-Based Reasoning; массовое прогнозирование; пространственный анализ; искусственный интеллект; интерпретируемое машинное обучение.

Введение

Актуальность исследования. Case-Based Reasoning (CBR) – метод решения задач, основанный на анализе опыта решения аналогичных проблем в прошлом [1, 2]. В отличие от традиционных подходов машинного обучения, которые строят абстрактные модели на основе больших объемов данных, CBR опирается на конкретные примеры-прецеденты, хранящиеся в базе знаний. Классический цикл CBR состоит из четырех этапов: извлечение похожих случаев (Retrieve), повторное использование найденной информации (Reuse), пересмотр и адаптация решения (Revise), сохранение нового опыта (Retain) [2].

Важными преимуществами CBR являются возможность работы с неполными и зашумленными данными, а также высокая интерпретируемость результатов – система может объяснить свое решение, ссылаясь на конкретные исторические прецеденты. Метод нашел широкое применение в медицине для диагностики заболеваний, в юриспруденции для анализа прецедентного права, в технической поддержке для диагностики неисправностей [3, 4].

Однако классическое применение CBR предполагает анализ одного конкретного случая, поступившего на вход системы: пациент с определенными симптомами, юридическое дело, техническая неисправность. Существует широкий класс задач, где требуется не анализ единичного случая, а комплексная оценка множества объектов, образующих связную пространственную структуру.

Примерами таких задач являются прогнозирование зон риска дорожно-транспортных происшествий [5], оценка криминогенной обстановки в городе [6], прогнозирование распространения эпидемий [7], оценка риска лесных пожаров [8]. Общая характеристика этих задач: необходимо одновременно оценить целевую величину (риск, вероятность события) на обширной территории, построив целостную пространственную картину.

Существующие методы решения таких задач основаны на статистических подходах (Kernel Density Estimation, пространственные регрессионные модели) [9, 10] или методах машинного обучения (нейронные сети, ансамблевые методы) [11, 12]. Они имеют существенные ограничения: требуют больших объемов данных для обучения, плохо работают при их неполноте, характеризуются низкой интерпретируемостью результатов. При этом во многих практических задачах доступны лишь ограниченные исторические данные, распределенные по территории крайне неравномерно.

Классический CBR, ориентированный на анализ единичных случаев, не предназначен для решения задач массового пространственного прогнозирования. Это определяет необходимость адаптации метода к специфике пространственного анализа.

Научная новизна. В данной работе предлагается концепция массового пространственно-ориентированного CBR-прогнозирования, заключающаяся в систематическом применении метода Case-Based Reasoning к множеству виртуальных случаев, покрывающих анализируемую территорию.

Научная новизна исследования состоит в следующем. Разработан метод массового CBR-прогнозирования, при котором территория разбивается на множество участков, каждый из которых формирует виртуальный случай для анализа на основе прошлых прецедентов, что позволяет формировать целостную карту распределения целевой величины. Выделен класс задач пространственного прогнозирования, для которых применим массовый подход к CBR, в отличие от классического применения метода для анализа единичных случаев. Предложена архитектура системы массового прогнозирования, включающая механизмы формирования виртуальных случаев, пространственно-ориентированные метрики сходства и алгоритм агрегации прецедентов для оценки целевой величины.

Постановка задачи

Класс задач пространственного прогнозирования. Задачи пространственного прогнозирования определяются как класс задач, в которых требуется одновременная оценка некоторой целевой величины (риска, вероятности события, уровня показателя) на множестве пространственных объектов, образующих связную территорию.

Ключевые характеристики данного класса задач следующие. Массовость анализа: в отличие от задач, где анализируется один конкретный случай, задачи пространственного прогнозирования требуют одновременной оценки сотен или тысяч объектов. Например, для территории площадью 100 км² при разбиении на участки размером 100×100 м формируется 10 000 пространственных объектов, для каждого из которых необходимо получить оценку.

Пространственная связность: объекты анализа образуют непрерывное пространственное покрытие территории. Это принципиально отличает данный класс задач от независимого анализа множества отдельных случаев. Результатом должна быть целостная пространственная картина, а не набор разрозненных оценок.

Неравномерность исторических данных: для различных участков территории доступно разное количество исторических наблюдений – от полного отсутствия зарегистрированных событий до их значительной концентрации. Метод должен обеспечивать адекватные оценки даже для участков без прямых исторических данных.

Влияние пространственного контекста: оценка для конкретного участка зависит не только от его собственных характеристик, но и от свойств окружающей территории.

Формальная постановка задачи. Дано: территория T, подлежащая анализу; база прецедентов C = {C₁, C₂, ..., Cₘ} – множество исторических случаев событий, каждый из которых описывается набором атрибутов (координаты, характеристики, условия); функция сходства sim(V, C), оценивающая релевантность исторического прецедента C для виртуального случая V.

Требуется построить пространственную функцию Risk: T → ℝ⁺, сопоставляющую каждой точке территории числовое значение прогнозируемой целевой величины.

Ограничения: база прецедентов содержит только положительные примеры (реальные события), информация об участках без событий отсутствует; объем исторических данных ограничен; прецеденты распределены по территории крайне неравномерно.

Методы

Концепция массового CBR-прогнозирования. Основная идея предлагаемого метода заключается в следующем: вместо анализа одного реального случая, характерного для классического CBR, территория систематически разбивается на множество пространственных участков, каждый из которых рассматривается как виртуальный новый случай, для которого применяется процедура извлечения и анализа похожих прецедентов.

Архитектура метода включает следующие компоненты.

Пространственная дискретизация территории. Территория T разбивается на множество непересекающихся участков {P₁, P₂, ..., Pₙ}, полностью покрывающих анализируемую область. Используется регулярная сетка квадратных участков фиксированного размера (например, 50×50 м или 100×100 м в зависимости от требуемой детализации).

Формирование виртуальных случаев. Для каждого участка Pᵢ формируется виртуальный случай Vᵢ, описываемый вектором признаков: Vᵢ = (gᵢ, attrᵢ), где gᵢ – географические координаты центра участка, attrᵢ – атрибутивные характеристики участка и его окружения.

Ключевое отличие от классического CBR: виртуальные случаи не являются реальными произошедшими событиями, а систематически генерируются для всех участков территории независимо от наличия исторических данных.

Извлечение релевантных прецедентов. Для каждого виртуального случая Vᵢ в базе прецедентов C производится поиск k наиболее похожих исторических случаев на основе функции сходства sim(Vᵢ, Cⱼ).

Функция сходства является композицией частных метрик:

,

где sim_spatial – метрика пространственной близости, sim_attr – метрика сходства атрибутивных характеристик, w_spatial и w_attr – весовые коэффициенты (w_spatial + w_attr = 1, wᵢ ≥ 0).

Пространственная метрика обеспечивает более высокую релевантность территориально близких прецедентов и может быть определена как:

,

где d(V, C) – евклидово расстояние между координатами, R – параметр радиуса влияния.

Формирование оценки целевой величины. Особенностью задачи является то, что база прецедентов содержит только положительные примеры (реальные события), информация об участках без событий отсутствует. Оценка для виртуального случая Vᵢ формируется как мера концентрации похожих прецедентов:

где суммирование ведется по k наиболее релевантным прецедентам.

Данная мера отражает следующую логику: высокое значение целевой величины характерно для участков, в окрестности которых в похожих условиях произошло большое количество событий. Чем больше в базе прецедентов случаев, схожих с анализируемой ситуацией, тем выше прогнозируемое значение.

Построение пространственной карты. Совокупность оценок {Risk(V₁), Risk(V₂), ..., Risk(Vₙ)} для всех виртуальных случаев образует целостную пространственную картину распределения целевой величины, которая может быть визуализирована в виде тепловой карты.

Результаты

Применение к задаче прогнозирования риска ДТП. Применимость метода массового CBR-прогнозирования продемонстрирована на задаче оценки зон риска дорожно-транспортных происшествий с участием пешеходов [13]. Эта задача является типичным представителем класса пространственного прогнозирования: необходимо одновременно оценить риск на обширной территории города, исторические данные о ДТП распределены крайне неравномерно.

Вычислительная сложность и оптимизации. Для территории, разбитой на n участков, при базе прецедентов размера m базовая сложность метода составляет O(n · m) для вычисления всех попарных сходств. Для повышения эффективности применены оптимизации: пространственное индексирование прецедентов (R-tree) позволяет для каждого виртуального случая рассматривать только прецеденты в пределах заданного радиуса, снижая сложность; параллелизация вычислений для независимых виртуальных случаев; кэширование промежуточных результатов.

С учетом оптимизаций система обеспечивает прогнозирование для территории города площадью 100 км² (10 000 участков 100×100 м) при базе из 5 000 прецедентов за время порядка 2-5 секунд на стандартном сервере.

Преимущества подхода. Эффективная работа с ограниченными данными: в отличие от методов глубокого обучения, требующих десятки тысяч примеров, метод массового CBR эффективно работает с существенно меньшими объемами данных. Каждый прецедент рассматривается как ценный источник знаний, который может быть применен к множеству виртуальных случаев.

Решение проблемы холодного старта: даже если на конкретном участке ранее не происходили события, метод может оценить целевую величину на основе анализа похожих участков. Это критически важно для прогнозирования на территориях с низкой плотностью исторических данных.

Интерпретируемость результатов: метод обеспечивает прозрачность процесса прогнозирования – система может объяснить оценку, указав на конкретные исторические прецеденты и степень их сходства с анализируемой ситуацией. Это позволяет специалистам понимать причины высоких значений целевой величины на конкретных участках.

Естественная интеграция разнородных факторов: архитектура метода позволяет включать в анализ множество различных факторов без необходимости делать предположения о виде зависимостей между ними, как в случае статистических моделей.

Адаптивность и инкрементное обучение: система может непрерывно совершенствоваться, добавляя новые прецеденты в базу знаний по мере их поступления, без необходимости полного переобучения модели, характерного для методов машинного обучения.

Обсуждение

Применимость метода к другим задачам. Предложенная концепция массового CBR-прогнозирования применима к широкому классу задач пространственного прогнозирования. В городском планировании это прогнозирование зон концентрации преступлений для оптимизации патрулирования, оценка потенциального спроса на услуги при размещении объектов инфраструктуры, прогнозирование загрузки транспортной сети. В экологии и природопользовании – оценка риска лесных пожаров на основе исторических данных, прогнозирование распространения инвазивных видов, оценка потенциала возобновляемой энергетики. В эпидемиологии – прогнозирование зон риска распространения инфекционных заболеваний, оптимизация размещения медицинских учреждений.

Общие характеристики этих задач: необходимость комплексного пространственного анализа обширной территории, ограниченность исторических данных, влияние множества контекстных факторов, потребность в интерпретируемости результатов.

Ограничения метода. Точность прогнозирования критически зависит от полноты и качества исторических данных. Систематические искажения в данных могут привести к смещению оценок. Метод содержит ряд параметров (размер участков, радиус пространственного влияния, количество учитываемых прецедентов k, весовые коэффициенты в функции сходства), влияющих на результаты. Определение оптимальных значений требует экспертного анализа или применения методов оптимизации. Метод исходит из предположения, что паттерны прошлого остаются актуальными для будущего, что может быть нарушено при радикальных изменениях условий.

Направления дальнейших исследований. Перспективным направлением является комбинация массового CBR с методами машинного обучения: использование CBR для формирования признаков, которые затем подаются на вход классификатора. Это может объединить преимущества интерпретируемости CBR и способности ML выявлять сложные закономерности. Актуальна разработка методов автоматического определения оптимальных значений параметров метода на основе валидационных данных с использованием байесовской оптимизации или эволюционных алгоритмов. Важным направлением является расширение метода для учета временной эволюции паттернов через механизмы забывания старых прецедентов и адаптивных весов в зависимости от давности события.

Практическая значимость. Разработанный метод имеет следующие области практического применения. Государственные органы могут использовать систему для анализа причин концентрации нежелательных событий и планирования превентивных мероприятий. Интеграция прогнозов в навигационные приложения позволяет динамически предупреждать пользователей об опасных участках в зависимости от текущих условий. Страховые компании могут использовать оценки риска для различных территорий при расчете страховых премий. В градостроительстве прогнозируемые зоны могут учитываться при проектировании новых районов и планировании инфраструктуры.

Заключение

В работе предложен метод массового пространственно-ориентированного Case-Based Reasoning для решения задач пространственного прогнозирования. Выделен класс задач, характеризующихся массовостью анализа, пространственной связностью объектов и неравномерностью исторических данных. Разработана архитектура системы, систематически применяющей метод CBR к множеству виртуальных случаев, покрывающих анализируемую территорию.

Ключевые преимущества метода: эффективная работа с ограниченными данными, решение проблемы холодного старта, высокая интерпретируемость результатов, естественная интеграция разнородных факторов, адаптивность и возможность инкрементного обучения.

Предложенный подход преодолевает основные ограничения существующих статистических методов и методов машинного обучения, открывая новые возможности для решения задач пространственного анализа с ограниченными данными. Метод применим к широкому классу задач в областях городского планирования, экологии, эпидемиологии и других сферах, где требуется комплексный анализ территории на основе ограниченных исторических данных.

 

Список литературы:

  1. Kolodner J. Case-Based Reasoning. San Mateo, CA: Morgan Kaufmann Publishers, 1993. 668 p.
  2. Aamodt A., Plaza E. Case-based reasoning: Foundational issues, methodological variations, and system approaches // AI Communications. 1994. Vol. 7, No. 1. P. 39–59.
  3. Richter M.M., Weber R.O. Case-Based Reasoning: A Textbook. Berlin: Springer, 2013. 546 p.
  4. Bichindaritz I., Marling C. Case-based reasoning in the health sciences: What's next? // Artificial Intelligence in Medicine. 2006. Vol. 36, No. 2. P. 127–135.
  5. Yuan Z., Zhou X., Yang T. Hetero-ConvLSTM: A deep learning approach to traffic accident prediction on heterogeneous spatio-temporal data // Proceedings of the 24th ACM SIGKDD Conference. 2018. P. 984–992.
  6. Wang X., Brown D.E., Gerber M.S. Spatio-temporal modeling of criminal incidents using geographic, demographic, and Twitter-derived information // Proceedings of the 2012 IEEE International Conference on Intelligence and Security Informatics. 2012. P. 36–41.
  7. Chretien J.P., Riley S., George D.B. Mathematical modeling of the West Africa Ebola epidemic // eLife. 2015. Vol. 4. e09186.
  8. Probability based models for estimation of wildfire risk / H.K. Preisler, D.R. Brillinger, R.E. Burgan, J.W. Benoit // International Journal of Wildland Fire. – 2004. – Vol. 13, No. 2. – P. 133–142.
  9. Anderson T.K. Kernel density estimation and K-means clustering to profile road accident hotspots // Accident Analysis & Prevention. 2009. Vol. 41, No. 3. P. 359–364.
  10. Lord D., Mannering F. The statistical analysis of crash-frequency data: A review and assessment of methodological alternatives // Transportation Research Part A. 2010. Vol. 44, No. 5. P. 291–305.
  11. Chen Y. et al. CrashFormer: A Multimodal Architecture to Predict the Risk of Crash // arXiv preprint arXiv:2402.05151. 2024.
  12. Older pedestrian traffic crashes severity analysis based on an emerging machine learning XGBoost / M. Guo, Z. Yuan, B. Janson et al. // Sustainability. – 2021. – Vol. 13, No. 2. – P. 926.
  13. Гребенкин А. С. Адаптивная модель прогнозирования зон повышенного риска возникновения ДТП на основе метода Case-Based Reasoning / А. С. Гребенкин ; науч. рук. Н. Д. Ганелина // Дни науки НГТУ-2025 : материалы научной студенческой конференции. — Новосибирск : Изд-во НГТУ, 2025. — С. 29–33.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий