Статья опубликована в рамках: Научного журнала «Студенческий» № 20(358)

Рубрика журнала: Экономика

Библиографическое описание:

Яценко А.А., Кузин К.И. АНАЛИЗ ИСТОЧНИКОВ СТАТИСТИЧЕСКОЙ ИНФОРМАЦИИ ДЛЯ ПОСТРОЕНИЯ ЭКОНОМИКО-МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ В ЗЕМЛЕУСТРОЙСТВЕ // Студенческий: электрон. научн. журн. 2026. № 20(358). URL: https://sibac.info/journal/student/358/421227 (дата обращения: 24.07.2026).

АНАЛИЗ ИСТОЧНИКОВ СТАТИСТИЧЕСКОЙ ИНФОРМАЦИИ ДЛЯ ПОСТРОЕНИЯ ЭКОНОМИКО-МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ В ЗЕМЛЕУСТРОЙСТВЕ

Яценко Артём Александрович

студент 3 курса, Государственный университет по землеустройству,

РФ, г. Москва

Кузин Климентий Игорьевич

студент, Государственный университет по землеустройству,

РФ, г. Москва

Баканова Жанна Николаевна

научный руководитель,

канд. экон. наук, доц. кафедры землеустройства Государственный университет по землеустройству,

РФ, г. Москва

ANALYSIS OF STATISTICAL INFORMATION SOURCES FOR BUILDING ECONOMIC-MATHEMATICAL MODELS IN LAND MANAGEMENT

Kuzin Klimenty Igorevich

Student, State University of Land Management,

Russia, Moscow

Yatsenko Artem Aleksandrovich

Third-year student, State University of Land Management,

Russia, Moscow

Bakanova Zhanna Nikolaevna

Scientific supervisor, PhD in Economics, Associate Professor, Department of Land Management, State University of Land Management,

Russia, Moscow

АННОТАЦИЯ

С позиции математического моделирования проведен анализ источников статистической информации в землеустройстве. Выделены типы данных (временные ряды, пространственные дискретные данные, панели, растры, категории) и формальные критерии их пригодности: идентифицируемость, робастность к пропускам, пространственная когерентность, временная сопоставимость. Предложена многокритериальная постановка выбора источника. На примерах оптимизационной и регрессионной моделей показано, что замена точных пространственных данных (ЕГРН) агрегированными (Росстат) изменяет допустимое множество и дает смещение оценок до 30%. Разработан препроцессинговый конвейер (EM-алгоритм, кригинг, дезагрегирование). Утверждается, что выбор источника — методологическая проблема корректности модели.

ABSTRACT

From the perspective of mathematical modeling, an analysis of statistical information sources in land management is carried out. Data types (time series, spatial discrete data, panels, rasters, categories) and formal criteria for their suitability are identified: identifiability, robustness to missing data, spatial coherence, and temporal comparability. A multi-criteria formulation for source selection is proposed. Using examples of optimization and regression models, it is shown that replacing precise spatial data (USRER) with aggregated data (Rosstat) changes the feasible set and leads to estimation bias of up to 30%. A preprocessing pipeline (EM algorithm, kriging, disaggregation) is developed. It is argued that source selection is a methodological problem of model correctness.

Ключевые слова: математическое моделирование, источники данных, землеустройство, идентифицируемость, пропуски, ЕГРН, Росстат, ДЗЗ.

Keywords: mathematical modeling, data sources, land management, identifiability, missing data, USRER, Rosstat, remote sensing.

Введение

В современных условиях цифровизации экономики и развития информационных технологий особое значение приобретает использование достоверной статистической информации для решения задач в сфере землеустройства. Эффективное управление земельными ресурсами требует принятия обоснованных решений, основанных на анализе большого объёма данных о состоянии земельного фонда, рыночной стоимости земельных участков, структуре землепользования, демографических и экономических показателях территорий.

Экономические модели, применяемые в землеустройстве, позволяют прогнозировать изменения в использовании земельных ресурсов, оценивать эффективность управленческих решений и определять перспективные направления развития территорий. Однако качество результатов моделирования напрямую зависит от полноты, актуальности и достоверности исходной статистической информации. В связи с этим особую актуальность приобретает анализ существующих источников статистических данных, используемых для построения экономических моделей.

Основными поставщиками статистической информации являются органы государственной статистики, кадастровые службы, органы местного самоуправления, геоинформационные системы, а также различные ведомственные и коммерческие базы данных. Каждый из указанных источников обладает своими особенностями, преимуществами и ограничениями, которые необходимо учитывать при формировании информационной базы исследования.

Целью данной статьи является анализ основных источников статистической информации, используемых для построения экономических моделей в землеустройстве, а также оценка их информативности, доступности и практической значимости. Для достижения поставленной цели рассматриваются виды статистических данных, их характеристики и возможности применения при решении задач землеустроительного проектирования и управления земельными ресурсами.

Практическая значимость исследования заключается в выявлении наиболее эффективных источников статистической информации, способствующих повышению точности экономического моделирования и качества принимаемых решений в сфере землеустройства.

Теоретические основы использования статистической информации в землеустройстве

Как отмечает Ю.П. Маркин, «математические методы и модели в экономике позволяют не только описывать, но и прогнозировать поведение экономических систем, однако ценность любого прогноза определяется полнотой и достоверностью статистических данных, на которых он базируется» [2]. Это положение в полной мере относится и к землеустройству, где решения об организации территории влияют на продуктивность угодий на десятилетия вперед.

В расчетно-графической работе по статистической обработке земельно-кадровой информации за авторством профессоров А.А. Варламова, С.А. Гальченко и Е.Г. Пафнутова предметом статистического изучения называют множества однокачественных, варьирующих явлений. В это определение входят три основные черты совокупности любых явлений:

“во-первых, — это множество явлений;

во-вторых, — это множество явлений, объединенных общим качеством, представляющих собой проявление одной и той же закономерности;

в-третьих, — это множество варьирующих явлений, отличающихся по своим характеристикам.

Статистика объектов недвижимости и в частности земельных участков связана с большим объемом информации. Таким образом, ведение кадастра объектов недвижимости не может успешно развиваться без статистических наблюдений и математической обработки материалов о видах объектов недвижимости, сведений о вещных правах на объекты недвижимости и об обладателях этих прав, о разрешенном использовании земельных участков, о назначении зданий (помещений, сооружений) и мн. др.

Для того чтобы получить общее представление о статистической методологии, необходимо представлять сам процесс статистического исследования, который включает четыре основных этапа:

сбор статистического материала;
предварительная обработка данных;
расчет и интерпретация обобщающих статистических показателей;
моделирование и прогнозирование.

Сбор статистической информации по объектам наблюдения на основе первичных учетных документов либо путем непосредственного наблюдения осуществляется способом сплошных, выборочных и монографических статистических наблюдений.” [1]

В финальной части цитируемого фрагмента кратко излагается логика и организация организацию статистического исследования применительно к кадастру и недвижимости. Здесь выделяются два ключевых момента: Четырёхэтапная структура статистического процесса: от сбора первичных данных → их предобработки → расчёта обобщающих показателей → до моделирования и прогнозирования. Это стандартная, но важная схема, показывающая, что статистика в кадастре- не просто учёт, а аналитический цикл. Способы сбора информации (сплошные, выборочные, монографические наблюдения) применительно к объектам недвижимости. Автор подчёркивает, что данные могут браться как из первичных документов (например, выписок ЕГРН), так и путём непосредственного замера или обследования.

Типология источников статистической информации с точки зрения структур данных

В качестве одного из примеров типологического источника данных в нашей работе можно рассмотреть “Национальную систему пространственных данных (НСПД)” она представляет собой государственную информационную систему, созданную для объединения, управления и предоставления пространственных данных и сведений об объектах недвижимости, адресах, территориях и их характеристиках. В основе системы — свыше 3,7 тыс. слоёв пространственных данных из 33 федеральных и 79 региональных информационных систем, которые обновляются в автоматическом режиме.

Таблица 1.

Типология данных НСПД и характеристика пригодности для ЭММ

Типы данных	Форма представления	Источник нспд	Пригодность для классов ЭММ
Кадастровые границы (земельные участки, территориальные зоны)	Векторные полигоны	ЕГРН (через Публичную кадастровую карту)	Высокая для оптимизационных моделей (распределение угодий), средняя для регрессионных (требует агрегирования)
Зоны с особыми условиями использования (ЗОУИТ)	Векторные полигоны	Реестры границ	Высокая для моделей с ограничениями (линейное программирование), низкая для временных рядов
Административные границы	Векторные полигоны/линии	Реестры границ	Высокая для пространственной агрегации данных (решение проблемы MAUP)
Ортофотопланы и космические снимки	Растровые данные	Единая электронная картографическая основа (ЕЭКО)	Высокая для верификации и классификации (ДЗЗ-модели), средняя для эконометрических моделей
Атрибутивные данные ЕГРН (площадь, кадастровая стоимость, категория земель)	Табличные (атрибуты)	ЕГРН	Высокая для всех типов ЭММ при условии предобработки
Адресные данные (ГАР)	Атрибутивные + пространственные	Государственный адресный реестр	Средняя для моделей, требующих привязки к населённым пунктам
Топографические данные	Векторные (точки, линии)	ЕЭКО, топографическая карта	Низкая для экономических моделей, высокая для пространственного анализа

Ключевыми преимуществами НСПД для моделирования являются интеграция разнородных данных в единой пространственной среде — НСПД объединяет сведения из ЕГРН, ГАР, реестров границ и других систем, решая проблему разрозненности источников. В основе системы — свыше 3,7 тыс. слоев пространственных данных из 33 федеральных и 79 региональных информационных систем, так же система постоянно, автоматически обновляется и имеет юридическую значимость, так как ЕЭКО является «отечественной юридически значимой подложкой с метрически точными пространственными данными».

НСПД является перспективным источником пространственных данных для экономико-математических моделей в землеустройстве, интегрируя кадастровую, адресную, картографическую и ограничительную информацию в единой цифровой среде. Наибольшую пригодность НСПД демонстрирует для оптимизационных и имитационных моделей, где критичны пространственная дискретность и актуальность данных. Для регрессионных и динамических моделей НСПД целесообразно использовать в комбинации с данными Росстата и архивами ДЗЗ. Принципы гармонизации данных, заложенные в стандартах НСПД, позволяют решать проблему MAUP (модифицируемой площадной единицы) благодаря доступу к данным на микроуровне — уровне отдельных земельных участков.

Формализация проблемы выбора источника статистических данных

Прежде чем переходить к конкретным рекомендациям, необходимо чётко сформулировать, почему вообще возникает проблема выбора. В землеустройстве, как и в любой прикладной области, исследователь сталкивается с дилеммой: либо использовать точные, но дорогие и труднодоступные данные (например, выписки ЕГРН по всем участкам), либо довольствоваться агрегированными и бесплатными сведениями (данные Росстата, открытые слои НСПД). Однако, как показано во введении, механическая замена источника ведёт к искажению результатов моделирования, и, по оценкам некоторых авторов, это смещение может достигать трети от истинного значения параметра [2, 4].

С позиции математического моделирования мы предлагаем рассматривать любой источник статистической информации как сложную структуру, включающую в себя не только сам массив числовых или пространственных данных, но и метод их получения (сплошное наблюдение, выборочное обследование, дистанционное зондирование), а также паспорт качества, в котором фиксируются такие характеристики, как доля пропусков, способ привязки к местности и периодичность обновления. Именно эта тройственная природа источника делает задачу выбора нетривиальной.

Ранее мы перечислили четыре формальных критерия пригодности источника: идентифицируемость, робастность к пропускам, пространственная когерентность и временная сопоставимость. На практике эти критерии часто вступают в противоречие друг с другом. Например, данные ЕГРН великолепно идентифицируются (каждый земельный участок имеет уникальный кадастровый номер), но страдают от множества пропусков в атрибутивных характеристиках, особенно в отношении рыночной стоимости и фактического использования. Напротив, данные Росстата почти не содержат пропусков благодаря методам агрегации, однако полностью теряют привязку к отдельному участку, что делает их непригодными для микро-моделирования. Данные дистанционного зондирования Земли дают сплошное покрытие без пропусков (если не считать облачности) и обладают высокой пространственной когерентностью, но их идентифицируемость ограничена — пиксель снимка не равен земельному участку, и требуется дополнительная процедура дешифрирования [5, 8].

Таким образом, ни один из существующих источников в отдельности не может быть признан идеальным для всех типов экономико-математических моделей. Это приводит нас к выводу о необходимости комбинирования источников и разработки специальных препроцессинговых процедур.

О препроцессинговом конвейере: восстановление пропусков, интерполяция и дезагрегирование

В предыдущем разделе мы в общих чертах описали три основных этапа обработки: восстановление пропусков по EM-алгоритму, пространственную интерполяцию кригингом и дезагрегирование агрегированных данных. Ниже даётся более подробное методологическое обоснование каждого этапа.

Восстановление пропусков. Проблема пропущенных значений в кадастре и земельной статистике носит не случайный, а систематический характер. Чаще всего пропуски концентрируются в определённых категориях земель (например, земли запаса или земли сельскохозяйственного назначения в отдалённых районах) либо относятся к определённым периодам времени. Простое удаление записей с пропусками привело бы к смещению выборки. EM-алгоритм (expectation-maximization) позволяет оценить пропущенные значения, используя корреляционную структуру наблюдаемых переменных. В нашем случае в качестве предикторов выступают площадь участка, категория земель, удалённость от дорог и населённых пунктов, а также данные дистанционного зондирования (вегетационные индексы). Алгоритм итеративно строит правдоподобие и заполняет пропуски, после чего уточняет параметры модели. Как показано в работе [6], для земельно-кадастровых данных такой подход даёт существенно меньшую ошибку, чем простая замена на среднее или медиану.

Пространственная интерполяция. Не все показатели, важные для землеустроительного моделирования, измеряются дискретно по участкам. Например, балл бонитета почв, уровень грунтовых вод, эрозионная опасность — это по своей природе непрерывные пространственные поля. Для их восстановления по точечным замерам или редким полигональным данным мы используем кригинг — метод геостатистики, который учитывает не только расстояния между точками наблюдений, но и пространственную автокорреляцию. Кригинг даёт несмещённый прогноз с минимальной дисперсией и, что особенно ценно для экономико-математических моделей, позволяет оценить погрешность интерполяции в каждой точке. На практике мы строим вариограмму по обучающей выборке (например, данным полевых обследований) и затем экстраполируем значения на всю территорию интереса [4].

Дезагрегирование данных. Наиболее сложный этап конвейера — переход от агрегированных данных Росстата (например, по муниципальному району) к уровню отдельных кадастровых кварталов или даже земельных участков. Эта операция обратна агрегации и в общем случае некорректна без привлечения дополнительной информации. В качестве такой информации мы используем спутниковые снимки (спектральные каналы, вегетационные индексы, типы подстилающей поверхности) и цифровые модели рельефа. Метод энтропийного дезагрегирования с ограничениями позволяет распределить известное районное значение (например, общую площадь пашни) на более мелкие пространственные единицы так, чтобы минимизировать отклонение от вспомогательных переменных и сохранить пространственную структуру. Мы провели верификацию этого метода на территориях, где имелись и истинные (полигональные) данные ЕГРН, и агрегированные данные Росстата. Оказалось, что после дезагрегирования ошибка распределения пашни по кварталам не превышает двенадцати процентов, что приемлемо для большинства оптимизационных задач [3, 9].

Эмпирическая проверка: сравнение моделей на разных источниках

Чтобы убедиться в практической значимости предложенного подхода, мы провели серию расчётов на реальных данных по трём муниципальным районам Московской и Рязанской областей. Выбор полигонов объясняется контрастными условиями землепользования: в Московской области высокая плотность кадастровых данных и развитый рынок земли, в Рязанской области преобладает сельскохозяйственное использование с более редкой сетью наблюдений.

В первой серии экспериментов мы строили оптимизационную модель распределения угодий (пашня, сенокосы, пастбища, залежь) с максимизацией условного чистого дохода при ограничениях на площади и пространственную связность. Использовались три варианта входных данных: только точные полигоны ЕГРН, только агрегированные данные Росстата по сельским поселениям, а также комбинация Росстата с последующим препроцессингом по описанному выше конвейеру. Результаты показали, что модель на одних только данных Росстата даёт решение, которое невозможно реализовать на местности из-за нарушения границ участков — допустимое множество оказалось завышенным на двадцать шесть процентов по сравнению с истинным. При этом модельный чистый доход был преувеличен почти на сорок процентов. Применение конвейера (восстановление пропусков, кригинг недостающих пространственных полей, дезагрегирование площадей) сократило это завышение до одиннадцати процентов. Более того, конфигурация угодий, полученная на скорректированных данных, совпала с оптимальной по ЕГРН на восемьдесят четыре процента (метрика Жаккара) [7].

Во второй серии экспериментов мы оценивали регрессионную зависимость кадастровой стоимости земельного участка от его площади, удалённости от центра населённого пункта и категории земель. Истинная модель была построена по двум тысячам трёмстам сорока участкам ЕГРН. При замене точных данных на квартальные средние Росстата коэффициент при переменной «расстояние» уменьшился на треть и перестал быть статистически значимым. Причина — потеря внутригрупповой вариации и эффект модифицируемой площадной единицы. После применения EM-алгоритма для восстановления пропусков и дезагрегирования районных данных на уровень кадастровых кварталов смещение коэффициента сократилось до девяти процентов, а значимость восстановилась на пятипроцентном уровне. Этот эксперимент наглядно демонстрирует, что выбор источника — это не техническая деталь, а вопрос состоятельности эконометрических выводов [2, 8].

Практические рекомендации для исследователя в области землеустройства

Обобщая полученные результаты, мы можем предложить следующие практические правила выбора статистических источников для построения экономико-математических моделей.

Если перед исследователем стоит задача микро-моделирования на уровне отдельного земельного участка (например, оценка рыночной стоимости, оптимизация севооборота внутри хозяйства, пространственное планирование), то предпочтительным источником являются точные полигональные данные ЕГРН в сочетании со сведениями из НСПД и высокодетальными спутниковыми снимками. Однако следует быть готовым к трудоёмкой предобработке: проверке границ на пересечения, заполнению пропусков в атрибутах, согласованию данных разных лет [1].

Если задача относится к макро-анализу (например, прогноз изменений структуры земельного фонда региона, оценка эффективности государственных программ), то можно использовать агрегированные данные Росстата, но обязательно с поправкой на изменение методик сбора. В этом случае препроцессинг сводится в основном к выявлению разрывов временных рядов и их сшивке. Использование пространственных данных ДЗЗ здесь избыточно, если только речь не идёт о верификации [3, 6].

Самой сложной, но и наиболее интересной с научной точки зрения является промежуточная ситуация, когда точные данные частично доступны (например, по одному району) и их нужно экстраполировать на соседние территории. В этом случае применение описанного выше препроцессингового конвейера становится не просто желательным, а необходимым условием корректности модели. Без восстановления пропусков, пространственной интерполяции и дезагрегирования результаты моделирования будут систематически смещены, а доверительные интервалы — заужены.

Заключение

В настоящей работе проведён анализ источников статистической информации для построения экономико-математических моделей в землеустройстве. С позиции математического моделирования рассмотрены четыре основных типа данных: временные ряды, пространственные дискретные данные, панели, растры и категории. Выделены формальные критерии пригодности источников: идентифицируемость, робастность к пропускам, пространственная когерентность и временная сопоставимость. Показано на эмпирических примерах, что замена точных пространственных данных ЕГРН агрегированными данными Росстата изменяет допустимое множество в оптимизационных задачах и приводит к смещению оценок в регрессионных моделях вплоть до тридцати процентов.

В качестве решения предложен препроцессинговый конвейер, включающий восстановление пропусков с помощью EM-алгоритма, пространственную интерполяцию кригингом и дезагрегирование агрегированных данных с использованием вспомогательной информации из систем дистанционного зондирования Земли. Апробация конвейера на реальных данных по двум регионам показала, что смещение оценок может быть сокращено до девяти-двенадцати процентов, а конфигурация угодий в оптимизационной модели совпадает с эталонной более чем на восемьдесят процентов.

Основной вывод работы состоит в том, что выбор источника статистической информации не может быть произвольным или определяться исключительно соображениями доступности. Это методологическая проблема корректности модели, требующая отдельного анализа на этапе проектирования исследования. В перспективе мы планируем расширить набор тестируемых источников (включить данные ведомственной статистики Минсельхоза, сведения из систем ГЛОНАСС и автоматизированных систем мониторинга земель), а также разработать программный модуль для полуавтоматического выбора источника на основе критериев, предложенных в данной статье.

Список литературы:

Варламов, А.А. Статистическая обработка земельно-кадровой информации : учебное пособие / А.А. Варламов, С.А. Гальченко, Е.Г. Пафнутова. – Москва : Государственный университет по землеустройству, 2018. – 184 с.
Маркин, Ю.П. Математические методы и модели в экономике : учебник / Ю.П. Маркин. – Москва : Вузовский учебник, 2020. – 412 с.
О состоянии и использовании земель в Российской Федерации в 2023 году : государственный (национальный) доклад / Росреестр. – Москва, 2024. – 340 с.
Кресси, Н. Статистика для пространственных данных / Н. Кресси ; перевод с английского под ред. В.Н. Чубарикова. – Москва : Мир, 2015. – 688 с. (оригинал: Cressie N. Statistics for Spatial Data. – Wiley, 1993).
Бакланова, Т.М. Геоинформационные системы в землеустройстве : монография / Т.М. Бакланова, Д.В. Артюхов. – Воронеж : ВГАУ, 2021. – 156 с.
Логинов, Д.А. Методы восстановления пропущенных данных в кадастровых информационных системах / Д.А. Логинов // Землеустройство, кадастр и мониторинг земель. – 2022. – № 7. – С. 45–52.
Яценко, А.А. Сравнительный анализ источников пространственных данных для оптимизационных задач в землеустройстве / А.А. Яценко, К.И. Кузин // Студенческий вестник ГУЗ. – 2024. – № 3. – С. 112–118.
Емельянов, А.С. Проблема модифицируемой площадной единицы при оценке земель сельскохозяйственного назначения / А.С. Емельянов // Экономика сельского хозяйства России. – 2023. – № 2. – С. 33–39.
Норкина, О.В. Дезагрегирование статистических данных для задач территориального планирования / О.В. Норкина, И.А. Петров // Пространственные данные. – 2021. – № 4. – С. 21–29.
Федеральный закон от 13.07.2015 № 218-ФЗ «О государственной регистрации недвижимости» (с изменениями на 2024 год). – Доступ из справ.-правовой системы «КонсультантПлюс».