Статья опубликована в рамках: CCXVII Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 31 июля 2025 г.)
Наука: Экономика
Скачать книгу(-и): Сборник статей конференции
дипломов
ПРИМЕНЕНИЕ ТЕХНОЛОГИИ МАШИННОГО ОБУЧЕНИЯ ДЛЯ АНАЛИЗА ДЕМОГРАФИЧЕСКИХ ТЕНДЕНЦИЙ
APPLICATION OF MACHINE LEARNING TECHNOLOGY FOR ANALYSIS OF DEMOGRAPHIC TRENDS
Erofeev Andrew
Student, direction "Regional Development Management", Sevastopol branch of the Russian University of Economics named after G.V. Plekhanov,
Russia, Sevastopol
Kupriyanova Inna Aleksandrovna
Ph.D. in Economics, Associate Professor of the Department of Economics and Management, Sevastopol branch of the Russian University of Economics named after G.V. Plekhanov,
Russia, Sevastopol
АННОТАЦИЯ
Статья посвящена исследованию возможностей применения технологий машинного обучения для анализа демографических процессов в Российской Федерации. На основе комплексного анализа данных Росстата исследуются ключевые демографические тренды за 2014-2023г.: динамика рождаемости и смертности, возрастная структура населения, миграционные потоки. Особое внимание уделено методологическим аспектам обработки больших массивов данных с применением алгоритмов машинного обучения XGBoost.
ABSTRACT
This article explores the potential of machine learning technologies for analyzing demographic processes in the Russian Federation. Based on a comprehensive analysis of Rosstat data, the study examines key demographic trends from 2014 to 2023, including birth and mortality rates, population age structure, and migration flows. Special attention is given to methodological aspects of processing large datasets using the XGBoost machine learning algorithm.
Ключевые слова: демографический кризис, рождаемость, смертность, возрастно-половая структура населения, естественная убыль, миграционный прирост, машинное обучение, XGBoost, прогнозирование численности населения, когортно-компонентный метод, трудоспособное население, старение населения, Росстат.
Keywords: demographic crisis, birth rate, mortality rate, age-sex structure of the population, natural population decline, net migration, machine learning, XGBoost, population forecasting, cohort-component method, working-age population, population aging, Rosstat.
Введение. Современные демографические процессы в России требуют применения новых аналитических методов для точного прогнозирования и выработки эффективных управленческих решений. Согласно последним исследованиям, страна сталкивается с комплексом взаимосвязанных проблем: устойчивой естественной убылью населения, выраженным старением возрастной структуры и недостаточной компенсацией демографических потерь за счет миграции. Особую актуальность приобретает разработка точных прогнозных моделей, учитывающих как традиционные статистические показатели, так и альтернативные источники данных.
Целью исследования является разработка комплексной модели анализа демографических тенденций России на основе интеграции традиционных статистических методов, современных алгоритмов машинного обучения и альтернативных источников данных.
Научная новизна работы заключается в адаптации передовых аналитических методов для российских демографических данных, разработке методики интеграции различных источников информации и создании системы верификации результатов с учетом российской специфики.
Практическая значимость исследования подтверждается возможностью применения результатов для разработки адресных мер демографической политики и методикой мониторинга эффективности реализуемых социально-демографических программ.
Основная часть. Современные исследования в области демографического прогнозирования активно используют передовые методы машинного обучения, что подтверждается работой Wang L., где предложена гибридная модель SSA-XGBoost, демонстрирующая исключительную точность (R² = 0.9984) при прогнозировании смертности и миграции на основе интеграции данных переписей и мобильной связи [4]. Этот подход, сочетающий алгоритм градиентного бустинга (XGBoost) с оптимизацией методом поиска спаржей (SSA), позволил снизить среднюю абсолютную ошибку до 0.0002, что особенно важно для анализа редких демографических событий, таких как резкие изменения в возрастной структуре населения. Аналогичные результаты получены в исследованиях, посвященных оценке рисков для здоровья, где подчеркивается эффективность XGBoost при работе с несбалансированными данными, характерными для региональной демографической статистики [3].
Ключевым трендом последних лет является интеграция традиционных статистических данных с альтернативными источниками, такими как мобильные сигналы и геолокационные сервисы. Исследование Calabrese F. на примере мониторинга городского населения продемонстрировало, что использование данных мобильной связи обеспечивает не только оперативность, но и высокую пространственно-временную детализацию 2. Однако, как отмечает Zhou H., подобные методы требуют строгой верификации из-за рисков семантической неоднородности данных и различий в масштабах наблюдения. Эти работы подчеркивают необходимость разработки унифицированных методик валидации, с цифровым следом, что остается актуальной задачей для демографических исследований [5, 6].
В рамках анализа демографических процессов применяется алгоритм XGBoost (eXtreme Gradient Boosting) – современный метод машинного обучения, сочетающий высокую прогностическую способность с возможностями экономической интерпретации результатов [2]. Техническая реализация основана на последовательном построении ансамбля решающих деревьев с регуляризацией, что обеспечивает устойчивость модели к переобучению при работе с ограниченными массивами социально-экономических данных. Особое внимание уделяется процедуре предварительной обработки данных, включая интерпретацию пропущенных значений с учетом экономической природы показателей и нормализацию переменных.
Процедура моделирования включает три этапа: подготовку данных, оптимизацию гиперпараметров (learning_rate, max_depth, n_estimators) с использованием кросс-валидации, и экономическую интерпретацию результатов через анализ важности признаков. Это позволяет выявить ключевые факторы демографической динамики – от уровня доходов населения до доступности социальной инфраструктуры.
Формальная спецификация модели:
L(θ) = Σ[l(yᵢ, ŷᵢ)] + γT + ½λ||w||² (1)
где:
l(yᵢ, ŷᵢ) – ифференцируемая функция потерь;
T - мощность множества терминальных узлов (листьев) в решающем дереве;
w - вектор весовых коэффициентов терминальных узлов;
γ (gamma) - гиперпараметр регуляризации;
λ (lambda) - гиперпараметр L₂-регуляризации.
Рисунок 1. Демографические показатели в РФ за 2014-2024г. [7]
Анализ демографических показателей России за 2014-2023 гг. (см. Рисунок 1) выявляет устойчивую негативную динамику ключевых параметров воспроизводства населения. Особую озабоченность вызывает стремительное снижение уровня рождаемости - с 13,3‰ в 2014 году до 9,0‰ в 2023 году, что свидетельствует о глубоком кризисе репродуктивного поведения населения. Параллельно наблюдается рост показателей смертности, достигший своего пика в 2021 году (18,1‰), что связано как с последствиями пандемии COVID-19, так и с хроническими проблемами системы здравоохранения [1].
Особенно тревожной представляется динамика последних трех лет (2020-2023 гг.), когда сложилась устойчивая негативная тенденция: смертность стабильно держится на уровне выше 14‰, тогда как рождаемость продолжает снижаться. Такой дисбаланс приводит к углублению естественной убыли населения и формирует серьезные вызовы для социально-экономического развития страны. Сложившаяся демографическая ситуация требует незамедлительного принятия комплексных мер как в области семейной политики, так и в сфере здравоохранения [2].
Рисунок 2. Динамика естественной убыли и миграционного прироста населения РФ за 2014-2023г. [7]
Данные за последнее десятилетие (Рисунок 2) показывают резкое ухудшение демографической ситуации. Естественная убыль населения выросла с 22,5 тыс. в 2014 году до рекордных 1042 тыс. в 2020 году, что в 46 раз превышает начальный показатель. Миграционный прирост, колеблющийся от 28,3 до 387,2 тыс. человек, лишь частично компенсирует эти потери.
Особенно тревожной выглядит ситуация 2022-2023 годов, когда при сохраняющейся высокой убыли (495-595 тыс.) миграционный прирост сократился до минимальных значений (62-251 тыс.). Такая динамика свидетельствует о нарастании структурных демографических проблем, требующих срочных мер политического реагирования.
Рисунок 3. Демографическая пирамида РФ на 01.01.2025г. [7]
Демографическая структура населения РФ (см. Рисунок 3) свидетельствует о выраженном старении населения: возрастные группы 60+ составляют значительную долю, причем численность женщин в категориях 80-89 лет в 5-6 раз превышает мужскую (1,47 млн против 245 тыс.), что отражает кризис сверхсмертности мужского населения. Параллельно наблюдается глубокая демографическая яма в поколениях 0-19 лет, где численность детей и подростков на 15-20% ниже сопредельных возрастных групп [1]. Такая деформированная возрастная пирамида создает комплекс социально-экономических вызовов: растущую нагрузку на пенсионную систему и здравоохранение при сокращающемся трудоспособном населении и ослабленном демографическом потенциале.
Таблица 1.
Демографический прогноз России на 2035 год
Показатель |
Прогнозируемое значение |
Изменение к 2035 г. в (%) |
Население (млн чел.) |
142.5 |
-2.7% |
Рождаемость (%) |
6.8 |
25.3% |
Смертность (%) |
16.9 |
13.4% |
Естественная убыль (%) |
-1.01 |
- 0.41% |
Результаты модели демонстрируют (см. Таблица 1) устойчивую депопуляционную траекторию: сокращение населения до 142.5 млн человек (-2.7% к 2023 г.) сопровождается нарастанием структурных дисбалансов. Критическое падение рождаемости до 6.8‰ (-25.3% за 12 лет) отражает исчерпание репродуктивного потенциала поколений 2000-х годов при сохранении текущей социально-экономической политики. Рост смертности до 16.9‰ (+13.4%) обусловлен "старением старения" – увеличением доли лиц 75+ лет, чья смертность в 4.7 раза выше среднероссийского уровня. Углубление естественной убыли до -1.01% ВВП (-0.41 п.п.) свидетельствует о переходе демографического кризиса в необратимую фазу, где даже гипотетическое увеличение миграции до 400 тыс. человек ежегодно не компенсирует естественную убыль после 2032 года. Погрешность модели ±1.2 млн человек преимущественно сосредоточена в старших возрастных группах из-за нелинейности смертности после 80 лет.
Методика вычислений базировалась на комбинации когортно-компонентного метода и машинного обучения (XGBoost), адаптированной для условий ограниченности исходных данных. Для возрастной структуры населения на 2025 год были применены стандартные коэффициенты дожития Росстата с поправкой на сверхсмертность мужчин в трудоспособных возрастах (15-64 года), где использовался коэффициент 1.8 относительно женской смертности. Рождаемость моделировалась через повозрастные коэффициенты фертильности (ASFR) с экспоненциальным трендом (-2% годовых), учитывающим вторичное снижение рождаемости у поколений 1990-х годов. Миграционный прирост фиксировался на уровне 250 тыс. человек ежегодно с равномерным распределением по возрастам 20-45 лет, что соответствует средним значениям за 2015-2023 гг. Интеграция с общей моделью осуществлялась через итеративную балансировку, где прогнозируемая численность населения корректировалась на отклонения суммы возрастных групп более чем на 0.5% [2, 6].
Таблица 2.
Сравнительный анализ результатов прогнозирования
Источник |
Прогноз на 2035 (млн) |
Расчет с помощью машинного обучения |
142.5 |
Росстат (консервативный сценарий) |
141.1 |
Сравнительный анализ выявил высокую степень согласованности нашего прогноза с консервативным сценарием Росстата, что подтверждает методологическую корректность проведенных расчетов. Незначительное расхождение в 1.4 млн человек (1% от общей численности) объясняется различиями в учете миграционной составляющей: в то время как Росстат использует понижающий коэффициент для миграции (-15% после 2030 г.), наша модель сохраняет стабильный миграционный приток на уровне 250 тыс. человек ежегодно, что отражает текущие тенденции компенсации демографических потерь за счет СНГ.
Таким образом совпадение траекторий по ключевым параметрам (рождаемость, смертность, возрастная структура) в пределах статистической погрешности (±1.5 млн) свидетельствует об адекватности примененного когортно-компонентного метода даже в условиях ограниченности исходных данных.
Заключение. Проведенное исследование демографических тенденций России с применением методов машинного обучения и когортно-компонентного анализа выявило устойчивую депопуляционную динамику, характеризующуюся критическим снижением рождаемости (6.8‰ к 2035 году) на фоне прогрессирующего старения населения и роста смертности (16.9‰), что в условиях ограниченного миграционного потенциала формирует долгосрочные риски для социально-экономического развития страны.
Полученные результаты, согласующиеся с консервативным сценарием Росстата (погрешность ±1.5 млн человек), подтверждают эффективность гибридного подхода, сочетающего традиционные демографические методы с алгоритмами XGBoost для обработки ограниченных массивов данных. Результаты исследования подчеркивают необходимость разработки комплексных мер демографической политики, направленных на смягчение структурных дисбалансов и компенсацию естественной убыли населения за счет адресных программ поддержки рождаемости и регулирования миграционных потоков.
Список литературы:
- Ван Ю. Анализ тенденций и текущего состояния старения населения России // Гуманитарные, Социально-экономические и общественные науки. 2025. N1 (январь) [Электронный ресурс]. - URL: https://cyberleninka.ru/article/n/analiz-tendentsiy-i-tekuschego-sostoyaniya-stareniya-naseleniya-rossii/viewer
- Патасов О. Россия в системе международных миграционных процессов: современная ситуация и тренды // Вестник Ростовского государственного экономического университета (РИНХ). 2024 [Электронный ресурс]. - URL: https://cyberleninka.ru/article/n/rossiya-v-sisteme-mezhdunarodnyh-migratsionnyh-protsessov-sovremennaya-situatsiya-i-trendy/viewer
- Федотов И.С. Геопростраственный анализ ресурсов и социально экономического развития // Международный научный журнал «Вестник Науки» N 1 (82) Том 4. Январь 2025 [Электронный ресурс]. - URL: https://cyberleninka.ru/article/n/geoprostranstvennyy-analiz-resursov-i-sotsialno-ekonomicheskogo-razvitiya/viewer
- Alexander M., Polimis K., Zagheni E. Combining traditional and digital data sources for improved migration estimates // PNAS Nexus. - 2023. - Vol. 2, № 4. - P. pgad102. [Электронный ресурс]. - URL: https://academic.oup.com/pnasnexus/article/2/4/pgad102/7144636
- Lemaire P., Furno A., Rubrichi S. et al. Early detection of critical urban events using mobile phone network data // PLOS ONE. - 2024. - Vol. 19, № 8. - P. e0309093. [Электронный ресурс]. - URL: https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0309093
- Rampazzo F., Bijak J., Vitali A. Assessing the accuracy of model-based demographic forecasting methods // Demographic Research. - 2021. - Vol. 45. - P. 723-752. [Электронный ресурс]. - URL: https://www.demographic-research.org/volumes/vol45/24/
- Росстат. Демографический ежегодник России. 2023. - Москва: Федеральная служба государственной статистики, 2023. - 380 с. [Электронный ресурс]. - URL: https://rosstat.gov.ru
дипломов
Оставить комментарий