Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: Научного журнала «Студенческий» № 24(320)

Рубрика журнала: Экономика

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5

Библиографическое описание:
Мишура Д.Е. ГИБРИДНЫЕ МОДЕЛИ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ПРОГНОЗИРОВАНИЯ СОЦИАЛЬНОГО НЕРАВЕНСТВА: ВАЛИДАЦИЯ НА ДАННЫХ RLMS-HSE // Студенческий: электрон. научн. журн. 2025. № 24(320). URL: https://sibac.info/journal/student/320/381736 (дата обращения: 03.08.2025).

ГИБРИДНЫЕ МОДЕЛИ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ПРОГНОЗИРОВАНИЯ СОЦИАЛЬНОГО НЕРАВЕНСТВА: ВАЛИДАЦИЯ НА ДАННЫХ RLMS-HSE

Мишура Данил Евгеньевич

магистрант, кафедра Информационных систем и прикладной информатики, Ростовский Государственный Экономический Университет (РИНХ),

РФ, г. Ростов-на-Дону

АННОТАЦИЯ

Точный прогноз динамики доходного неравенства остается сложной задачей из-за взаимосвязанности социально-экономических факторов. В исследовании предложена гибридная модель, комбинирующая ARIMA и градиентный бустинг для прогнозирования коэффициента Джини. На основе 31 волны RLMS-HSE (1994-2023; n=312 459 домохозяйств) разработана двухэтапная модель: 1) ARIMA для выделения временных трендов, 2) Градиентный бустинг (GBR) для коррекции остатков с включением микропредикторов. Сравнение с базовыми ARIMA и GBR проведено с использованием метрик MAPE, RMSE и силы тренда.

 

Ключевые слова: доходное неравенство, машинное обучение, коэффициент Джини, ARIMA, градиентный бустинг, RLMS-HSE.

 

Количественная оценка доходного неравенства сохраняет ключевое значение для устойчивого развития. Глобальный мониторинг выявляет тревожные тенденции: по данным Всемирного банка, в 70% стран коэффициент Джини вырос с 1990 г. [6]. Россия демонстрирует парадоксальную динамику — официальная статистика указывает на снижение (0.483 в 1996 г. → 0.374 в 2022 г. [3]), тогда как оценки с учетом теневых доходов свидетельствуют о сохраняющемся высоком неравенстве (0.456) [2].

Ограничения существующих методов:

  • Эконометрические модели (ARIMA/VAR) игнорируют микроуровневые детерминанты [4]
  • ML-модели не учитывают временную автокорреляцию [5]
  • Перекрестные данные не отражают долгосрочную динамику [1]

Использованный источник данных: 31 волна базы данных RLMS-HSE (1994-2023 гг.). В него вошли более трехсот тысяч наблюдений домохозяйств, 187 переменных (доходы, демография, расходы и другие), покрытие 85 регионов РФ.

Из-за большого объема выборки, необходимо произвести предобработку данных, избавиться от выбросов. Для обработки выбросов использовался метод межквартильного размаха (IQR), заключающийся в определении нижней и верхней границы значений на основе первого и третьего квартилей.

Значения, выходящие за пределы этих границ, классифицируются как выбросы и исключаются из дальнейшего анализа.

 

Рисунок 1. Обработка выбросов методом IQR

 

Этапы построения модели ARIMA:

1. Декомпозицию временного ряда, которая представляет собой метод статистического анализа, направленного на выявление и разделение составляющих компонентов, присутствующих в последовательности наблюдений, упорядоченных во времени.

2. Построение эконометрической модели. На данном этапе определяются подходящие параметры модели, p, d и q, которые выражаются целыми числами. Модель записывается как:

Δdyt=c+ϕ1Δdyt−1+⋯+ϕpΔdyt−p+εt+θ1εt−1+⋯+θqεt−q                                           (1)

Δyt=yt−yt−1;

εt — случайная ошибка (белый шум);

ϕ1, ϕ2 — коэффициенты авторегрессии;

θ1 — коэффициент скользящего среднего.

Лучшей моделью эконометрического моделирования по результатам обработки алгоритма признана ARIMA (1,0,1), предсказание которой представлено на рисунке 2.

 

Рисунок 2. Прогнозирование модели ARIMA (1,0,1)

 

Предсказание по реализованной модели градиентного бустинга (Рисунок 3) – GradientBoostingRegressor (n_estimators=300, learning_rate=0.05, max_depth=3), где:

  • n_estimators - количество деревьев в ансамбле;
  • learning_rate - темп обучения (шаг сжатия), влияет на силу коррекции ошибок;
  • max_depth - максимальная глубина каждого дерева.

 

Рисунок 3. Прогнозирование модели GradientBoostingRegressor (n_estimators=300, learning_rate=0.05, max_depth=3)

 

Для оценки точности каждой модели используется TimeSeriesSplit кросс-валидация (3 фолда). Для каждого фолда рассчитываются метрики:

  • MAPE (Mean Absolute Percentage Error) — средняя абсолютная процентная ошибка,
  • RMSE (Root Mean Squared Error) — корень из среднеквадратической ошибки.
  • Trend_Strength — относительная сила тренда (через коэффициент линейной регрессии).

Представленные в таблице 1 метрики эффиктивности модели говорят о достаточно высокой надежности обоих моделей. Однако метрики модели градиентного бустинга GradientBoostingRegressor (n_estimators=300, learning_rate=0.05, max_depth=3) делают ее более точной в прогнозировании коэффициента Джини.

Таблица 1.

Оценки точности моделей ARIMA и GBR.

Параметр

Значение ARIMA (1,0,1)

Значение GradientBoostingRegressor (n_estimators=300, learning_rate=0.05, max_depth=3)

MAPE

8.25

6.94

RMSE

0.2

0.03

Trend_Strengh

-0.15

-0.43

 

По итогам сравнения Градиентный бустинг (LightGBM) превзошел ARIMA в точности прогноза коэффициента Джини (MAPE: 6.94 против 8.25).

 

Список литературы:

  1. ВШЭ. Методологическое руководство RLMS-HSE. М.: Изд. дом Высшей школы экономики, 2023. – 134 с.
  2. Гурвич Е.Т. Теневые доходы в измерении неравенства // Экономический журнал. 2021. Т. 44. № 3. 78–95 с.
  3. Росстат. Показатели распределения доходов: статистический сборник. М.: Росстат, 2023. – 214 с.
  4. Chen T., Guestrin C. XGBoost: A Scalable Tree Boosting System // Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD '16). New York: ACM, 2016. P. 785–794.
  5. Hyndman R.J., Athanasopoulos G. Forecasting: Principles and Practice. 3rd ed. Melbourne: OTexts, 2021. 456 p.
  6. World Bank. Poverty and Shared Prosperity 2023: Correcting Course. Washington, DC: World Bank, 2023. 189 p.1

Оставить комментарий