Телефон: 8-800-350-22-65
Напишите нам:
WhatsApp:
Telegram:
MAX:
Прием заявок круглосуточно
График работы офиса: с 9:00 до 21:00 Нск (с 5:00 до 19:00 Мск)

Статья опубликована в рамках: CVI Международной научно-практической конференции «Актуальные вопросы экономических наук и современного менеджмента» (Россия, г. Новосибирск, 06 мая 2026 г.)

Наука: Экономика

Секция: Банковское и страховое дело

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Молчанов Д.Д. СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ПРОГНОЗИРОВАНИЯ КОРПОРАТИВНЫХ ДЕФОЛТОВ РОССИЙСКИХ ПРЕДПРИЯТИЙ // Актуальные вопросы экономических наук и современного менеджмента: сб. ст. по матер. CVI междунар. науч.-практ. конф. № 5(89). – Новосибирск: СибАК, 2026. – С. 12-18.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ПРОГНОЗИРОВАНИЯ КОРПОРАТИВНЫХ ДЕФОЛТОВ РОССИЙСКИХ ПРЕДПРИЯТИЙ

Молчанов Даниил Дмитриевич

аспирант, Университет «Синергия»,

РФ, г. Москва

COMPARATIVE ANALYSIS OF MACHINE LEARNING METHODS FOR PREDICTING CORPORATE DEFAULTS OF RUSSIAN ENTERPRISES

 

Мolchanov Daniil Dmitrievich

Postgraduate student, Synergy University,

Russia, Moscow

 

АННОТАЦИЯ

В данном исследовании представлены итоги сравнительного анализа показателей качества четырех алгоритмов машинного обучения (логистическая регрессия, метод опорных векторов, случайный лес, градиентный бустинг) в предсказании корпоративных дефолтов. На основе синтез зарубежных и отечественных публикаций определены сильные и слабые стороны каждого из алгоритмов в случае работы с российскими финансовыми выборками. Уделено специальное внимание проблеме несбалансированности классов и проблеме прозрачности моделей. Полученные результаты формируют методическую основу для выбора архитектуры систем раннего предупреждения.

ABSTRACT

The paper presents the results of the comparison of quality indicators of four machine learning algorithms (logistic regression, support vector method, random forest, gradient boosting) at predicting corporate defaults. Based synthesis of domestic and foreign publications - advantages and disadvantages of each of the methods in the case of working on Russian financial samples are defined. Special attention was given to the problem of classes imbalance and the problem of models transparency. The obtained results form the methodic basis for selecting the architecture of early warning systems.

 

Ключевые слова: машинное обучение; корпоративный дефолт; прогнозирование банкротства; кредитный риск; ансамблевые методы; интерпретируемость; несбалансированные данные.

Keywords: machine learning; corporate default; bankruptcy prediction; credit risk; ensemble methods; interpretability; imbalanced data.

 

Введение

Заблаговременное обнаружение признаков финансовой несостоятельности предприятий остается одной из наиболее острых проблем в практике банковского риск-менеджмента. Классические дискриминантные модели, такие как Z-score Альтмана или модель Таффлера, постепенно теряют свою прогностическую силу на фоне структурных сдвигов в российской экономике и проявления нелинейных связей между финансовыми счетами [1, 2]. Методы машинного обучения способны значительно повысить точность прогнозов, однако вопрос выбора оптимального алгоритма с учетом регуляторных ограничений и вычислительных ресурсов пока продолжает вызывать споры [3, 4].

В рамках данного исследования ставится задача: сопоставить эффективность основных алгоритмов машинного обучения при прогнозировании корпоративных дефолтов и выработать практические рекомендации по их внедрению. Для ее решения ставится 3 основных задачи: во-первых, систематизировать сильные и слабые стороны обсуждаемых алгоритмов; во-вторых, провести сравнение по показателям точности, устойчивости к дисбалансу классов и прозрачности принимаемых решений; в-третьих, определить зоны целесообразного применения каждого метода в архитектуре систем раннего предупреждения.

МАТЕРИАЛЫ И МЕТОДЫ ИССЛЕДОВАНИЯ

В качестве методологии данной работы выступают подходы как статистического анализа, так и машинам обучения, с фокусом на четыре отдельных семейства алгоритмов. Логистическая регрессия предоставляет базу и вероятностный инструмент бинарной классификации, а формула для прогноза вероятности дефолта принимается следующей:

                                                                     (1)

Наиважнейшим плюсом данного метода наряду с другими является легко интерпретируемые коэффициенты. Однако линейность данной модели несколько ограничивает ее возможность зафиксировать более сложные взаимодействия признаков в выборке. Метод опорных векторов SVM ищет оптимальную разделяющую гиперплоскость и находит свое применение в задачах высокой размерности, но требует строгой предварительной обработки данных и неустойчив к выбраноядру. Ансамблевые подходы, например случайный лес Random Forest, агрегируют предсказания безумного числа решающих деревьев; такой подходоборот весьма устойчив к шуму и заранее обеспечивает сама собой четкое ранжирование значимости факторов, однако при сильном классовом перекосе, например полному отбору класса - при хорошей точности, может смещаться в мажоритарную часть класса. Градиентный бустинг XGBoost / LightGBM строит последовательность деревьев, где каждое следующее компенсирует и уменьшает ошибки предыдущих, что с точки зрения точности прогноза - превосходно, но требует еще более затратной заточки гиперпараметров.

Сравнение велось по AUC-ROC, F1-score, по требованиям к вычислительным мощностям, устойчивости к дисбалансу и по уровню интерпретируемости.

РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ

В таблице 1 собраны обобщенные данные о характеристиках всех исследованных алгоритмов.

Таблица 1.

Сравнительная характеристика методов машинного обучения для прогнозирования корпоративных дефолтов

Критерий

Логистическая регрессия

SVM

Случайный лес

Градиентный бустинг

Точность (AUC-ROC)

0,75–0,85

0,80–0,88

0,85–0,92

0,88–0,95

F1-score

0,60–0,75

0,65–0,78

0,75–0,85

0,80–0,88

Интерпретируемость

Высокая

Низкая

Средняя

Низкая

Вычислительная сложность

Низкая

Средняя

Средняя

Высокая

Устойчивость к шуму

Средняя

Высокая

Высокая

Средняя

Работа с несбалансированными данными

Требует взвешивания

Требует настройки

Встроенные механизмы

Встроенные механизмы

Требования к предобработке

Минимальные

Высокие (масштабирование)

Минимальные

Минимальные

Время обучения

Быстрое

Среднее

Среднее

Медленное

Время прогнозирования

Очень быстрое

Быстрое

Быстрое

Быстрое

Автором была подготовлена Таблица 1 на основании [4, с. 104; 6, с. 5; 7, с. 54; 8, с. 52; 9, с. 104].

 

По результатам видно, что ансамблевые модели показывают наивысшую точность (AUC-ROC = 0,95), но их практическое применение натыкается на "черный ящик". Под "черным ящиком" подразумевается, что слабо коррелирующие выборочные признаки алгоритмы усредняют, что ведет к завышению прогнозов, в которых доля проще платёжеспособных заёмщиков (в ущерб доле дефолтных, которая в российских условиях и составляет, как правило, > 5-15% выборки). Этот недостаток частично компенсируют параметры class_weight и scale_pos_weight в Random Forest и Gradient Boosting, в то время как логистическую регрессию требует подгонять к реальным коэффициентам весами класса или использовать подход ресемплинга [10].

 

Рисунок 1. Радарная диаграмма сравнительной оценки методов машинного обучения по ключевым критериям (шкала 1–5 баллов)

 

Учитывая жесткие требования регулятора к прозрачности кредитных решений, для сложных моделей есть смысл использовать пост-hoc интерпретации (SHAP, LIME), которые позволят наглядно локально аппроксимировать и показать вклад каждого финансового коэффициента в итоговый вердикт системы [11, 12].

ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ

Сравнение метрик дает закономерный компромисс: наращивание точности чаще всего требует обильной потери в прозрачности. На этой почве можно выделить несколько возможностей для внедрения. Для крупных кредитных организаций с развитой IT-инфраструктурой оптимальным выбором остается градиентный бустинг с SHAP-анализом, так как это дает возможность сбалансировать максимальную точность и регуляторную отчетность. В сегменте среднего бизнеса, где быстрее требуется скорость развертывания и проще возможность сопровождения, лучше применять случайный лес. Если в приоритете полностью прозрачные схемы для аудиторов или регулятора, выбор падает на логистическую регрессию или гибридные схемы, где ансамбль генерирует сшитый предикт, а линейная модель штампует валидатор. Практика также показывает, что комбинирование алгоритмов (стекинг, блендинг) помогает снизить дисперсию и повысить устойчивость системы к ослаблению нарастающего изменения распределения данных [4, 8].

Заключение

Подводя итог, резюмирую. Первое. Ансамблевые алгоритмы (Random Forest, Gradient Boosting) стабильно перегоняют классические статистические подходы на 10-15% по метрике AUC-ROC, что подтверждает их высокую эффективность для создания систем раннего мониторинга. Второе. Дисбаланс классов лучше всего компенсируется встроенными механизмами ансамблей, что критически важно для снижения доли пропусков дефолтов. Третье. Интегрировать сложные ML модели в банковские процессы вообще нельзя без инструментов объяснимости (SHAP/LIME), иначе не пройдет регуляторскую валидацию. Четвертое. Конкретный алгоритм надо выбирать не только по точности, но и по инфраструктурным возможностям организаций: градиентный бустинг - для максимальной точности, случайный лес - для разумного приближения скорости к вездедоступной прозрачности, логистическая регрессия - для строгой отчетности. Полученные результаты являются заделом для последующих расчетов по актуальным массивам данных российских предприятий.

 

Список литературы:

  1. Алексеева Ю.А. Оценка финансового состояния и прогнозирование банкротства предприятий : автореф. дис. ... канд. экон. наук. — М. : Финансовый университет при Правительстве РФ, 2011. — 21 с. — URL: https://www.hse.ru/sci/diss/27542909 (дата обращения: 04.05.2026)
  2. Altman E.I. Financial Ratios, Discriminant Analysis and the Prediction of Corporate Bankruptcy // Journal of Finance. — 1968. — Vol. 23, № 4. — P. 589–609. — DOI: 10.2307/2978933.
  3. Барабанова М.И. [и др.]. Искусственный интеллект в финансах. — СПб. : [б.и.], 2024. — 298 с. — URL: https://www.elibrary.ru/item.asp?id=68014373 (дата обращения: 04.05.2026)
  4. Bukharin E.O., Mangileva S.I., Afanasev V.V. Default prediction for Russian food service firms: contribution of non-financial factors and machine learning // Journal of Applied Economic Research. — 2024. — Vol. 23, № 1. — P. 206–226. — URL: https://journalaer.ru/fileadmin/user_upload/site_15934/2024/09_Bukharin_Mangileva_Afanasev.pdf (дата обращения: 04.05.2026)
  5. Карминский А.М., Бурехин Р.Н. Сравнительный анализ методов прогнозирования банкротств российских строительных компаний // Бизнес-информатика. — 2019. — Т. 13, № 3. — С. 52–66. — URL: https://cyberleninka.ru/article/n/sravnitelnyy-analiz-metodov-prognozirovaniya-bankrotstv-rossiyskih-stroitelnyh-kompaniy (дата обращения: 04.05.2026).
  6. О требованиях к системе управления рисками и капиталом : указание Банка России от 11.07.2022 № 6168-У. — URL: https://www.cbr.ru/faq_ufr/dbrnfaq/doc/forPrint/?id=423 (дата обращения: 04.05.2026)
  7. Поспелова А.С. [и др.]. Прогнозирование вероятности банкротства предприятий сферы услуг на основе методов коллективного обучения // Бизнес. Образование. Право. — 2023. — № 4 (65). — С. 54–63. — URL: https://vestnik.volbi.ru/upload/numbers/465/article-465-3848.pdf (дата обращения: 04.05.2026)
  8. Фомина Е.С. Проектирование ответственных систем машинного обучения : учеб. пособие. — Хабаровск : Изд-во ТОГУ, 2024. — 106 с.
  9. Чернов И.В., Прохоров И.В. Разработка методики оценки финансового состояния кредитных организаций с использованием алгоритмов машинного обучения // Экономический вестник. — 2025. — Т. 4, № 3. — С. 104–114. — URL: https://eb-journal.ru/wp-content/uploads/2025/07/jekonomicheskij-vestnik-t-4-3-2025.pdf (дата обращения: 04.05.2026)
  10. Шмелева А.Г. [и др.]. Программная модель оценки кредитоспособности клиентов с применением алгоритмов искусственного интеллекта // Финансовая экономика. — 2020. — № 10. — С. 313–316. — URL: https://cyberleninka.ru/article/n/programmnaya-model-otsenki-kreditosposobnosti-klientov-s-primeneniem-algoritmov-iskusstvennogo-intellekta (дата обращения: 04.05.2026)
  11. Breiman L. Random Forests // Machine Learning. — 2001. — Vol. 45, № 1. — P. 5–32. — DOI: 10.1023/A:1010933404324.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов