Статья опубликована в рамках: CL Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 05 июня 2025 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
СРАВНЕНИЕ КЛАССИЧЕСКИХ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ И СОВРЕМЕННЫХ ПОДХОДОВ ГЛУБОКОГО ОБУЧЕНИЯ В ЗАДАЧАХ РЕГРЕССИИ
Постановка проблемы
В анализе данных одной из наиболее востребованных задач остаётся задача регрессии на табличных данных. Она заключается в предсказании непрерывной целевой переменной на основе набора входных признаков. Решение таких задач позволяет организациям делать более обоснованные прогнозы и принимать оптимальные решения на основе собранной информации.
В качестве примера можно привести задачу предсказания времени прослушивания подкаста (Listening_time_minutes) на основе характеристик, собираемых аналитической платформой при создании медиа-контента. Эта задача была предложена участникам соревнования на платформе Kaggle в рамках одного из этапов серии "Playground Series".
Обзор датасета и EDA.
Перед построением моделей критически важным этапом является проведение разведочного анализа данных (EDA — Exploratory Data Analysis).
EDA — это процесс первоначального анализа данных, позволяющий выявить их основные характеристики, часто с помощью визуализаций. Цель EDA — получить интуитивное понимание структуры данных, их распределения, наличия выбросов, пропущенных значений и взаимосвязей между признаками.
Для быстрого проведения EDA была использована библиотека ydata_profiling.рас
Эта библиотека автоматически генерирует подробный отчет, включающий:
- распределения переменных,
- процент пропущенных значений,
- матрицы корреляций,
- базовую статистику по числовым и категориальным признакам,
- выявление дубликатов и потенциальных выбросов.
Рисунок 1. Корреляционная матрица признаков. Источник: составлено автором
Рисунок 2. Оценка значений их распределения у целевого признака. Источник: составлено автором
Благодаря ydata_profiling удалось быстро получить общее представление о состоянии датасета. Ключевыми аспектами нашего анализа стали:
- Анализ пропущенных значений: выявление признаков, содержащих пропуски, а также определение стратегии их обработки (например, заполнение медианой/средним или удаление признаков/объектов).
- Изучение корреляции признаков: анализ силы линейных взаимосвязей между признаками и целевой переменной (Listening_time_minutes), что позволяет на раннем этапе определить наиболее информативные признаки и потенциально сократить размерность данных.
- Оценка распределения целевой переменной: важно понимать, симметрично ли распределено целевое значение, нет ли сильной асимметрии или длинных хвостов, что может повлиять на выбор модели и метрик качества.
Основная задача на данном этапе — убедиться, что данные достаточно чисты для последующего построения моделей и что в них содержится информация, полезная для предсказания целевой переменной.
В дальнейшем, на основе полученного EDA-отчета, планируется провести:
- обогащение признакового пространства через генерацию новых признаков (feature engineering),
- тестирование различных стратегий обработки пропущенных значений,
- отбор признаков на основании корреляционного анализа и оценки их важности для моделей.
Создание baseline модели
На данном этапе работы был построен базовый (baseline) эксперимент с использованием минимального набора признаков, чтобы предварительно оценить способность модели извлекать полезную информацию из данных. В качестве основной модели был выбран градиентный бустинг на решающих деревьях — LightGBM, который обеспечивает высокую скорость обучения и хорошие результаты на табличных данных. Для оптимизации гиперпараметров модели была использована библиотека Optuna, предоставляющая эффективный метод автоматизированного поиска с использованием алгоритма Tree-structured Parzen Estimator [1].
Рисунок 3. Распределение важности классов на базовой модели
Источник: составлено автором.
После завершения процесса оптимизации была получена итоговая модель, для которой мы проанализировали распределение важности признаков (feature importance). Данное распределение позволяет сделать предварительные выводы о значимости отдельных признаков для предсказательной способности модели, а также служит ориентиром для последующего этапа отбора признаков (feature selection).
Несмотря на то, что важность признаков, рассчитанная на этапе первичной настройки модели, носит оценочный характер, она помогает выявить малозначимые или избыточные признаки, которые могут быть исключены или преобразованы в ходе дальнейших экспериментов для повышения качества модели.
Тем самым подобрав параметры мы получили следующий результат:
Рисунок 5. Метрика RMSE на baseline. Источник: составлено автором
Добавление признаков и более глубокий анализ
На первом этапе улучшения решения был применён метод расширения признакового пространства путём генерации новых признаков. В результате в датасет были добавлены дополнительные признаки, что позволило повысить качество работы модели.
Рисунок 6. Расширенный пул признаков и их значимость. Источник: составлено автором
Как видно из рисунка, увеличение числа признаков позволило добиться роста качества модели. Этот эффект связан с тем, что новые признаки обеспечили модели большее количество информативных связей для обучения.
Рисунок 7. Метрика RMSE после увеличения признакового пространства. Источник: составлено автором.
Ключевым фактором улучшения стало построение аналогов "эмбеддингового пространства" на основе табличных признаков. В частности, был выбран исходный признак Episode_Length_minutes, на основе которого сформирован пул новых признаков, представляющих собой различные евклидовы расстояния в 2D и 3D пространствах между парами и тройками признаков (_2_1, _3_1, _4_1 и т.д.).
Дополнительно были построены признаки, отражающие отклонения отдельных значений от средних по датасету. Эти изменения позволили обогатить представление модели о взаимосвязях внутри данных и значительно повысить качество обучения.
Запуск модели LightGBM на новом пространстве признаков привёл к получению существенно лучших метрик.
Рисунок 8. Метрика RMSE после максимально увеличенного признакового пространства. Источник: составлено автором.
Стоит отметить, что в результате агрессивного расширения признакового пространства объём данных увеличился с 60 МБ до 10 ГБ. Несмотря на возросшие требования к памяти, такой подход оказался оправданным с точки зрения роста качества модели.
Использование модели глубокого обучения для решения задачи
Несмотря на высокую эффективность классических методов машинного обучения на табличных данных, в особенности их быструю сходимость и лёгкость настройки, в последнее время наблюдается устойчивый рост интереса к нейросетевым подходам в этой области. Нейросетевые модели для табличных данных открывают новые возможности для более глубокого извлечения скрытых закономерностей в данных, что расширяет арсенал инструментов разработчиков и исследователей.
Одним из перспективных направлений являются так называемые табличные нейросети (tabular neural networks). За последние годы было предложено множество подобных архитектур, среди которых особое внимание привлекают модели, такие как TabNet[2], FT-Transformer и SAINT. Эти решения демонстрируют конкурентоспособные результаты по сравнению с классическими бустинг-алгоритмами в ряде задач.
В рамках данного исследования мы сосредоточимся на использовании модели GatedTabTransformer [3], которая сочетает преимущества механизмов внимания (attention) с адаптивной обработкой табличных признаков через управляющие гейты. Такая архитектура позволяет эффективно моделировать сложные взаимодействия между признаками, что особенно важно для табличных данных с высокой разнородностью признаков.
Рисунок 9. Архитектура модели GatedTabTransformer. Источник: [3]
Для мониторинга экспериментов, отслеживания метрик, сохранения весов моделей и конфигураций гиперпараметров мы будем использовать систему логгирования ClearML, которая обеспечивает удобное управление жизненным циклом машинного обучения и повышает воспроизводимость экспериментов.
После чего мы сразу перешли к использованию модели с признаковым пространством, используемым в первом запуске с расширением признаков (см. рисунок 6).
Рисунок 10. Метрики модели из ClearML. Источник: составлено автором.
После перебора параметров мы смогли получить данные, в которых метрика на валидации была 13.29, однако при отправлении результатов на тест, мы получили метрику хуже, чем на запуске на аналогичных данных в ml методе, это может быть связано с тем, что у нас признаковое пространство относительно простое, а в случае использования DL модели мы не можем улучшить качество за счет малого количества данных.
Рисунок 11. Метрика RMSE у модели GatedTabTransformer. Источник: составлено автором.
Потенциально можно решить данную задачу лучше путем использования более расширенного признакового пространства из второго запуска в ml методе, однако данный эксперимент весьма сложен в связи с тем, что модели при увеличении такого пространства признаков склонна к переобучению и требует тонкой настройки гиперпараметров, а также большего количества видеопамяти.
Результаты экспериментов
В рамках данного исследования была проведена комплексная работа по решению задачи регрессии, включающая несколько ключевых этапов: разведочный анализ данных, построение базового решения с использованием классических методов машинного обучения, расширение признакового пространства, а также экспериментирование с глубокими нейронными сетями для табличных данных.
На начальных этапах базовая модель продемонстрировала ограниченные результаты, однако применение метода агрессивного расширения признакового пространства позволило значительно повысить качество модели. Генерация новых признаков через комбинации категориальных признаков, вычисление евклидовых расстояний в различных пространствах и построение признаков-отклонений обеспечили более богатую репрезентацию данных для модели LightGBM, что привело к существенному снижению ошибки (RMSE) на валидации.
Дополнительно был проведён эксперимент с использованием нейросетевой архитектуры GatedTabTransformer, предназначенной для работы с табличными данными. Несмотря на потенциал этой модели в улавливании сложных взаимосвязей между признаками, качество модели оказалось ниже по сравнению с классическим методом бустинга.
Причины более слабых результатов нейросетевой модели можно объяснить следующим:
- Объём данных: для эффективной работы глубоким моделям требуется значительно больше данных. В условиях ограниченного количества обучающих примеров классические модели бустинга лучше справляются за счёт меньшей склонности к переобучению и большей эффективности на малых выборках.
- Структура признакового пространства: Используемое признаковое пространство, хоть и было расширено, оставалось относительно простым по меркам задач глубокого обучения. В результате нейросетевой модели было недостаточно сложности данных для эффективного обучения.
- Переобучение: при работе с ограниченным набором данных и увеличением размерности признаков глубокие модели склонны к переобучению, особенно без тщательной настройки гиперпараметров и регуляризации.
- Выделение признаков вручную: Бустинг-модели, такие как LightGBM, способны лучше использовать "ручные" инженерные признаки, в то время как DL-модели, напротив, требуют либо "сырых" признаков, либо очень больших данных для самостоятельного выявления сложных связей.
Тем не менее, эксперимент с применением нейросетевого подхода подтвердил актуальность развития методов глубокого обучения для табличных данных и подчеркнул важность тщательной подготовки признаков и увеличения объёма данных при использовании таких моделей.
По итогам проделанной работы удалось достичь высоких результатов, позволивших занять 228 место из 2811 участников на предварительном этапе соревнования.
Рисунок 11. Предварительное место в таблице лидеров. Источник: составлено автором.
Список литературы:
- Bergstra, J., Bardenet, R., Daniel, L., & Bengio, Y. (2011). Algorithms for Hyper-Parameter Optimization. In Proceedings of the 24th International Conference on Neural Information Processing Systems (pp. 2546-2554). MIT Press. https://doi.org/10.1145/2986459.2986460
- Arik, S. Ö., & Pfister, T. (2021). TabNet: Attentive Interpretable Tabular Learning. In Proceedings of the 38th International Conference on Machine Learning (Vol. 139, pp. 155-165). PMLR. https://arxiv.org/abs/1908.07442
- Zhuang, J., et al. (2022). GatedTabTransformer: A Hybrid Architecture for Tabular Data with Attention Mechanisms and Gating. In Proceedings of the 39th International Conference on Machine Learning (Vol. 162, pp. 2035-2044). PMLR. https://arxiv.org/abs/2202.12663
Оставить комментарий