Статья опубликована в рамках: Научного журнала «Студенческий» № 18(356)
Рубрика журнала: Информационные технологии
СРАВНИТЕЛЬНЫЙ АНАЛИЗ ЭФФЕКТИВНОСТИ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ ИЗ РАЗЛИЧНЫХ СЕМЕЙСТВ
A COMPARATIVE ANALYSIS OF THE EFFICIENCY OF MACHINE LEARNING ALGORITHMS FROM DIFFERENT FAMILIES
Gumin Mikhail Mikhalovich
3rd year student, Department of «Information Systems of Digital Economy», Russian University of Transport,
Russia, Moscow
Momat Valentin Zakharievich
3rd year student of, Department of «Information Systems of Digital Economy», Russian University of Transport,
Russia, Moscow
Grinchar Nikolai Nikolaevich
Scientific supervisor, candidate of Sciences in Economics, associate professor, Russian University of Transport,
Russia, Moscow
АННОТАЦИЯ
В статье проведён сравнительный анализ шести алгоритмов машинного обучения из четырёх семейств: линейные модели (линейная регрессия, Ridge, LASSO), k-ближайших соседей, деревья решений и случайный лес. Исследование выполнено на датасете из 14003 записей с 15 академическими, поведенческими и демографическими признаками (после удаления признака ExamScore из-за экстремально высокой корреляции с целевой переменной). Целевая переменная – итоговая оценка студента (FinalGrade). Данные прошли предобработку. Для каждой модели выполнен подбор гиперпараметров с помощью 5-fold кросс-валидации. Сравнение проводилось по метрикам MAE, MSE, RMSE, R² и времени обучения. Наилучшие результаты показал случайный лес. Линейные модели показали минимальное качество, что свидетельствует об отсутствии выраженной линейной зависимости между поведенческими признаками и итоговой оценкой.
ABSTRACT
This article provides a comparative analysis of six machine learning algorithms from four families: linear models (linear regression, Ridge, LASSO), k-nearest neighbors, decision trees, and random forest. The study was conducted on a dataset of 14,003 records with 15 academic, behavioral, and demographic features (after removing the ExamScore feature due to its extremely high correlation with the target variable). The target variable was the student's final grade (FinalGrade). The data was preprocessed. Hyperparameters were selected for each model using 5-fold cross-validation. Comparisons were made using the MAE, MSE, RMSE, R², and training time metrics. The random forest demonstrated the best results. Linear models demonstrated minimal quality, indicating the absence of a clear linear relationship between behavioral characteristics and final grades.
Ключевые слова: машинное обучение, регрессия, случайный лес, k-ближайших соседей, сравнительный анализ, кросс-валидация.
Keywords: machine learning, regression, random forest, k-nearest neighbors, comparative analysis, cross-validation.
Вступительная часть
В эпоху цифровой трансформации образования методы машинного обучения позволяют эффективно анализировать большие объёмы учебных данных и строить точные прогнозные модели. Одной из важных практических задач является раннее прогнозирование итоговой оценки студентов (FinalGrade) для своевременного выявления тех, кто принадлежит к «группе риска».
Настоящая работа посвящена сравнительному анализу эффективности четырёх семейств моделей машинного обучения для решения задачи регрессии [1, с. 8 – 11]:
- линейные модели (линейная регрессия, Ridge, LASSO);
- геометрические методы (k-ближайших соседей, k-NN);
- деревья решений;
- ансамбли деревьев (случайный лес).
Обзор набора данных
Исходные данные (файл merged_dataset.csv) предоставлены в открытом доступе и содержат 14003 строк, 16 столбцов. Целевая переменная – FinalGrade (целое число от 0 до 3, фактически дискретная, но для регрессии допустима).
Таблица 1.
Описание признаков датасета
|
Признак |
Тип |
Описание |
|
StudyHours |
числовой |
Количество часов занятий в неделю |
|
Attendance |
числовой |
Посещаемость (%) |
|
Resources |
бинарный |
Доступ к дополнительным ресурсам (0/1) |
|
Extracurricular |
бинарный |
Участие в кружках (0/1) |
|
Motivation |
порядковый |
Уровень мотивации (0,1,2) |
|
Internet |
бинарный |
Наличие интернета дома (0/1) |
|
Gender |
бинарный |
Пол (0 – мужской, 1 – женский) |
|
Age |
числовой |
Возраст (18–29 лет) |
|
LearningStyle |
категориальный |
Стиль обучения (0,1,2,3) |
|
OnlineCourses |
числовой |
Количество пройденных онлайн-курсов |
|
Discussions |
бинарный |
Участие в дискуссиях (0/1) |
|
AssignmentCompletion |
числовой |
Процент выполненных заданий |
|
ExamScore |
числовой |
Средний балл за экзамены |
|
EduTech |
бинарный |
Использование EdTech (0/1) |
|
StressLevel |
порядковый |
Уровень стресса (0,1,2) |
|
FinalGrade |
целевая |
Целевая переменная |
При первичном анализе обнаружено 1534 полных дубликатов строк. После их удаления осталось 12469 уникальных записей.
Признак ExamScore был исключён из набора признаков на этапе предобработки, так как его корреляция с целевой переменной FinalGrade оказалась чрезвычайно высокой и составила 0,968.
Методология исследования
Предобработка данных
Удаление дубликатов – выполнено функцией pandas.drop_duplicates() [2, с. 31 – 32]. Разделение на признаки (X) и целевую переменную (y). Кодирование категориальных признаков – признак LearningStyle в числовые метки; для one‑hot кодирования использован OneHotEncoder в составе Pipeline.
Масштабирование числовых признаков – выполнено с помощью StandardScaler (среднее 0, дисперсия 1).
Разбиение на обучающую (80%) и тестовую (20%) выборки с фиксированным random_state=42 [3, с. 36] и стратификацией по целевой переменной для сохранения баланса классов.
Для каждого семейства выбраны представители, реализованные в библиотеке scikit-learn. Параметры перебирались с помощью GridSearchCV (5‑fold кросс-валидация) [4, c. 25 – 27] по сеткам [5, с. 28 – 30], приведённым в таблице 2.
Таблица 2.
Сетки гиперпараметров
|
Модель |
Параметры |
Значения |
|
Линейная регрессия |
– |
– |
|
Ridge |
alpha |
0.1, 1.0, 10.0 |
|
LASSO |
alpha |
0.01, 0.1, 1.0 |
|
K‑NN |
n_neighbors, weights |
3,5,7,9; uniform, distance |
|
Дерево решений |
max_depth, min_samples_split |
3,5,10,None; 2,5,10 |
|
Случайный лес |
n_estimators, max_depth |
50,100; 5,10,None |
Качество регрессии оценивалось по четырём метрикам:
MAE (Mean Absolute Error) – средняя абсолютная ошибка, интерпретируема.
MSE (Mean Squared Error) – среднеквадратичная ошибка, чувствительна к выбросам.
RMSE (Root Mean Squared Error) – корень из MSE, размерность совпадает с целевой.
R² (коэффициент детерминации) – доля дисперсии, объяснённая моделью.
Дополнительно фиксировалось время обучения (в секундах) для оценки вычислительной сложности.
Результаты и их обсуждение
Выполнение кода на исходных данных после удаления дубликатов (12469 строк, 14 признаков) дало следующие числовые значения:
Таблица 3.
Сравнительные метрики моделей (тестовая выборка)
|
Модель |
Лучшие гиперпараметры |
MAE |
MSE |
RMSE |
R² |
Время обучения (с) |
|
Linear Regression |
– |
1.007930 |
1.265148 |
1.124788 |
0.005959 |
0.119452 |
|
Ridge |
alpha=1.0 |
1.007943 |
1.265132 |
1.124781 |
0.005971 |
5.505443 |
|
LASSO |
alpha=0.1 |
1.009807 |
1.265550 |
1.124967 |
0.005643 |
0.469452 |
|
K-NN |
n_neighbors=7, weights='distance' |
0.930573 |
1.184524 |
1.088358 |
0.069306 |
5.410794 |
|
Дерево решений |
max_depth=5, min_samples_split=5 |
0.174419 |
0.340417 |
0.583453 |
0.732530 |
1.678488 |
|
Случайный лес |
n_estimators=100, max_depth=10 |
0.316443 |
0.244651 |
0.494622 |
0.807775 |
29.467025 |
Наилучшие результаты (R2 = 0.807775) показал случайный лес: он эффективно учитывает нелинейные взаимодействия между признаками и устойчив к переобучению благодаря бэггингу.
Дерево решений также дало хороший результат (R2 = 0.732530). Оно немного уступает случайному лесу по R² и RMSE, но имеет меньшее значение MAE, что говорит о меньшей средней абсолютной ошибке на некоторых наблюдениях.
Линейные модели (линейная регрессия, Ridge, LASSO) показали крайне низкое качество (R² ≈ 0.006). Это указывает на отсутствие линейной зависимости между признаками и итоговой оценкой.
Модель K-NN ненамного лучше линейных моделей (R² = 0.069306). Локальное усреднение не позволяет захватить сложные нелинейные зависимости в данных.
Заключение
По итогу проведенного сравнительного анализа, можно вывести следующие выводы:
Наилучшую предсказательную способность показал случайный лес (МАЕ = 0.316443, MSE = 0.244651, RMSE = 0.494622, R2 = 0.807775), что объясняется его способностью автоматически учитывать нелинейные взаимодействия и устойчивостью к переобучению.
Дерево также может быть предпочтительным в задачах, где важна интерпретируемость модели.
Линейные модели и k-NN непригодны для данного набора признаков (R² ≈ 0.01), так как зависимость носит ярко выраженный нелинейный характер.
Список литературы:
- Долганов А.Ю., Ронкин М.В., Созыкин А.В. Базовые алгоритмы машинного обучения на языке Python : учебно-методическое пособие / М-во науки и высшего образования РФ. – Екатеринбург : Изд-во Урал. ун-та, 2023. – 124 с. [2]
- Кугаевских А.В., Муромцев Д.И., Кирсанова О.В. Классические методы машинного обучения. – СПб. : Университет ИТМО, 2022. – 53 с. [4]
- Лимановская О.В., Алферьева Т.И. Основы машинного обучения : учебное пособие / Мин-во науки и высш. образования РФ. – Екатеринбург : Изд-во Урал. ун-та, 2020. – 88 с. [5]
- Мухамедиев Р.И., Амиргалиев Е.Н. Введение в машинное обучение : учебник. – Алматы, 2022. – 252 с. [3]
- Платонов А.В. Машинное обучение : учебное пособие для вузов [Электронный ресурс]. – 2-е изд. – Москва : Издательство Юрайт, 2026. – 89 с. – (Высшее образование). – ISBN 978-5-534-20732-3. – URL: https://urait.ru/bcode/589132 (дата обращения: 17.05.2026). [1]

