Статья опубликована в рамках: Научного журнала «Студенческий» № 18(356)

Рубрика журнала: Информационные технологии

Библиографическое описание:

Гумин М.М., Момат В.З. СРАВНИТЕЛЬНЫЙ АНАЛИЗ ЭФФЕКТИВНОСТИ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ ИЗ РАЗЛИЧНЫХ СЕМЕЙСТВ // Студенческий: электрон. научн. журн. 2026. № 18(356). URL: https://sibac.info/journal/student/357/416750 (дата обращения: 24.07.2026).

СРАВНИТЕЛЬНЫЙ АНАЛИЗ ЭФФЕКТИВНОСТИ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ ИЗ РАЗЛИЧНЫХ СЕМЕЙСТВ

Гумин Михаил Михайлович

студент 3 курса, кафедра «Информационные системы цифровой экономики», Российский университет транспорта,

РФ, г. Москва

Момат Валентин Захариевич

РФ, г. Москва

Гринчар Николай Николаевич

научный руководитель,

канд. экон. наук, доц., Российский университет транспорта,

РФ, г. Москва

A COMPARATIVE ANALYSIS OF THE EFFICIENCY OF MACHINE LEARNING ALGORITHMS FROM DIFFERENT FAMILIES

Gumin Mikhail Mikhalovich

3rd year student, Department of «Information Systems of Digital Economy», Russian University of Transport,

Russia, Moscow

Momat Valentin Zakharievich

3rd year student of, Department of «Information Systems of Digital Economy», Russian University of Transport,

Russia, Moscow

Grinchar Nikolai Nikolaevich

Scientific supervisor, candidate of Sciences in Economics, associate professor, Russian University of Transport,

Russia, Moscow

АННОТАЦИЯ

В статье проведён сравнительный анализ шести алгоритмов машинного обучения из четырёх семейств: линейные модели (линейная регрессия, Ridge, LASSO), k-ближайших соседей, деревья решений и случайный лес. Исследование выполнено на датасете из 14003 записей с 15 академическими, поведенческими и демографическими признаками (после удаления признака ExamScore из-за экстремально высокой корреляции с целевой переменной). Целевая переменная – итоговая оценка студента (FinalGrade). Данные прошли предобработку. Для каждой модели выполнен подбор гиперпараметров с помощью 5-fold кросс-валидации. Сравнение проводилось по метрикам MAE, MSE, RMSE, R² и времени обучения. Наилучшие результаты показал случайный лес. Линейные модели показали минимальное качество, что свидетельствует об отсутствии выраженной линейной зависимости между поведенческими признаками и итоговой оценкой.

ABSTRACT

This article provides a comparative analysis of six machine learning algorithms from four families: linear models (linear regression, Ridge, LASSO), k-nearest neighbors, decision trees, and random forest. The study was conducted on a dataset of 14,003 records with 15 academic, behavioral, and demographic features (after removing the ExamScore feature due to its extremely high correlation with the target variable). The target variable was the student's final grade (FinalGrade). The data was preprocessed. Hyperparameters were selected for each model using 5-fold cross-validation. Comparisons were made using the MAE, MSE, RMSE, R², and training time metrics. The random forest demonstrated the best results. Linear models demonstrated minimal quality, indicating the absence of a clear linear relationship between behavioral characteristics and final grades.

Ключевые слова: машинное обучение, регрессия, случайный лес, k-ближайших соседей, сравнительный анализ, кросс-валидация.

Keywords: machine learning, regression, random forest, k-nearest neighbors, comparative analysis, cross-validation.

Вступительная часть

В эпоху цифровой трансформации образования методы машинного обучения позволяют эффективно анализировать большие объёмы учебных данных и строить точные прогнозные модели. Одной из важных практических задач является раннее прогнозирование итоговой оценки студентов (FinalGrade) для своевременного выявления тех, кто принадлежит к «группе риска».

Настоящая работа посвящена сравнительному анализу эффективности четырёх семейств моделей машинного обучения для решения задачи регрессии [1, с. 8 – 11]:

- линейные модели (линейная регрессия, Ridge, LASSO);

- геометрические методы (k-ближайших соседей, k-NN);

- деревья решений;

- ансамбли деревьев (случайный лес).

Обзор набора данных

Исходные данные (файл merged_dataset.csv) предоставлены в открытом доступе и содержат 14003 строк, 16 столбцов. Целевая переменная – FinalGrade (целое число от 0 до 3, фактически дискретная, но для регрессии допустима).

Таблица 1.

Описание признаков датасета

Признак	Тип	Описание
StudyHours	числовой	Количество часов занятий в неделю
Attendance	числовой	Посещаемость (%)
Resources	бинарный	Доступ к дополнительным ресурсам (0/1)
Extracurricular	бинарный	Участие в кружках (0/1)
Motivation	порядковый	Уровень мотивации (0,1,2)
Internet	бинарный	Наличие интернета дома (0/1)
Gender	бинарный	Пол (0 – мужской, 1 – женский)
Age	числовой	Возраст (18–29 лет)
LearningStyle	категориальный	Стиль обучения (0,1,2,3)
OnlineCourses	числовой	Количество пройденных онлайн-курсов
Discussions	бинарный	Участие в дискуссиях (0/1)
AssignmentCompletion	числовой	Процент выполненных заданий
ExamScore	числовой	Средний балл за экзамены
EduTech	бинарный	Использование EdTech (0/1)
StressLevel	порядковый	Уровень стресса (0,1,2)
FinalGrade	целевая	Целевая переменная

При первичном анализе обнаружено 1534 полных дубликатов строк. После их удаления осталось 12469 уникальных записей.

Признак ExamScore был исключён из набора признаков на этапе предобработки, так как его корреляция с целевой переменной FinalGrade оказалась чрезвычайно высокой и составила 0,968.

Методология исследования

Предобработка данных

Удаление дубликатов – выполнено функцией pandas.drop_duplicates() [2, с. 31 – 32]. Разделение на признаки (X) и целевую переменную (y). Кодирование категориальных признаков – признак LearningStyle в числовые метки; для one‑hot кодирования использован OneHotEncoder в составе Pipeline.

Масштабирование числовых признаков – выполнено с помощью StandardScaler (среднее 0, дисперсия 1).

Разбиение на обучающую (80%) и тестовую (20%) выборки с фиксированным random_state=42 [3, с. 36] и стратификацией по целевой переменной для сохранения баланса классов.

Для каждого семейства выбраны представители, реализованные в библиотеке scikit-learn. Параметры перебирались с помощью GridSearchCV (5‑fold кросс-валидация) [4, c. 25 – 27] по сеткам [5, с. 28 – 30], приведённым в таблице 2.

Таблица 2.

Сетки гиперпараметров

Модель	Параметры	Значения
Линейная регрессия	–	–
Ridge	alpha	0.1, 1.0, 10.0
LASSO	alpha	0.01, 0.1, 1.0
K‑NN	n_neighbors, weights	3,5,7,9; uniform, distance
Дерево решений	max_depth, min_samples_split	3,5,10,None; 2,5,10
Случайный лес	n_estimators, max_depth	50,100; 5,10,None

Качество регрессии оценивалось по четырём метрикам:

MAE (Mean Absolute Error) – средняя абсолютная ошибка, интерпретируема.

MSE (Mean Squared Error) – среднеквадратичная ошибка, чувствительна к выбросам.

RMSE (Root Mean Squared Error) – корень из MSE, размерность совпадает с целевой.

R² (коэффициент детерминации) – доля дисперсии, объяснённая моделью.

Дополнительно фиксировалось время обучения (в секундах) для оценки вычислительной сложности.

Результаты и их обсуждение

Выполнение кода на исходных данных после удаления дубликатов (12469 строк, 14 признаков) дало следующие числовые значения:

Таблица 3.

Сравнительные метрики моделей (тестовая выборка)

Модель	Лучшие гиперпараметры	MAE	MSE	RMSE	R²	Время обучения (с)
Linear Regression	–	1.007930	1.265148	1.124788	0.005959	0.119452
Ridge	alpha=1.0	1.007943	1.265132	1.124781	0.005971	5.505443
LASSO	alpha=0.1	1.009807	1.265550	1.124967	0.005643	0.469452
K-NN	n_neighbors=7, weights='distance'	0.930573	1.184524	1.088358	0.069306	5.410794
Дерево решений	max_depth=5, min_samples_split=5	0.174419	0.340417	0.583453	0.732530	1.678488
Случайный лес	n_estimators=100, max_depth=10	0.316443	0.244651	0.494622	0.807775	29.467025

Наилучшие результаты (R²= 0.807775) показал случайный лес: он эффективно учитывает нелинейные взаимодействия между признаками и устойчив к переобучению благодаря бэггингу.

Дерево решений также дало хороший результат (R²= 0.732530). Оно немного уступает случайному лесу по R² и RMSE, но имеет меньшее значение MAE, что говорит о меньшей средней абсолютной ошибке на некоторых наблюдениях.

Линейные модели (линейная регрессия, Ridge, LASSO) показали крайне низкое качество (R² ≈ 0.006). Это указывает на отсутствие линейной зависимости между признаками и итоговой оценкой.

Модель K-NN ненамного лучше линейных моделей (R² = 0.069306). Локальное усреднение не позволяет захватить сложные нелинейные зависимости в данных.

Заключение

По итогу проведенного сравнительного анализа, можно вывести следующие выводы:

Наилучшую предсказательную способность показал случайный лес (МАЕ = 0.316443, MSE = 0.244651, RMSE = 0.494622, R2 = 0.807775), что объясняется его способностью автоматически учитывать нелинейные взаимодействия и устойчивостью к переобучению.

Дерево также может быть предпочтительным в задачах, где важна интерпретируемость модели.

Линейные модели и k-NN непригодны для данного набора признаков (R² ≈ 0.01), так как зависимость носит ярко выраженный нелинейный характер.

Список литературы:

Долганов А.Ю., Ронкин М.В., Созыкин А.В. Базовые алгоритмы машинного обучения на языке Python : учебно-методическое пособие / М-во науки и высшего образования РФ. – Екатеринбург : Изд-во Урал. ун-та, 2023. – 124 с. [2]
Кугаевских А.В., Муромцев Д.И., Кирсанова О.В. Классические методы машинного обучения. – СПб. : Университет ИТМО, 2022. – 53 с. [4]
Лимановская О.В., Алферьева Т.И. Основы машинного обучения : учебное пособие / Мин-во науки и высш. образования РФ. – Екатеринбург : Изд-во Урал. ун-та, 2020. – 88 с. [5]
Мухамедиев Р.И., Амиргалиев Е.Н. Введение в машинное обучение : учебник. – Алматы, 2022. – 252 с. [3]
Платонов А.В. Машинное обучение : учебное пособие для вузов [Электронный ресурс]. – 2-е изд. – Москва : Издательство Юрайт, 2026. – 89 с. – (Высшее образование). – ISBN 978-5-534-20732-3. – URL: https://urait.ru/bcode/589132 (дата обращения: 17.05.2026). [1]