Телефон: 8-800-350-22-65
Напишите нам:
WhatsApp:
Telegram:
MAX:
Прием заявок круглосуточно
График работы офиса: с 9:00 до 21:00 Нск (с 5:00 до 19:00 Мск)

Статья опубликована в рамках: Научного журнала «Студенческий» № 18(356)

Рубрика журнала: Информационные технологии

Библиографическое описание:
Гумин М.М., Момат В.З. СРАВНИТЕЛЬНЫЙ АНАЛИЗ ЭФФЕКТИВНОСТИ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ ИЗ РАЗЛИЧНЫХ СЕМЕЙСТВ // Студенческий: электрон. научн. журн. 2026. № 18(356). URL: https://sibac.info/journal/student/357/416750 (дата обращения: 22.05.2026).

СРАВНИТЕЛЬНЫЙ АНАЛИЗ ЭФФЕКТИВНОСТИ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ ИЗ РАЗЛИЧНЫХ СЕМЕЙСТВ

Гумин Михаил Михайлович

студент 3 курса, кафедра «Информационные системы цифровой экономики», Российский университет транспорта,

РФ, г. Москва

Момат Валентин Захариевич

студент 3 курса, кафедра «Информационные системы цифровой экономики», Российский университет транспорта,

РФ, г. Москва

Гринчар Николай Николаевич

научный руководитель,

канд. экон. наук, доц., Российский университет транспорта,

РФ, г. Москва

A COMPARATIVE ANALYSIS OF THE EFFICIENCY OF MACHINE LEARNING ALGORITHMS FROM DIFFERENT FAMILIES

 

Gumin Mikhail Mikhalovich

3rd year student, Department of «Information Systems of Digital Economy», Russian University of Transport,

Russia, Moscow

Momat Valentin Zakharievich

3rd year student of, Department of «Information Systems of Digital Economy», Russian University of Transport,

Russia, Moscow

Grinchar Nikolai Nikolaevich

Scientific supervisor, candidate of Sciences in Economics, associate professor, Russian University of Transport,

Russia, Moscow

 

АННОТАЦИЯ

В статье проведён сравнительный анализ шести алгоритмов машинного обучения из четырёх семейств: линейные модели (линейная регрессия, Ridge, LASSO), k-ближайших соседей, деревья решений и случайный лес. Исследование выполнено на датасете из 14003 записей с 15 академическими, поведенческими и демографическими признаками (после удаления признака ExamScore из-за экстремально высокой корреляции с целевой переменной). Целевая переменная – итоговая оценка студента (FinalGrade). Данные прошли предобработку. Для каждой модели выполнен подбор гиперпараметров с помощью 5-fold кросс-валидации. Сравнение проводилось по метрикам MAE, MSE, RMSE, R² и времени обучения. Наилучшие результаты показал случайный лес. Линейные модели показали минимальное качество, что свидетельствует об отсутствии выраженной линейной зависимости между поведенческими признаками и итоговой оценкой.

ABSTRACT

This article provides a comparative analysis of six machine learning algorithms from four families: linear models (linear regression, Ridge, LASSO), k-nearest neighbors, decision trees, and random forest. The study was conducted on a dataset of 14,003 records with 15 academic, behavioral, and demographic features (after removing the ExamScore feature due to its extremely high correlation with the target variable). The target variable was the student's final grade (FinalGrade). The data was preprocessed. Hyperparameters were selected for each model using 5-fold cross-validation. Comparisons were made using the MAE, MSE, RMSE, R², and training time metrics. The random forest demonstrated the best results. Linear models demonstrated minimal quality, indicating the absence of a clear linear relationship between behavioral characteristics and final grades.

 

Ключевые слова: машинное обучение, регрессия, случайный лес, k-ближайших соседей, сравнительный анализ, кросс-валидация.

Keywords: machine learning, regression, random forest, k-nearest neighbors, comparative analysis, cross-validation.

 

Вступительная часть

В эпоху цифровой трансформации образования методы машинного обучения позволяют эффективно анализировать большие объёмы учебных данных и строить точные прогнозные модели. Одной из важных практических задач является раннее прогнозирование итоговой оценки студентов (FinalGrade) для своевременного выявления тех, кто принадлежит к «группе риска».

Настоящая работа посвящена сравнительному анализу эффективности четырёх семейств моделей машинного обучения для решения задачи регрессии [1, с. 8 – 11]:

 - линейные модели (линейная регрессия, Ridge, LASSO);

- геометрические методы (k-ближайших соседей, k-NN);

- деревья решений;

- ансамбли деревьев (случайный лес).

Обзор набора данных

Исходные данные (файл merged_dataset.csv) предоставлены в открытом доступе и содержат 14003 строк, 16 столбцов. Целевая переменная – FinalGrade (целое число от 0 до 3, фактически дискретная, но для регрессии допустима).

Таблица 1.

Описание признаков датасета

Признак

Тип

Описание

StudyHours

числовой

Количество часов занятий в неделю

Attendance

числовой

Посещаемость (%)

Resources

бинарный

Доступ к дополнительным ресурсам (0/1)

Extracurricular

бинарный

Участие в кружках (0/1)

Motivation

порядковый

Уровень мотивации (0,1,2)

Internet

бинарный

Наличие интернета дома (0/1)

Gender

бинарный

Пол (0 – мужской, 1 – женский)

Age

числовой

Возраст (18–29 лет)

LearningStyle

категориальный

Стиль обучения (0,1,2,3)

OnlineCourses

числовой

Количество пройденных онлайн-курсов

Discussions

бинарный

Участие в дискуссиях (0/1)

AssignmentCompletion

числовой

Процент выполненных заданий

ExamScore

числовой

Средний балл за экзамены

EduTech

бинарный

Использование EdTech (0/1)

StressLevel

порядковый

Уровень стресса (0,1,2)

FinalGrade

целевая

Целевая переменная

 

При первичном анализе обнаружено 1534 полных дубликатов строк. После их удаления осталось 12469 уникальных записей.

Признак ExamScore был исключён из набора признаков на этапе предобработки, так как его корреляция с целевой переменной FinalGrade оказалась чрезвычайно высокой и составила 0,968.

Методология исследования

Предобработка данных

Удаление дубликатов – выполнено функцией pandas.drop_duplicates() [2, с. 31 – 32]. Разделение на признаки (X) и целевую переменную (y). Кодирование категориальных признаков – признак LearningStyle в числовые метки; для one‑hot кодирования использован OneHotEncoder в составе Pipeline.

Масштабирование числовых признаков – выполнено с помощью StandardScaler (среднее 0, дисперсия 1).

Разбиение на обучающую (80%) и тестовую (20%) выборки с фиксированным random_state=42 [3, с. 36] и стратификацией по целевой переменной для сохранения баланса классов.

Для каждого семейства выбраны представители, реализованные в библиотеке scikit-learn. Параметры перебирались с помощью GridSearchCV (5‑fold кросс-валидация) [4, c. 25 – 27] по сеткам [5, с. 28 – 30], приведённым в таблице 2.

Таблица 2.

Сетки гиперпараметров

Модель

Параметры

Значения

Линейная регрессия

Ridge

alpha

0.1, 1.0, 10.0

LASSO

alpha

0.01, 0.1, 1.0

K‑NN

n_neighbors, weights

3,5,7,9; uniform, distance

Дерево решений

max_depth, min_samples_split

3,5,10,None; 2,5,10

Случайный лес

n_estimators, max_depth

50,100; 5,10,None

 

Качество регрессии оценивалось по четырём метрикам:

MAE (Mean Absolute Error) – средняя абсолютная ошибка, интерпретируема.

MSE (Mean Squared Error) – среднеквадратичная ошибка, чувствительна к выбросам.

RMSE (Root Mean Squared Error) – корень из MSE, размерность совпадает с целевой.

R² (коэффициент детерминации) – доля дисперсии, объяснённая моделью.

Дополнительно фиксировалось время обучения (в секундах) для оценки вычислительной сложности.

Результаты и их обсуждение

Выполнение кода на исходных данных после удаления дубликатов (12469 строк, 14 признаков) дало следующие числовые значения:

Таблица 3.

Сравнительные метрики моделей (тестовая выборка)

Модель

Лучшие гиперпараметры

MAE

MSE

RMSE

Время обучения (с)

Linear Regression

1.007930

1.265148

1.124788

0.005959

0.119452

Ridge

alpha=1.0

1.007943

1.265132

1.124781

0.005971

5.505443

LASSO

alpha=0.1

1.009807

1.265550

1.124967

0.005643

0.469452

K-NN

n_neighbors=7, weights='distance'

0.930573

1.184524

1.088358

0.069306

5.410794

Дерево решений

max_depth=5, min_samples_split=5

0.174419

0.340417

0.583453

0.732530

1.678488

Случайный лес

n_estimators=100, max_depth=10

0.316443

0.244651

0.494622

0.807775

29.467025

 

Наилучшие результаты (R2 = 0.807775) показал случайный лес: он эффективно учитывает нелинейные взаимодействия между признаками и устойчив к переобучению благодаря бэггингу.

Дерево решений также дало хороший результат (R2 = 0.732530). Оно немного уступает случайному лесу по R² и RMSE, но имеет меньшее значение MAE, что говорит о меньшей средней абсолютной ошибке на некоторых наблюдениях.

Линейные модели (линейная регрессия, Ridge, LASSO) показали крайне низкое качество (R² ≈ 0.006). Это указывает на отсутствие линейной зависимости между признаками и итоговой оценкой.

Модель K-NN ненамного лучше линейных моделей (R² = 0.069306). Локальное усреднение не позволяет захватить сложные нелинейные зависимости в данных.

Заключение

По итогу проведенного сравнительного анализа, можно вывести следующие выводы:

Наилучшую предсказательную способность показал случайный лес (МАЕ = 0.316443, MSE = 0.244651,    RMSE = 0.494622, R2 = 0.807775), что объясняется его способностью автоматически учитывать нелинейные взаимодействия и устойчивостью к переобучению.

Дерево также может быть предпочтительным в задачах, где важна интерпретируемость модели.

Линейные модели и k-NN непригодны для данного набора признаков (R² ≈ 0.01), так как зависимость носит ярко выраженный нелинейный характер.

 

Список литературы:

  1. Долганов А.Ю., Ронкин М.В., Созыкин А.В. Базовые алгоритмы машинного обучения на языке Python : учебно-методическое пособие / М-во науки и высшего образования РФ. – Екатеринбург : Изд-во Урал. ун-та, 2023. – 124 с. [2]
  2. Кугаевских А.В., Муромцев Д.И., Кирсанова О.В. Классические методы машинного обучения. – СПб. : Университет ИТМО, 2022. – 53 с. [4]
  3. Лимановская О.В., Алферьева Т.И. Основы машинного обучения : учебное пособие / Мин-во науки и высш. образования РФ. – Екатеринбург : Изд-во Урал. ун-та, 2020. – 88 с. [5]
  4. Мухамедиев Р.И., Амиргалиев Е.Н. Введение в машинное обучение : учебник. – Алматы, 2022. – 252 с. [3]
  5. Платонов А.В. Машинное обучение : учебное пособие для вузов [Электронный ресурс]. – 2-е изд. – Москва : Издательство Юрайт, 2026. – 89 с. – (Высшее образование). – ISBN 978-5-534-20732-3. – URL: https://urait.ru/bcode/589132 (дата обращения: 17.05.2026). [1]