Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: CCXIV Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 09 июня 2025 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Калашников В.С., Колотыгин Д.В., Певная Т.И. [и др.] ИССЛЕДОВАНИЕ АЛГОРИТМОВ ПРЕДСКАЗАНИЯ ОТСЕВА СТУДЕНТОВ // Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ: сб. ст. по мат. CCXIV междунар. студ. науч.-практ. конф. № 11(213). URL: https://sibac.info/archive/meghdis/11(213).pdf (дата обращения: 19.06.2025)
Проголосовать за статью
Идет голосование
Эта статья набрала 1 голос (обновление каждые 15 минут)
Дипломы участников
У данной статьи нет
дипломов

ИССЛЕДОВАНИЕ АЛГОРИТМОВ ПРЕДСКАЗАНИЯ ОТСЕВА СТУДЕНТОВ

Калашников Владислав Сергеевич

студент, Институт радиоэлектроники и информационных технологий, Уральский федеральный университет,

РФ, г. Екатеринбург

Колотыгин Дмитрий Валерьевич

студент, Институт радиоэлектроники и информационных технологий, Уральский федеральный университет,

РФ, г. Екатеринбург

Певная Таисия Ивановна

студент, Институт радиоэлектроники и информационных технологий, Уральский федеральный университет,

РФ, г. Екатеринбург

Петрова Евгения Антоновна

студент, Институт радиоэлектроники и информационных технологий, Уральский федеральный университет,

РФ, г. Екатеринбург

Серегин Тимофей Алексеевич

студент, Институт радиоэлектроники и информационных технологий, Уральский федеральный университет,

РФ, г. Екатеринбург

RESEARCH ON STUDENT DROPPING PREDICTION ALGORITHMS

 

Vladislav Kalashnikov

student, The Engineering School of Information Technologies, Ural Federal University,

Russia, Yekaterinburg

Dmitry Kolotygin

student, The Engineering School of Information Technologies, Ural Federal University,

Russia, Yekaterinburg

Taisiya Pevnaya

student, The Engineering School of Information Technologies, Ural Federal University,

Russia, Yekaterinburg

Evgeniya Petrova

student, The Engineering School of Information Technologies, Ural Federal University,

Russia, Yekaterinburg

Timofey Seregin

student, The Engineering School of Information Technologies, Ural Federal University,

Russia, Yekaterinburg

 

АННОТАЦИЯ

Вопрос повышения числа выпустившихся студентов является актуальным для всех высших учебных заведений. Стратегией вуза в данном случае является обнаружение множественных факторов, препятствующих успешному освоению учебной программы, и принятие превентивных мер.

Проблема академической неуспешности определенных студентов ставится во многих академических исследованиях. В данной статье авторы исследуют вопрос прогнозирования отсева студентов на базе различных показателей: демографических, социальных, академических и прочих.

В основу исследования легли данные по двум выборкам студентов Уральского Федерального Университета за один год – бакалавриат/специалитет (1611 наблюдений) и магистратура (670 наблюдений).

В ходе выбора моделей авторами были рассмотрены несколько возможных моделей и архитектур для обучения, а именно: дерево решений (Decision tree classifier), логистическая регрессия (Logistic regression), AdaBoost classifier, CatBoost classifier, HistGradientBoosting classifier, LGBM classifier, XGB classifier, случайный лес (Random Forest), KNN. На всех этапах для оценивания использовалась метрика f1-score для положительного класса и GridSearchCV.

ABSTRACT

The issue of increasing the number of graduating students is relevant for all higher education institutions. A university’s strategy in this regard involves identifying multiple factors that hinder successful completion of academic programs and taking preventive measures.

The problem of academic failure among certain students is frequently addressed in academic research. In this article, the authors explore the issue of predicting student dropout based on various indicators: demographic, social, academic, and others.

The study is based on data from two samples of students from Ural Federal University over one academic year — undergraduate/specialist programs (1,611 observations) and master's programs (670 observations).

During model selection, the authors considered several possible models and architectures for training, namely: Decision Tree Classifier, Logistic Regression, AdaBoost Classifier, CatBoost Classifier, HistGradientBoosting Classifier, LGBM Classifier, and XGB Classifier, Random Forest, KNN. At all stages, the f1-score metric for the positive class and GridSearchCV were used for evaluation.

 

Ключевые слова: академическая успешность, прогнозирование, отчисление, факторы академической неуспешности.

Keywords: academic performance, prediction, dropout, factors of academic failure.

 

ВВЕДЕНИЕ

Обучение в университете не всегда проходит успешно. После поступления часть студентов отсеивается по различным причинам: низкая успеваемость, семейные обстоятельства, несоответствие университетской программы интересам студента и прочие варианты. Однако, некоторые студенты спустя время восстанавливаются или выходят из академического отпуска, что приводит к вопросу урегулирования количества прогнозируемых свободных мест и необходимости университета, в целом, разрабатывать инструменты уменьшения «текучки студентов» и их удержания. Университет принимает определенные меры с целью нивелирования данной проблемы. Одной из мер является прогнозирование отсева студентов. Таким образом, обозначенная нами проблема – необходимость мониторинга успеваемости студентов.

Новизна исследования, в первую очередь, обосновывается новыми данными для построения модели прогнозирования отсева студентов. Аналогичные исследования были представлены в ряде отечественных и зарубежных вузов, однако их алгоритмы отличались набором исследуемых факторов и общей выборкой. Ранее не было разработано модели на используемых нами данных

Практическая значимость исследования заключается в применении разработанной модели для мониторинга успеваемости студентов в рамках Уральского Федерального университета. Данный инструмент позволяет с большей долей вероятности своевременно обнаружить необходимость принятия превентивных мер по отчислению студентов.

Литературный обзор

Тема прогнозирования академической неуспешности студентов или их отчисления уже была рассмотрена в различных статьях. Некоторые статьи имеют схожую задачу и применяют аналогичные методологии для ее решения.

Например, в выпускной квалификационной работе на тему «Разработка системы для предсказания успеваемости студентов на основе данных портала “Электронный ЮУрГУ”» [1] авторы разработали алгоритм предсказания успеваемости студентов. Цель работы немного отличается от нашей, так как предсказывается успеваемость студента, а не вероятность его отчисления, однако исходные данные и специфика проекта имеют определенные сходства. Для предсказания авторы использовали как искусственные нейронные сети с алгоритмом обратного распространения ошибки, так и алгоритм градиентного бустинга XGBoost. Для подготовки данных применялись стандартные техники предобработки и извлечения признаков. Анализ проводился на языке Python с использованием фреймворка TensorFlow. Входными данными для моделей служили демографические, социально-экономические характеристики студентов, а также информация об их успеваемости. Также авторами был разработан веб-интерфейс на базе Django, что позволило системе работать с базой данных и предоставлять лаконичную визуализацию результатов.

Также аналогичный проект был внедрен в Московском городском педагогическом университете (МГПУ) [2]. ВУЗ внедрили систему прогнозирования успеваемости студентов, основанную на технологии искусственного интеллекта (ИИ). Данное решение было превентивной мерой – руководство вуза уверено, что прогнозирование позволит не доводить дело до отчисления. На текущий момент данная мера позволила университету сократить отчисления в два раза (с 5% до 2,5%).  Для более точного прогноза, алгоритм осуществляет не бинарную классификацию («отчислен» или «не отчислен»), а ранжирование по 4 категориям – высокая успеваемость, средняя, удовлетворительная и кандидаты на отчисление.

В качестве основных параметров для прогнозирования категории успеваемости в модели берутся следующие факторы: пол, возраст, место проживания, основа (контракт/бюджет), институт, образовательная программа, родной регион, результаты ЕГЭ, курсы по выбору, участие/не участие в общественной деятельности, пользование библиотекой и другие факторы.

Результаты работы системы показали, что наиболее сильным предиктором являются результаты предыдущих экзаменов (особенно за второй, третий и четвертый семестры) и активность использования информационной среды университета (вход в личный кабинет, мониторинг оценок, выполнение онлайн-курсов и прочее).

Более того, в новой системе МГПУ есть возможность предсказывать отчисление студента по собственному желанию, а не из-за низкой успеваемости. С этой целью в вузе регулярно проводятся опросы для сбора информации о психологическом состоянии студентов.

Еще одно инновационное решение, внедренное в МГПУ – «умные аудитории» [3], предназначенная для повышения эффективности обучения. Система анализирует выражения лиц студентов с помощью камер, оценивая их эмоции и вовлеченность в учебный процесс. Это дает преподавателям возможность адаптировать методы обучения, улучшая коммуникацию и вовлеченность. Тестирование системы демонстрирует точность распознавания на уровне 87%.

Следующее аналогичное цифровое решение было рассмотрено в статье «Компьютерная модель прогнозирования отчисления студентов на основе данных приемной кампании» [4] студентами Алтайского государственного университета. В работе представлена модель логистической регрессии для прогнозирования отчислений студентов АлтГУ. Использованы данные из баз "Приёмная комиссия" и "Деканат" (2013-2018), объединенные посредством SQL. Предобработка данных включала унификацию и заполнение пропусков с использованием R-скрипта и регулярных выражений, а также удаление признаков с низкой дисперсией. Обучение регрессионной модели (реализация на R) проводилось на данных 2013-2017 годов (90/10 train/test). Данные 2018 года использованы для валидации и прогнозирования отчислений, что позволило идентифицировать проблемных студентов. Показана экономическая выгода от внедрения модели.

Наибольшую значимость в рамках данной модели показали следующие показатели: тип учебного заведения, из которого пришел абитуриент (колледж, общеобразовательная школа, лицей и т. д.), средний балл ЕГЭ при поступлении, наличие родителей (особенно матери), являлся ли абитуриент иностранцем, являлся ли абитуриент жителем сельской местности. Общая точность предсказания модели составила 86%, что является высоким показателем. Точность оценивалась через AUC показатель.

Следующее аналогичное исследование – статья «Прогнозирование риска отчисления как результат академической неуспешности обучающегося» [5]. В данной статье автор ставит вопрос «преодоления учебной неуспешности». Для исследования автор брал данные по 579 студентам медицинского университета в течение 6 лет. В ходе исследования были выведены 4 основных группы факторов, оказывающих влияние на успеваемость студентов: внешние немодифицируемые, внешние модифицируемые, внутренние немодифицируемые, внутренние модифицируемые. Данная классификация отличается от ранее упомянутых, однако подразумевает схожие факторы (университетские, психологические и прочие).

В результате исследование автором была получена модель деревьев решений с точностью прогноза до 94,6%. Основными показателями, оказывающими значимое влияние на прогнозируемую величину, стали – средний балл за предыдущие семестры и суммарный балл при поступлении.

В англоязычной статье «Predict students dropout and academic success using Ensemble Learning» [6] авторы также рассматривают вопрос предсказания выбывания студентов с целью принять превентивные меры на ранних этапах. Как можно понять из названия, авторы использую ансамблевые модели для построения предсказания. В качестве данных для обучения в данном исследовании, в отличии от остальных проектов, рассматриваются студенты с разных направлений: агрономия, дизайн, менеджмент, образование, сестринское дело, журналистика, социология и цифровые технологии. Сам датасет представляет собой 36 признаков и 4424 наблюдения. Список переменных включает в себя возраст студента, вступительный бал, является ли студент получателем стипендии, профессию и квалификацию родителей (отдельно отца и матери), семейное положение, оценки за 1 и 2 семестры, ВВП, инфляцию и прочие показатели.

В качестве моделей автор рассматривал несколько вариантов: дерево решений, случайный лес, градиентный бустинг и cat boost алгоритм. Наилучшую предсказательную способность показал алгоритм Яндекса CatBoost (86%), второе место по точности занял случайный лес (85%), третье – градиентный бустинг версии Light (Light GBM, 83%). Основной метрикой для сравнения была выбрала accuracy.

Следующий иностранный проект «Student dropout prediction through machine learning optimization: insights from moodle log data» [7] также в качестве модели прогнозирования рассматривает алгоритм Cat Boost, разработанный Яндексом. В качестве опорного показателя для предсказания отчисления авторы взяли статистику логов с образовательной платформы Moodle. Авторы рассмотрели два варианты реализации модели: на базе нескольких моделей, предобученных на данных по неделям, или же единая модель за весь промежуток времени. Первый вариант назвали моделью Multiple, второй – Unique. При сравнении полученных результатов, авторы пришли к выводу, что модель Unique по всем параметрам превосходит результаты модели Multiple. Метриками для сравнения являлись F1 score, recall, accuracy и AUC.

Последним рассмотрим аналогичный проект, ориентированный на специфику финской системы высшего образования. В статье «Predicting student dropouts with machine learning: An empirical study in Finnish higher education» [8] авторы рассматривают идентичную нам проблему – необходимость снижения количества отчисленных студентов. Датасет данного исследования 8813 наблюдений с 2015 по 2020 год. Показатели в проекте делятся на изменяющиеся во времени и независимые от него.

Независимые от времени: пол, предыдущее образование (статус школы), направление программы, родной язык матери, возраст, стартовый семестр (начало учебы осенью или весной).

Зависимые от времени: количество посещенных месяцев, количество отсутствующих месяцев, число проходимых курсов, средняя оценка, количество долгов, число дней замены, активность в системе Moodle, тренд активности в Moodle (возрастающий, убывающий, стабильный).

Были использованы десять различных моделей классификации: логистическая регрессия, случайный лес, метод опорных векторов, линейный дискриминантный анализ, метод k-ближайших соседей, наивный байесовский классификатор, нейронные сети, XGBoost, CatBoost и LightGBM. Из этих моделей три, показавшие наилучшие результаты, были выбраны для сравнения важности признаков.

Наилучшие показатели были у Cat Boost алгоритма, вторая по результатам модель нейронной сети, третья – логистическая регрессия. Для сравнения рассматривались в порядке приоритета: AUC, AP, F1, precision, recall.

Подводя итоги, мы рассмотрели несколько проектов со схожей проблематикой. Рассмотрели взятые в качестве предикторов переменные, используемые модели и полученные результаты.

Методология

Исследуемый набор данных содержит следующую информацию: пол студента, возраст, происхождение, имеющееся образование, направление подготовки, текущая успеваемость, льготы, дополнительные достижения и т.д.

При предварительной обработке данных для построения модели и изучения взаимосвязей между независимыми переменными, многие предикторы были исключены, с целью избежать переобучения. Итоговый набор данных состоял из 40 различных параметров.

Далее при разведывательном анализе данных был выявлен дисбаланс классов целевой переменной.

 

Рисунок 1. Гистограмма соотношения значений зависимой переменной – отсева студентов (для бакалавриата/специалитета)

 

Для получения наиболее точного прогноза предсказываемой величины, необходимо рассмотреть достаточное количество наблюдений для обоих случаев. В нашей ситуации, представленной на рисунке 7, выборка составляет почти 20% отчисленных студентов и чуть более 80% успешно обучающихся. Были приняты меры по балансировке данных.

В ходе выбора моделей нами были рассмотрены несколько возможных моделей и архитектур для обучения, а именно: Дерево решений (Decision tree classifier), Логистическая регрессия (Logistic regression), AdaBoost classifier, CatBoost classifier, HistGradientBoosting classifier, LGBM classifier, XGB classifier, KNN, Logistic regression + Nystroem, Простейшая нейронная сеть, Перцептрон (Perceptron), Случайный лес (Random forest). На всех этапах для оценивания использовалась метрика f1-score для положительного класса и GridSearchCV. Так же была проведена предобработка датасета с помощью различных алгоритмом выделения выбросов, а именно: Isolation forest, Local outlier factor, DBSCAN, Расстояние Махаланобиса (Mahalanobis), каппинг сверху (0.95) и снизу (0.05).

Рассмотрим полученные результаты.

Таблица 1

Сравнительная таблица результатов обучения моделей для бакалавриата/специалитета

Модель

Macro avg precision

Recall (класс 1)

F1-score (класс 1)

ROC-PR

Random forest + standard scaler и Mahalanobis

0.899

0.808

0.824

0.844

HistGradientBoosting classifier и без предобработки

0.870

0.808

0.792

0.772

XGB classifier + standard scaler и DBSCAN + standard scaler

0.865

0.805

0.786

0.798

HistGradientBoosting classifier и DBSCAN + standard scaler

0.904

0.732

0.789

0.753

 

Согласно табл. 1, наилучший результат для выборки бакалавриата/специалитета показала Random forest, обученная на датасете, который был предобработан с помощью расстояния Махаланобиса.

Таблица 2

Сравнительная таблица результатов обучения моделей для магистратуры

Модель

Macro avg precision

Recall (1)

F1-score (1)

ROC-PR

Logistic Regression + standard scaler + Nystroem и Local outlier factor + standard scaler

0.780

0.828

0.706

0.628

Logistic Regression + standard scaler и Local outlier factor + standard scaler

0.780

0.828

0.706

0.639

Random forest + standard scaler и каппинг сверху (0.95) и снизу (0.05)

0.803

0.941

0.744

0.647

 

Как можно видеть на таб. 2, наилучший результат для выборки магистратуры показала модель Random forest, обученная на датасете, который был предобработан с помощью каппинга.

Авторами использовалась формула, чтобы получить место студента в общем рейтинге. Ниже приведены формула и её объяснение.

Ключевые обозначения:

  • : индекс предмета
  • : множество студентов, изучавших предмет
  • : общее количество студентов по предмету          ​
  • : балл студента  по предмету
  • : константа для численной стабильности
  • : параметр степени (по умолчанию )
  • N – Общее количество предметов

1.Расчёт метрик по предмету:

Для каждого предмета  вычисляются:

  • Множество студентов с не нулевыми баллами:

  • Средний балл (без нулевых баллов):

,

  • Доля студентов с нулевыми баллами:

2.Скорректированный балл студента по предмету :

Для студента с баллом :

  • Случай 1: Студент не сдал

Штраф пропорционален строгости предмета:

  • Чем выше  (средний балл), тем больше штраф за несдачу.
  • Чем ниже  (доля нулевых), тем больше штраф за несдачу.
  • Случай 2: Студент сдал :

Бонус/штраф за отклонение от среднего:

  • Если  (выше среднего), то  бонус
  • Если  (ниже среднего), то  штраф
  • Модуль отклонения  усиливает влияние при .
  • Доля : отклонения сильнее влияют для предметов с малой долей нулевых.

3.Итоговый штрафной балл студента:

Отрицательный : студент лучше среднего (меньший штраф).

Положительный : студент хуже среднего (больший штраф).

Данная формула позволяет оценить успеваемость студента относительно остальных, учитывая результаты по каждому предмету отдельно. Такой подход даёт возможность принимать во внимание относительную сложность или лёгкость освоения каждой дисциплины.

Наиболее важные признаки, полученные при обучении моделей, и выводы об этих признаках.

Для модели Local outlier factor + standard scaler и Logistic regression + standard scaler + Nystroem (Магистратура):

  • позиция студента в рейтинге (Позиция студента в общем рейтинге, который вычисляется для каждого студента по формуле, указанной выше),
  • общее количество долгов (Отражает число дисциплин, по которым была получена оценка «неудовлетворительно»),
  • fromEkaterinburg (Студент родом из г. Екатеринбург или нет),
  • приоритет (Указанный приоритет направления при поступлении),
  • сумма баллов испытаний (Сумма баллов испытаний при поступлении в магистратуру).

Mahalanobis и Random Forest + standard scaler (Бакалавр + Специалитет)

  • позиция студента в рейтинге (Позиция студента в общем рейтинге, который вычисляется для каждого студента по формуле, указанной выше),
  • общее количество долгов (Отражает число дисциплин, по которым была получена оценка «неудовлетворительно»),
  • сумма баллов испытаний (Сумма баллов ЕГЭ / вступительных экзаменов),
  • полных лет на момент поступления (Отражает число полных лет для каждого студента),
  • балл за индивидуальные достижения (баллы за ГТО, олимпиады и пр.).

ЗАКЛЮЧЕНИЕ

В ходе исследования авторы пришли к следующим выводам:

1. Для всех студентов наибольшую важность представляет текущая успеваемость, в частности:

  • Позиция студента в рейтинге — показывает, насколько хорошо студент справляется с учебной нагрузкой относительно других студентов;
  • Общее количество долгов — их наличие может указывать на потенциальные трудности в освоении образовательной программы.

2. Также важны баллы вступительных испытаний. они отражают то, насколько человек был подготовлен к началу образовательного процесса.

3. Отдельно для бакалавров и специалистов важны:

  • Возраст на момент поступления — взрослые студенты могут обладать опытом и навыками, способствующими успешному обучению.
  • Баллы за индивидуальные достижения — демонстрируют высокий потенциал и талант студента, что положительно влияет на академическую успеваемость.

4. Для студентов магистратуры возраст на момент поступления не играет существенной роли, поскольку ожидается, что они уже имеют нужные навыки и являются профессионалами в своих сферах. Однако:

  • Факт того, что студент родом из Екатеринбурга имеет значение, вероятно, из-за лучшей адаптации к условиям университета или меньшего стресса при переезде.

 

Список литературы:

  1. Д. В. Старостенок, Разработка системы для предсказания успеваемости студентов на основе данных портала «Электронный ЮУрГУ»: дис. Программная инженерия 09.03.04. - Челябинск, 2024. URL:  https://sp.susu.ru/student/bachelorthesis/2024_403_starostenokdv.pdf
  2. Тревожный вузов: ИИ оценит вероятность отчисления студентов // Известия URL: https://iz.ru/1546434/denis-gritcenko/trevozhnyi-vuzov-ii-otcenit-veroiatnost-otchisleniia-studentov (дата обращения: 05.04.2025).
  3. "Известия": в московском вузе внедрили ИИ, отслеживающий успеваемость студентов // ТАСС URL: https://tass.ru/obschestvo/18318573 (дата обращения: 05.04.2025). URL: https://tass.ru/obschestvo/18318573
  4. Жариков А. В., Журавлев А. В., Куренков О. В., Козлов Д. Ю., Масленинникова И. С., Савченко В. Г., Фоменко А. П., Чупина Т. В. Компьютерная модель прогнозирования отчисления студентов на основе данных приемной кампании // Высокопроизводительные вычислительные системы и технологии. - 2020. - №1. - С. 126-131. URL: https://elibrary.ru/download/elibrary_43961254_23937203.pdf
  5. Шапоров А. М. Прогнозирование риска отчисления как результат академической неуспешности обучающегося // Ярославский педагогический вестник. - 2022. - №1. - С. 48-55. URL: https://cyberleninka.ru/article/n/prognozirovanie-riska-otchisleniya-kak-rezultat-akademicheskoy-neuspeshnosti-obuchayuschegosya/viewer
  6. Predict students dropout and academic success using Ensemble Learning // Medium URL: https://sshivam-singh96.medium.com/predict-students-dropout-and-academic-success-using-ensemble-learning-2b1a7bf63379 (дата обращения: 05.04.2025).
  7. Rebelo Marcolino, M., Reis Porto, T., Thompsen Primo, T. et al. Student dropout prediction through machine learning optimization: insights from moodle log data. Sci Rep 15, 9840 (2025). https://doi.org/10.1038/s41598-025-93918-1
  8. Matti Vaarma, Hongxiu Li Predicting student dropouts with machine learning: An empirical study in Finnish higher education // Technology in society. - 2024. - №76. URL: https://doi.org/10.1016/j.techsoc.2024.102474
  1. ting student dropouts with machine learning: An empirical study in Finnish higher education // Technology in society. - 2024. - №76. URL: https://doi.org/10.1016/j.techsoc.2024.102474

 

Проголосовать за статью
Идет голосование
Эта статья набрала 1 голос (обновление каждые 15 минут)
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий