Статья опубликована в рамках: Научного журнала «Студенческий» № 22(360)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал
ВЛИЯНИЕ КАЧЕСТВА ИСХОДНЫХ ДАННЫХ НА ТОЧНОСТЬ ПРОГНОЗИРОВАНИЯ АКАДЕМИЧЕСКОЙ УСПЕВАЕМОСТИ СТУДЕНТОВ
COMPETENCE APPROACH IN TRAINING PERSONNEL OF ENTERPRISES
Markov Evgeniy Igorevich
Student, Department of Business Informatics, Ural State University of Economics,
Russia, Yekaterinburg
АННОТАЦИЯ
В статье рассматривается влияние качества исходных данных на точность прогнозирования академической успеваемости студентов. Показано, что полнота, согласованность и корректность данных оказывают существенное влияние на результативность моделей машинного обучения, применяемых в образовательной аналитике. Особое внимание уделяется этапам предобработки данных, включая обработку пропусков, преобразование признаков и инженерии признаков.
ABSTRACT
The article examines the impact of the quality of the source data on the accuracy of predicting students' academic performance. It is shown that the completeness, consistency and correctness of the data have a significant impact on the effectiveness of machine learning models used in educational analytics. Special attention is paid to the stages of data preprocessing, including skip processing, feature transformation, and feature engineering.
Ключевые слова: интеллектуальный анализ данных; машинное обучение; прогнозирование успеваемости; качество данных; предобработка данных; инженерия признаков; образовательная аналитика.
Keywords: data mining; machine learning; academic performance forecasting; data quality; data preprocessing; feature engineering; educational analytics.
В последние годы прогнозирование академической успеваемости студентов стало одним из наиболее востребованных направлений образовательной аналитики. Развитие цифровой образовательной среды привело к накоплению больших массивов данных, включающих оценки, посещаемость, результаты промежуточного контроля, активность в электронных курсах и данные из информационных систем вуза. На основе этих сведений строятся модели, способные заранее выявлять студентов группы риска и помогать преподавателям принимать более точные управленческие решения.
Однако на практике эффективность подобных моделей зависит не только от выбранного алгоритма, но и от качества исходных данных. Исследования в области educational data mining показывают, что именно этап предварительной обработки во многом определяет итоговую точность прогнозирования. Если в наборе данных присутствуют пропуски, ошибки ввода, дублирующиеся записи, выбросы или несогласованные категории, то даже сильная модель может дать неточный или нестабильный результат. Поэтому подготовка данных является не вспомогательной процедурой, а обязательным этапом построения надежной прогностической системы [1].
Одной из наиболее распространенных проблем является наличие пропусков. В образовательных данных они возникают из-за неполной загрузки информации, отсутствия отдельных оценок или различий в структуре учетных систем. Для их обработки применяются как простые, так и более сложные методы. В ряде случаев данные заполняют медианой или наиболее частой категорией, если это позволяет сохранить общую статистическую структуру выборки и не вносить лишних искажений [3].
Не менее важен и этап преобразования признаков. В задачах прогнозирования успеваемости часто используются как числовые, так и категориальные переменные, поэтому требуется применять разные способы обработки к различным столбцам. Для этого удобно использовать инструменты вроде ColumnTransformer, которые позволяют отдельно преобразовывать числовые и категориальные признаки в рамках одного пайплайна. Такой подход помогает сделать предобработку воспроизводимой и снижает риск ошибок при обучении модели [4].
Существенное значение имеет и инженерия признаков. На практике новые переменные часто строятся на основе уже имеющихся данных: например, по текущим оценкам, среднему баллу, количеству пропусков, активности в системе и динамике результатов за семестр. Именно такие признаки нередко оказываются более информативными для модели, чем исходные значения без преобразования. Генерация признаков помогает повысить предсказательную способность алгоритма и сделать его более чувствительным к скрытым закономерностям в данных [2].
Для оценки качества моделей в подобных задачах обычно применяются метрики MAE, MSE, RMSE и коэффициент детерминации R2. Они позволяют количественно сравнить качество разных алгоритмов и выбрать наиболее подходящий вариант для дальнейшего использования. При этом важно корректно разделять данные на обучающую и тестовую выборки, чтобы избежать переобучения и получить объективную оценку обобщающей способности модели. На практике часто используется разбиение в соотношении 80/20 [5].
Еще один важный этап — оптимизация выбранной модели. После первичного сравнения алгоритмов целесообразно применять поиск лучших гиперпараметров, например с помощью GridSearchCV. Это позволяет улучшить качество прогноза и подобрать более удачную конфигурацию модели без ручного перебора параметров. В образовательных задачах такой подход особенно полезен, поскольку позволяет адаптировать алгоритм к структуре конкретного набора данных [6].
Таким образом, качество исходных данных напрямую влияет на точность прогнозирования академической успеваемости студентов. Даже при использовании современных алгоритмов машинного обучения результат во многом определяется тем, насколько полно и корректно выполнена предобработка, сформированы признаки и выбраны метрики оценки. Следовательно, успешное применение educational data mining в образовании требует не только выбора подходящей модели, но и тщательной работы с данными на всех этапах анализа.
Список литературы:
- Акимушкин Василий Александрович, Поздняков Сергей Николаевич Обзор методов educational Data Mining для анализа протоколов взаимодействия обучаемого с «Научными играми» // КИО. 2013. №6. URL: https://cyberleninka.ru/article/n/obzor-metodov-educational-data-mining-dlya-analiza-protokolov-vzaimodeystviya-obuchaemogo-s-nauchnymi-igrami
- Инжиниринг признаков в предварительной обработке данных / [Электронный ресурс] // Хабр : [сайт]. — URL: https://habr.com/ru/companies/otus/articles/679554/ (дата обращения: 01.06.2026).
- Обработка пропущенных значений / [Электронный ресурс] // Яндекс образование : [сайт]. — URL: https://education.yandex.ru/handbook/ml/article/obrabotka-propushennyh-znachenij?ysclid=mq9ozd1bfk352886109 (дата обращения: 01.06.2026)
- Feature Transformation Techniques in Machine Learning / [Электронный ресурс] // geeksforgeeks : [сайт]. — URL: https://www.geeksforgeeks.org/machine-learning/feature-transformation-techniques-in-machine-learning/?ysclid=mq9p0ewsgg31545686 (дата обращения: 01.06.2026)
- Метрики в задачах машинного обучения / [Электронный ресурс] // Хабр : [сайт]. — URL: https://habr.com/ru/companies/ods/articles/328372/ (дата обращения: 01.06.2026)
- Performing Feature Selection with gridsearchcv in Sklearn / [Электронный ресурс] // geeksforgeeks : [сайт]. — URL: https://www.geeksforgeeks.org/machine-learning/performing-feature-selection-with-gridsearchcv-in-sklearn/?ysclid=mq9p30hu6a195152355 (дата обращения: 01.06.2026)

