Статья опубликована в рамках: XXXII Международной научно-практической конференции «Наука вчера, сегодня, завтра» (Россия, г. Новосибирск, 14 марта 2016 г.)
Наука: Технические науки
Скачать книгу(-и): Сборник статей конференции
дипломов
ПРОГНОЗИРОВАНИЕ УРОВНЯ УСПЕВАЕМОСТИ АБИТУРИЕНТОВ В УСЛОВИЯХ МАЛОЙ ВЫБОРКИ
ENTRANTS’ PROGRESS LEVEL PREDICTION IN THE CONDITIONS OF SMALL SIZE SAMPLE
Popukaylo Vladimir Sergeyevich
graduate student of department of information technologies and automated management of productions Shevchenko State University,
Republic Moldova, Tiraspol
АННОТАЦИЯ
В статье рассматривается применение многомерного метода точечных распределений для построения статистически значимой математической модели для прогнозирования уровня успеваемости абитуриентов по исходным данным малого объема.
ABSTRACT
The article considers the use of multi-dimensional method of point distributions for the construction of a statistically significant mathematical model to predict the progress level of students on initial data of small volume.
Ключевые слова: математическое моделирование; метод точечных распределений; малая выборка.
Keywords: mathematical modeling; method of point distributions; small size sample.
В современных условиях, когда стандарты работы образовательных учреждений постоянно изменяются, зачастую невозможно собрать данные об успеваемости студентов достаточно большого объёма для их последующей статистической обработки. Кроме того, демографический кризис 90-х годов и появившаяся у абитуриентов возможность поступать на обучение за границу, приводит к уменьшению списочной численности студентов в каждой конкретной группе. Так же существует проблема малокомплектных групп, связанная с тем, что в настоящее время существует тенденция с уменьшением поступления абитуриентов на специальности естественно-научного профиля.
Поэтому существует актуальная проблема построения прогнозов по успеваемости студентов университетов по результатам вступительных экзаменов, либо баллов, полученных во время обучения на первых курсах. Данная статистика позволяет более продуктивно работать над распределением выпускников, а также выявлять слабые стороны академической подготовки.
Для примера рассмотрим алгоритм построения математической модели для прогнозирования уровня успеваемости абитуриентов направления «Информатика и вычислительная техника», специальности «Вычислительные машины, комплексы, системы и сети» Приднестровского Государственного Университета им. Т.Г. Шевченко, на стадии поступления в университет по результатам единого государственного экзамена по математике и физике и баллов за вступительный экзамен по информатике. Чтобы перевести данные, полученных за экзамен оценок в 100 бальную систему воспользуемся шкалой, приведенной в таблице 1, которая действует в рамках кредитно-модульной организации процесса в инженерно-техническом институте. Таким образом, заменим оценки 5 (отлично) на нижнюю границу буквенного эквивалента A(отлично), то есть на 84 балла; оценки 4 (хорошо) на границу между буквенными эквивалентами B (очень хорошо) и C (хорошо), то есть на 79 баллов; оценки 3 (удовлетворительно) заменим на пограничные баллы между D (удовлетворительно) и E (посредственно), то есть на 59 баллов. Результаты экзамена по информатике остаются без изменений, так как они фиксируются сразу в 100 бальной шкале. Модель будет строиться по данным группы, завершившей обучение в ПГУ им. Т.Г. Шевченко по данной специальности в 2015 году. В качестве выходных данных используем средний балл по оценкам, полученным за всё время обучения в университете.
Таблица 1.
Таблица соответствия оценок баллам в 100-бальной шкале
Оценка в 100-бальной шкале |
Оценка в традиционной шкале |
Буквенные эквиваленты оценок в шкале кредитно-модельной системы |
84–100 |
5 (отлично) |
A (отлично) |
67–83 |
4 (хорошо) |
B (очень хорошо) – 80–83 балла C (хорошо) – 67–79 баллов |
50–66 |
3 (удовлетворительно) |
D (удовлетворительно) – 60–66 баллов E (посредственно) – 50–59 баллов |
0–49 |
2 (неудовлетворительно) |
FX (неудовлетворительно, с возможной пересдачей) – 21–49 баллов F (неудовлетворительно, с повторным изучением дисциплины) – 0–20 баллов |
Исходная выборка, представленная в таблице 2, состоит из 8 строк, что не позволяет построить статистически значимую математическую модель существующими способами регрессионного анализа, такими как метод наименьших квадратов и модифицированный метод случайного баланса.
Так применение метода наименьших квадратов позволяет построить модель вида: Y=0,52884+0,05536X1+0,050533X2-0,04882X3-0,02592X4, которая не проходит проверку на адекватность критерием Фишера.
Применение же модифицированного метода случайного баланса в условиях малой исходной выборки невозможно, так как данный метод основан на свёртке обрабатываемой информации и требует более длинной исходной таблицы при пассивном эксперименте [1, с. 192].
Для решения возникшей проблемы, воспользуемся многомерным методом точечных распределений [4, с. 207], который позволяет получить более длинную таблицу виртуальных данных, статистически однородную к исходной, сохранив знание о виде закона распределения случайных величин.
Таблица 2.
Таблица исходных данных
№ по списку |
Математика X1 |
Физика X2 |
Информатика X3 |
Ср. балл Y |
1 |
84 |
79 |
43 |
4,46 |
2 |
79 |
79 |
35 |
4,56 |
3 |
79 |
79 |
55 |
3,68 |
4 |
79 |
84 |
82 |
3,17 |
5 |
84 |
79 |
65 |
3,37 |
6 |
79 |
59 |
65 |
3,32 |
7 |
79 |
79 |
42 |
3,71 |
8 |
79 |
79 |
27 |
3,83 |
Первым шагом необходимо провести непараметрический анализ таблицы исходных данных, для чего с помощью метода точечных распределений построим для каждого Xi и Y таблицы расчета ненормированных плотностей вероятностей в виртуальной области по алгоритму, изложенному в [3, c. 75], пример такой таблицы для выходной величины приведён в таблице 3.
Далее для каждой строки l исходных экспериментальных данных необходимо построить таблицы виртуальных данных, в которые вносить одновременно величины двух столбцов Xij из соответствующей таблицы ненормированных плотностей вероятностей, построенных по методу точечных распределений, и столбца Xil.
Выравнивание (стыковка) пар столбцов Xij и Xil, а также Yj и Yl должно происходить по уровню максимальной плотности вероятности.
Таким образом, получаются l таблиц, состоящих из виртуальных данных и вероятностей их попадания в заданный интервал, которые содержат большое количество пробелов в значениях, в связи с чем не могут быть обработаны методами регрессионного анализа.
Исходя из этого, из всех таблиц, найденных в предыдущем пункте настоящего алгоритма, удаляются не полностью заполненные строки, т. е. строки, в которых вероятность попадания в заданный интервал одного или нескольких из факторов не соответствует критериям. После чего, производится удаление столбцов, обозначающих ненормированные плотности вероятности в виртуальной области.
Таблица 3.
Таблица ненормированной плотности вероятностей Y
Yj |
Yf |
|||||||
4,46 |
4,56 |
3,68 |
3,17 |
3,37 |
3,32 |
3,71 |
3,83 |
|
2,5738 |
0 |
0 |
0 |
0,1527 |
0,0350 |
0,0527 |
0 |
0 |
2,6558 |
0 |
0 |
0 |
0,2471 |
0,0674 |
0,0971 |
0 |
0 |
2,7378 |
0 |
0 |
0 |
0,3724 |
0,1209 |
0,1666 |
0 |
0 |
2,8198 |
0 |
0 |
0,0200 |
0,5228 |
0,2018 |
0,2663 |
0,0151 |
0 |
2,9017 |
0 |
0 |
0,0407 |
0,6835 |
0,3137 |
0,3966 |
0,0316 |
0 |
2,9837 |
0 |
0 |
0,0771 |
0,8324 |
0,4543 |
0,5500 |
0,0615 |
0,0227 |
3,0657 |
0 |
0 |
0,1360 |
0,9441 |
0,6129 |
0,7104 |
0,1114 |
0,0456 |
3,1477 |
0 |
0 |
0,2235 |
0,9974 |
0,7700 |
0,8547 |
0,1879 |
0,0853 |
3,2297 |
0 |
0 |
0,3422 |
0,9814 |
0,9011 |
0,9578 |
0,2953 |
0,1487 |
3,3116 |
0 |
0 |
0,4880 |
0,8994 |
0,9821 |
0,9996 |
0,4321 |
0,2415 |
3,3936 |
0 |
0 |
0,6481 |
0,7677 |
0,9971 |
0,9718 |
0,5890 |
0,3654 |
3,4756 |
0 |
0 |
0,8018 |
0,6104 |
0,9428 |
0,8799 |
0,7479 |
0,5147 |
3,5576 |
0,0135 |
0 |
0,9238 |
0,4520 |
0,8303 |
0,7420 |
0,8844 |
0,6754 |
3,6395 |
0,0285 |
0,0113 |
0,9914 |
0,3117 |
0,6811 |
0,5828 |
0,9741 |
0,8255 |
3,7215 |
0,0559 |
0,0243 |
0,9909 |
0,2003 |
0,5203 |
0,4264 |
0,9993 |
0,9397 |
3,8035 |
0,1024 |
0,0485 |
0,9225 |
0,1198 |
0,3703 |
0,2906 |
0,9548 |
0,9963 |
3,8855 |
0,1746 |
0,0902 |
0,8000 |
0,0668 |
0,2454 |
0,1844 |
0,8498 |
0,9839 |
3,9674 |
0,2773 |
0,1562 |
0,6461 |
0,0347 |
0,1515 |
0,1090 |
0,7044 |
0,9050 |
4,0494 |
0,4101 |
0,2520 |
0,4860 |
0,0168 |
0,0871 |
0,0600 |
0,5438 |
0,7753 |
4,1314 |
0,5650 |
0,3786 |
0,3405 |
0 |
0,0467 |
0,0308 |
0,3911 |
0,6186 |
4,2134 |
0,7250 |
0,5298 |
0,2222 |
0 |
0,0233 |
0,0147 |
0,2619 |
0,4598 |
4,2953 |
0,8665 |
0,6905 |
0,1351 |
0 |
0 |
0 |
0,1634 |
0,3183 |
4,3773 |
0,9645 |
0,8383 |
0,0765 |
0 |
0 |
0 |
0,0949 |
0,2052 |
4,4593 |
1,0000 |
0,9478 |
0,0403 |
0 |
0 |
0 |
0,0514 |
0,1232 |
4,5413 |
0,9657 |
0,9981 |
0,0198 |
0 |
0 |
0 |
0,0259 |
0,0689 |
4,6233 |
0,8686 |
0,9791 |
0 |
0 |
0 |
0 |
0,0122 |
0,0359 |
4,7052 |
0,7276 |
0,8945 |
0 |
0 |
0 |
0 |
0 |
0,0174 |
4,7872 |
0,5678 |
0,7611 |
0 |
0 |
0 |
0 |
0 |
0 |
4,8692 |
0,4126 |
0,6032 |
0 |
0 |
0 |
0 |
0 |
0 |
4,9512 |
0,2793 |
0,4453 |
0 |
0 |
0 |
0 |
0 |
0 |
Состыковка отредактированных таблиц происходит в порядке нумерации строк таблицы исходных данных.
После применения многомерного метода точечных распределений нами была построена виртуальная выборка большого объема (частично представленная в таблице 4), содержащая 131 строку, что более, чем в 16 раз длиннее исходной таблицы данных.
Таблица 4.
Таблица виртуальных данных
№ |
X1 |
X2 |
X3 |
Y |
№ |
X1 |
X2 |
X3 |
Y |
1 |
80,0648 |
65,6799 |
12,2450 |
3,5576 |
… |
… |
… |
… |
… |
2 |
80,4352 |
66,8846 |
15,1713 |
3,6395 |
107 |
80,8055 |
84,9559 |
56,1394 |
4,1314 |
3 |
80,8055 |
68,0894 |
18,0976 |
3,7215 |
108 |
81,1758 |
86,1606 |
59,0657 |
4,2134 |
4 |
81,1758 |
69,2941 |
21,0239 |
3,8035 |
109 |
81,5461 |
87,3654 |
61,9920 |
4,2953 |
5 |
81,5461 |
70,4989 |
23,9502 |
3,8855 |
110 |
81,9165 |
88,5701 |
64,9183 |
4,3773 |
6 |
81,9165 |
71,7036 |
26,8765 |
3,9674 |
111 |
82,2868 |
89,7749 |
67,8446 |
4,4593 |
7 |
82,2868 |
72,9084 |
29,8028 |
4,0494 |
112 |
82,6571 |
90,9797 |
70,7709 |
4,5413 |
8 |
82,6571 |
74,1131 |
32,7291 |
4,1314 |
113 |
83,0275 |
92,1844 |
73,6972 |
4,6233 |
9 |
83,0275 |
75,3179 |
35,6554 |
4,2134 |
114 |
76,7319 |
71,7036 |
9,3187 |
3,3116 |
10 |
83,3978 |
76,5226 |
38,5817 |
4,2953 |
115 |
77,1022 |
72,9084 |
12,2450 |
3,3936 |
11 |
83,7681 |
77,7274 |
41,5080 |
4,3773 |
116 |
77,4725 |
74,1131 |
15,1713 |
3,4756 |
12 |
84,1384 |
78,9321 |
44,4343 |
4,4593 |
117 |
77,8429 |
75,3179 |
18,0976 |
3,5576 |
13 |
84,5088 |
80,1369 |
47,3606 |
4,5413 |
118 |
78,2132 |
76,5226 |
21,0239 |
3,6395 |
14 |
84,8791 |
81,3416 |
50,2869 |
4,6233 |
119 |
78,5835 |
77,7274 |
23,9502 |
3,7215 |
15 |
85,2494 |
82,5464 |
53,2131 |
4,7052 |
120 |
78,9539 |
78,9321 |
26,8765 |
3,8035 |
16 |
85,6198 |
83,7511 |
56,1394 |
4,7872 |
121 |
79,3242 |
80,1369 |
29,8028 |
3,8855 |
17 |
75,6209 |
68,0894 |
9,3187 |
3,8035 |
122 |
79,6945 |
81,3416 |
32,7291 |
3,9674 |
18 |
75,9912 |
69,2941 |
12,2450 |
3,8855 |
123 |
80,0648 |
82,5464 |
35,6554 |
4,0494 |
19 |
76,3616 |
70,4989 |
15,1713 |
3,9674 |
124 |
80,4352 |
83,7511 |
38,5817 |
4,1314 |
20 |
76,7319 |
71,7036 |
18,0976 |
4,0494 |
125 |
80,8055 |
84,9559 |
41,5080 |
4,2134 |
21 |
77,1022 |
72,9084 |
21,0239 |
4,1314 |
126 |
81,1758 |
86,1606 |
44,4343 |
4,2953 |
22 |
77,4725 |
74,1131 |
23,9502 |
4,2134 |
127 |
81,5461 |
87,3654 |
47,3606 |
4,3773 |
23 |
77,8429 |
75,3179 |
26,8765 |
4,2953 |
128 |
81,9165 |
88,5701 |
50,2869 |
4,4593 |
24 |
78,2132 |
76,5226 |
29,8028 |
4,3773 |
129 |
82,2868 |
89,7749 |
53,2131 |
4,5413 |
25 |
78,5835 |
77,7274 |
32,7291 |
4,4593 |
130 |
82,6571 |
90,9797 |
56,1394 |
4,6233 |
… |
… |
… |
… |
… |
131 |
83,0275 |
92,1844 |
59,0657 |
4,7052 |
Получившаяся таблица оказывается пригодной для обработки модифицированным методом случайного баланса.
В результате расчетов по алгоритму ММСБ [2, c. 79] с коэффициентом граничных областей k=0,25, была получена математическая модель, включающая в себя два фактора, а также парные взаимодействия, между ними и между первым и третьим фактором (не вошедшим в модель):
Y = 3,7484 +0,27X1 +0,32X2 +0,14X1X2 +0,17X1X3,
что статистически подтверждает важность знаний по всем трём профилирующим предметам для последующего обучения по выбранной специальности.
Проверим модель на адекватность критерием Фишера. Расчетное значения дисперсии адекватности 0,102, а средневзвешенной дисперсии 0,16, что позволяет вычислить критерий Фишера, F=0,637, при табличном значении 1,5 [1, c. 343]. Так как рассчитанное значение критерия Фишера меньше табличного, модель может быть признана адекватной.
Таким образом, применение многомерного метода точечных распределений помогло добиться построения адекватной математической модели успеваемости абитуриентов направления «Информатика и вычислительная техника» по исходным данным малого объёма модифицированным методом случайного баланса, применение которого к первоначальному массиву данных было невозможным.
Список литературы:
- Долгов Ю.А. Статистическое моделирование: Учебник для вузов. 2-е изд., доп. – Тирасполь: Полиграфист, 2011. – 352 с.
- Долгов Ю.А. Модифицированный метод случайного баланса // Электронное моделирование. – 1987. – № 4. – С. 79–84.
- Столяренко Ю.А. Метод точечных распределений. // Радіоелектронні і комп’ютерні системи. – 2012. – № 6. – С. 75–77.
- Popukaylo V. Analysis of Statistical Modeling Methods for Small-Volume Samples // Telecommunications, Electronics and Informatics: proceeding of the 5th International Conference (Chișinău, Moldova, 20-23 may, 2015). – Chișinău, 2015. – P. 207–211.
дипломов
Оставить комментарий