Поздравляем с Новым Годом!
   
Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: XXXII Международной научно-практической конференции «Наука вчера, сегодня, завтра» (Россия, г. Новосибирск, 14 марта 2016 г.)

Наука: Технические науки

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Попукайло В.С. ПРОГНОЗИРОВАНИЕ УРОВНЯ УСПЕВАЕМОСТИ АБИТУРИЕНТОВ В УСЛОВИЯХ МАЛОЙ ВЫБОРКИ // Наука вчера, сегодня, завтра: сб. ст. по матер. XXXII междунар. науч.-практ. конф. № 3(25). – Новосибирск: СибАК, 2016. – С. 95-101.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

ПРОГНОЗИРОВАНИЕ УРОВНЯ УСПЕВАЕМОСТИ АБИТУРИЕНТОВ В УСЛОВИЯХ МАЛОЙ ВЫБОРКИ

Попукайло Владимир Сергеевич

аспирант кафедры информационных технологий и автоматизированного управления производственными процессами Приднестровский Государственный Университет им. Т.Г. Шевченко,

Республика Молдова, г. Тирасполь

ENTRANTSPROGRESS LEVEL PREDICTION IN THE CONDITIONS OF SMALL SIZE SAMPLE

Popukaylo Vladimir Sergeyevich

graduate student of department of information technologies and automated management of productions Shevchenko State University,

Republic Moldova, Tiraspol

 

АННОТАЦИЯ

В статье рассматривается применение многомерного метода точечных распределений для построения статистически значимой математической модели для прогнозирования уровня успеваемости абитуриентов по исходным данным малого объема.

ABSTRACT

The article considers the use of multi-dimensional method of point distributions for the construction of a statistically significant mathematical model to predict the progress level of students on initial data of small volume.

 

Ключевые слова: математическое моделирование; метод точечных распределений; малая выборка.

Keywords: mathematical modeling; method of point distributions; small size sample.

 

В современных условиях, когда стандарты работы образовательных учреждений постоянно изменяются, зачастую невозможно собрать данные об успеваемости студентов достаточно большого объёма для их последующей статистической обработки. Кроме того, демографический кризис 90-х годов и появившаяся у абитуриентов возможность поступать на обучение за границу, приводит к уменьшению списочной численности студентов в каждой конкретной группе. Так же существует проблема малокомплектных групп, связанная с тем, что в настоящее время существует тенденция с уменьшением поступления абитуриентов на специальности естественно-научного профиля.

Поэтому существует актуальная проблема построения прогнозов по успеваемости студентов университетов по результатам вступительных экзаменов, либо баллов, полученных во время обучения на первых курсах. Данная статистика позволяет более продуктивно работать над распределением выпускников, а также выявлять слабые стороны академической подготовки.

Для примера рассмотрим алгоритм построения математической модели для прогнозирования уровня успеваемости абитуриентов направления «Информатика и вычислительная техника», специальности «Вычислительные машины, комплексы, системы и сети» Приднестровского Государственного Университета им. Т.Г. Шевченко, на стадии поступления в университет по результатам единого государственного экзамена по математике и физике и баллов за вступительный экзамен по информатике. Чтобы перевести данные, полученных за экзамен оценок в 100 бальную систему воспользуемся шкалой, приведенной в таблице 1, которая действует в рамках кредитно-модульной организации процесса в инженерно-техническом институте. Таким образом, заменим оценки 5 (отлично) на нижнюю границу буквенного эквивалента A(отлично), то есть на 84 балла; оценки 4 (хорошо) на границу между буквенными эквивалентами B (очень хорошо) и C (хорошо), то есть на 79 баллов; оценки 3 (удовлетворительно) заменим на пограничные баллы между D (удовлетворительно) и E (посредственно), то есть на 59 баллов. Результаты экзамена по информатике остаются без изменений, так как они фиксируются сразу в 100 бальной шкале. Модель будет строиться по данным группы, завершившей обучение в ПГУ им. Т.Г. Шевченко по данной специальности в 2015 году. В качестве выходных данных используем средний балл по оценкам, полученным за всё время обучения в университете.

Таблица 1.

Таблица соответствия оценок баллам в 100-бальной шкале

Оценка в 100-бальной шкале

Оценка в традиционной шкале

Буквенные эквиваленты оценок в шкале кредитно-модельной системы

84–100

5 (отлично)

A (отлично)

67–83

4 (хорошо)

B (очень хорошо) – 80–83 балла

C (хорошо) – 67–79 баллов

50–66

3 (удовлетворительно)

D (удовлетворительно) – 60–66 баллов

E (посредственно) – 50–59 баллов

0–49

2 (неудовлетворительно)

FX (неудовлетворительно, с возможной пересдачей) – 21–49 баллов

F (неудовлетворительно, с повторным изучением дисциплины) – 0–20 баллов

 

 

Исходная выборка, представленная в таблице 2, состоит из 8 строк, что не позволяет построить статистически значимую математическую модель существующими способами регрессионного анализа, такими как метод наименьших квадратов и модифицированный метод случайного баланса.

Так применение метода наименьших квадратов позволяет построить модель вида: Y=0,52884+0,05536X1+0,050533X2-0,04882X3-0,02592X4, которая не проходит проверку на адекватность критерием Фишера.

Применение же модифицированного метода случайного баланса в условиях малой исходной выборки невозможно, так как данный метод основан на свёртке обрабатываемой информации и требует более длинной исходной таблицы при пассивном эксперименте [1, с. 192].

Для решения возникшей проблемы, воспользуемся многомерным методом точечных распределений [4, с. 207], который позволяет получить более длинную таблицу виртуальных данных, статистически однородную к исходной, сохранив знание о виде закона распределения случайных величин.

Таблица 2.

Таблица исходных данных

№ по списку

Математика

X1

Физика

X2

Информатика

X3

Ср. балл

Y

1

84

79

43

4,46

2

79

79

35

4,56

3

79

79

55

3,68

4

79

84

82

3,17

5

84

79

65

3,37

6

79

59

65

3,32

7

79

79

42

3,71

8

79

79

27

3,83

 

 

Первым шагом необходимо провести непараметрический анализ таблицы исходных данных, для чего с помощью метода точечных распределений построим для каждого Xi и Y таблицы расчета ненормированных плотностей вероятностей в виртуальной области по алгоритму, изложенному в [3, c. 75], пример такой таблицы для выходной величины приведён в таблице 3.

Далее для каждой строки l исходных экспериментальных данных необходимо построить таблицы виртуальных данных, в которые вносить одновременно величины двух столбцов Xij из соответствующей таблицы ненормированных плотностей вероятностей, построенных по методу точечных распределений, и столбца Xil.

Выравнивание (стыковка) пар столбцов Xij и Xil, а также Yj и Yl должно происходить по уровню максимальной плотности вероятности.

Таким образом, получаются l таблиц, состоящих из виртуальных данных и вероятностей их попадания в заданный интервал, которые содержат большое количество пробелов в значениях, в связи с чем не могут быть обработаны методами регрессионного анализа.

Исходя из этого, из всех таблиц, найденных в предыдущем пункте настоящего алгоритма, удаляются не полностью заполненные строки, т. е. строки, в которых вероятность попадания в заданный интервал одного или нескольких из факторов не соответствует критериям. После чего, производится удаление столбцов, обозначающих ненормированные плотности вероятности в виртуальной области.

Таблица 3.

Таблица ненормированной плотности вероятностей Y

Yj

Yf

4,46

4,56

3,68

3,17

3,37

3,32

3,71

3,83

2,5738

0

0

0

0,1527

0,0350

0,0527

0

0

2,6558

0

0

0

0,2471

0,0674

0,0971

0

0

2,7378

0

0

0

0,3724

0,1209

0,1666

0

0

2,8198

0

0

0,0200

0,5228

0,2018

0,2663

0,0151

0

2,9017

0

0

0,0407

0,6835

0,3137

0,3966

0,0316

0

2,9837

0

0

0,0771

0,8324

0,4543

0,5500

0,0615

0,0227

3,0657

0

0

0,1360

0,9441

0,6129

0,7104

0,1114

0,0456

3,1477

0

0

0,2235

0,9974

0,7700

0,8547

0,1879

0,0853

3,2297

0

0

0,3422

0,9814

0,9011

0,9578

0,2953

0,1487

3,3116

0

0

0,4880

0,8994

0,9821

0,9996

0,4321

0,2415

3,3936

0

0

0,6481

0,7677

0,9971

0,9718

0,5890

0,3654

3,4756

0

0

0,8018

0,6104

0,9428

0,8799

0,7479

0,5147

3,5576

0,0135

0

0,9238

0,4520

0,8303

0,7420

0,8844

0,6754

3,6395

0,0285

0,0113

0,9914

0,3117

0,6811

0,5828

0,9741

0,8255

3,7215

0,0559

0,0243

0,9909

0,2003

0,5203

0,4264

0,9993

0,9397

3,8035

0,1024

0,0485

0,9225

0,1198

0,3703

0,2906

0,9548

0,9963

3,8855

0,1746

0,0902

0,8000

0,0668

0,2454

0,1844

0,8498

0,9839

3,9674

0,2773

0,1562

0,6461

0,0347

0,1515

0,1090

0,7044

0,9050

4,0494

0,4101

0,2520

0,4860

0,0168

0,0871

0,0600

0,5438

0,7753

4,1314

0,5650

0,3786

0,3405

0

0,0467

0,0308

0,3911

0,6186

4,2134

0,7250

0,5298

0,2222

0

0,0233

0,0147

0,2619

0,4598

4,2953

0,8665

0,6905

0,1351

0

0

0

0,1634

0,3183

4,3773

0,9645

0,8383

0,0765

0

0

0

0,0949

0,2052

4,4593

1,0000

0,9478

0,0403

0

0

0

0,0514

0,1232

4,5413

0,9657

0,9981

0,0198

0

0

0

0,0259

0,0689

4,6233

0,8686

0,9791

0

0

0

0

0,0122

0,0359

4,7052

0,7276

0,8945

0

0

0

0

0

0,0174

4,7872

0,5678

0,7611

0

0

0

0

0

0

4,8692

0,4126

0,6032

0

0

0

0

0

0

4,9512

0,2793

0,4453

0

0

0

0

0

0

 

 

Состыковка отредактированных таблиц происходит в порядке нумерации строк таблицы исходных данных.

После применения многомерного метода точечных распределений нами была построена виртуальная выборка большого объема (частично представленная в таблице 4), содержащая 131 строку, что более, чем в 16 раз длиннее исходной таблицы данных.

Таблица 4.

Таблица виртуальных данных

X1

X2

X3

Y

X1

X2

X3

Y

1

80,0648

65,6799

12,2450

3,5576

2

80,4352

66,8846

15,1713

3,6395

107

80,8055

84,9559

56,1394

4,1314

3

80,8055

68,0894

18,0976

3,7215

108

81,1758

86,1606

59,0657

4,2134

4

81,1758

69,2941

21,0239

3,8035

109

81,5461

87,3654

61,9920

4,2953

5

81,5461

70,4989

23,9502

3,8855

110

81,9165

88,5701

64,9183

4,3773

6

81,9165

71,7036

26,8765

3,9674

111

82,2868

89,7749

67,8446

4,4593

7

82,2868

72,9084

29,8028

4,0494

112

82,6571

90,9797

70,7709

4,5413

8

82,6571

74,1131

32,7291

4,1314

113

83,0275

92,1844

73,6972

4,6233

9

83,0275

75,3179

35,6554

4,2134

114

76,7319

71,7036

9,3187

3,3116

10

83,3978

76,5226

38,5817

4,2953

115

77,1022

72,9084

12,2450

3,3936

11

83,7681

77,7274

41,5080

4,3773

116

77,4725

74,1131

15,1713

3,4756

12

84,1384

78,9321

44,4343

4,4593

117

77,8429

75,3179

18,0976

3,5576

13

84,5088

80,1369

47,3606

4,5413

118

78,2132

76,5226

21,0239

3,6395

14

84,8791

81,3416

50,2869

4,6233

119

78,5835

77,7274

23,9502

3,7215

15

85,2494

82,5464

53,2131

4,7052

120

78,9539

78,9321

26,8765

3,8035

16

85,6198

83,7511

56,1394

4,7872

121

79,3242

80,1369

29,8028

3,8855

17

75,6209

68,0894

9,3187

3,8035

122

79,6945

81,3416

32,7291

3,9674

18

75,9912

69,2941

12,2450

3,8855

123

80,0648

82,5464

35,6554

4,0494

19

76,3616

70,4989

15,1713

3,9674

124

80,4352

83,7511

38,5817

4,1314

20

76,7319

71,7036

18,0976

4,0494

125

80,8055

84,9559

41,5080

4,2134

21

77,1022

72,9084

21,0239

4,1314

126

81,1758

86,1606

44,4343

4,2953

22

77,4725

74,1131

23,9502

4,2134

127

81,5461

87,3654

47,3606

4,3773

23

77,8429

75,3179

26,8765

4,2953

128

81,9165

88,5701

50,2869

4,4593

24

78,2132

76,5226

29,8028

4,3773

129

82,2868

89,7749

53,2131

4,5413

25

78,5835

77,7274

32,7291

4,4593

130

82,6571

90,9797

56,1394

4,6233

131

83,0275

92,1844

59,0657

4,7052

 

 

Получившаяся таблица оказывается пригодной для обработки модифицированным методом случайного баланса.

В результате расчетов по алгоритму ММСБ [2, c. 79] с коэффициентом граничных областей k=0,25, была получена математическая модель, включающая в себя два фактора, а также парные взаимодействия, между ними и между первым и третьим фактором (не вошедшим в модель):

Y = 3,7484 +0,27X1 +0,32X2 +0,14X1X2 +0,17X1X3,

что статистически подтверждает важность знаний по всем трём профилирующим предметам для последующего обучения по выбранной специальности.

Проверим модель на адекватность критерием Фишера. Расчетное значения дисперсии адекватности 0,102, а средневзвешенной дисперсии 0,16, что позволяет вычислить критерий Фишера, F=0,637, при табличном значении 1,5 [1, c. 343]. Так как рассчитанное значение критерия Фишера меньше табличного, модель может быть признана адекватной.

Таким образом, применение многомерного метода точечных распределений помогло добиться построения адекватной математической модели успеваемости абитуриентов направления «Информатика и вычислительная техника» по исходным данным малого объёма модифицированным методом случайного баланса, применение которого к первоначальному массиву данных было невозможным.

 

Список литературы:

  1. Долгов Ю.А. Статистическое моделирование: Учебник для вузов. 2-е изд., доп. – Тирасполь: Полиграфист, 2011. – 352 с.
  2. Долгов Ю.А. Модифицированный метод случайного баланса // Электронное моделирование. – 1987. – № 4. – С. 79–84.
  3. Столяренко Ю.А. Метод точечных распределений. // Радіоелектронні і комп’ютерні системи. – 2012. – № 6. – С. 75–77.
  4. Popukaylo V. Analysis of Statistical Modeling Methods for Small-Volume Samples // Telecommunications, Electronics and Informatics: proceeding of the 5th International Conference (Chișinău, Moldova, 20-23 may, 2015). – Chișinău, 2015. – P. 207–211.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий