Статья опубликована в рамках: XV Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 24 декабря 2013 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
- Условия публикаций
- Все статьи конференции
дипломов
КЛАССИФИКАЦИЯ СТРАН МИРА С ПОМОЩЬЮ КЛАСТЕРНОГО И КОМПОНЕНТНОГО АНАЛИЗА
Гайфутдинова Анастасия Григорьевна
студент 2 курса факультета информационных технологий Российского государственного социального университета, РФ, г. Москва
Дмитриев Михаил Геннадьевич
научный руководитель доктор физико-математических наук, профессор, профессор кафедры прикладной математики Российского государственного социального университета, РФ, г. Москва
Задачей данного исследования — оценка уровня жизни в странах мира с помощью совокупности методов многомерного статистического анализа.
Для решения поставленной задачи была изучения система из двенадцати признаков по числовым данным, собранным на 50 объектах и предложена следующая последовательность применения методов многомерного статистического анализа:
1. Определение количества кластеров с помощью кластерного анализа.
2. Определение состава кластеров и их характеристик методом К-средних.
3. Ранжирование объектов методом компонентного анализа.
Исследование проводилось с использованием прикладного программного продукта STATISTICA 10.
Результаты исследования
Таблица 1.
Исходные данные
. п / п |
Страна |
x(1) |
x(2) |
x(3) |
x(4) |
x(5) |
x(6) |
x(7) |
x(8) |
x(9) |
x(10) |
x(11) |
x(12) |
1 |
Австралия |
17 800 |
15 |
8 |
7,30 |
1,90 |
74 |
80 |
16 848 |
2,3 |
85 |
100 |
1,38 |
2 |
Австрия |
8000 |
12 |
11 |
6,70 |
1,50 |
73 |
79 |
18 396 |
94,0 |
58 |
99 |
0,20 |
3 |
Аргентина |
33 900 |
20 |
9 |
25,60 |
2,80 |
68 |
75 |
3408 |
12,0 |
86 |
95 |
1,30 |
4 |
Бангладеш |
125 000 |
35 |
11 |
106,00 |
4,70 |
53 |
53 |
202 |
800,0 |
16 |
35 |
2,40 |
5 |
Беларусь |
10 300 |
13 |
11 |
19,00 |
1,88 |
66 |
76 |
6500 |
50,0 |
65 |
99 |
0,32 |
6 |
Бельгия |
10 100 |
12 |
11 |
7,20 |
1,70 |
73 |
79 |
17 912 |
329,0 |
96 |
99 |
0,20 |
7 |
Бразилия |
156 600 |
21 |
9 |
66,00 |
2,70 |
57 |
67 |
2354 |
18,0 |
75 |
81 |
1,28 |
8 |
Буркина-Фасо |
10 000 |
47 |
18 |
118,00 |
6,94 |
47 |
50 |
357 |
36,0 |
15 |
18 |
2,81 |
9 |
Великобритания |
58 400 |
13 |
11 |
7,20 |
1,83 |
74 |
80 |
15 974 |
237,0 |
89 |
99 |
0,20 |
10 |
Вьетнам |
73 100 |
27 |
8 |
46,00 |
3,33 |
63 |
68 |
230 |
218,0 |
20 |
88 |
1,78 |
11 |
Гаити |
6500 |
40 |
19 |
109,00 |
5,94 |
43 |
47 |
383 |
231,0 |
29 |
53 |
1,63 |
12 |
Германия |
81 200 |
11 |
11 |
6,50 |
1,47 |
73 |
79 |
17 539 |
227,0 |
85 |
99 |
0,36 |
13 |
Гондурас |
5600 |
35 |
6 |
45,00 |
4,90 |
65 |
70 |
1030 |
46,0 |
44 |
73 |
2,73 |
14 |
Гонконг |
5800 |
13 |
6 |
5,80 |
1,40 |
75 |
80 |
14 641 |
5494,0 |
94 |
77 |
0,09 |
15 |
Египет |
60 000 |
29 |
9 |
76,40 |
3,77 |
60 |
63 |
748 |
57,0 |
44 |
48 |
1,95 |
16 |
Замбия |
9100 |
46 |
18 |
85,00 |
6,68 |
44 |
45 |
573 |
11,0 |
42 |
73 |
2,80 |
17 |
Индия |
911 600 |
29 |
10 |
79,00 |
4,48 |
58 |
59 |
275 |
283,0 |
26 |
52 |
1,90 |
18 |
Ирландия |
3600 |
14 |
9 |
7,40 |
1,99 |
73 |
78 |
12 170 |
51,0 |
57 |
98 |
0,30 |
19 |
Испания |
39 200 |
11 |
9 |
6,90 |
1,40 |
74 |
81 |
13 047 |
77,0 |
78 |
95 |
0,25 |
20 |
Италия |
58 100 |
11 |
10 |
7,60 |
1,30 |
74 |
81 |
17 500 |
188,0 |
69 |
97 |
0,21 |
21 |
Канада |
29 100 |
14 |
8 |
6,80 |
1,80 |
74 |
81 |
19 904 |
2,8 |
77 |
97 |
0,70 |
22 |
Китай |
1 205 200 |
21 |
7 |
52,00 |
1,84 |
67 |
69 |
377 |
124,0 |
26 |
78 |
1,10 |
23 |
Колумбия |
35 600 |
24 |
6 |
28,00 |
2,47 |
69 |
75 |
1538 |
31,0 |
70 |
87 |
2,00 |
24 |
Коста-Рика |
3300 |
26 |
4 |
11,00 |
3,10 |
76 |
79 |
2031 |
64,0 |
47 |
93 |
2,30 |
25 |
Куба |
11 100 |
17 |
7 |
10,20 |
1,90 |
74 |
78 |
1382 |
99,0 |
74 |
94 |
0,95 |
26 |
Малайзия |
19 500 |
29 |
5 |
25,60 |
3,51 |
66 |
72 |
2995 |
58,0 |
43 |
78 |
2,30 |
27 |
Марокко |
28 600 |
29 |
6 |
50,00 |
3,83 |
66 |
70 |
1062 |
63,0 |
46 |
50 |
2,12 |
28 |
Нидерданды |
15 400 |
13 |
9 |
6,30 |
1,58 |
75 |
81 |
17 245 |
366,0 |
89 |
99 |
0,58 |
29 |
Новая Зеландия |
3524 |
16 |
8 |
8,90 |
2,03 |
73 |
80 |
14 381 |
13,0 |
84 |
99 |
0,57 |
30 |
Норвегия |
4300 |
13 |
10 |
6,30 |
2,00 |
74 |
81 |
17 755 |
11,0 |
75 |
99 |
0,40 |
31 |
ОАЭ |
2800 |
28 |
3 |
22,00 |
4,50 |
70 |
74 |
14 193 |
32,0 |
81 |
68 |
4,80 |
32 |
Португалия |
10 500 |
12 |
10 |
9,20 |
1,50 |
71 |
78 |
9000 |
108,0 |
34 |
85 |
0,36 |
33 |
Россия |
149 200 |
13 |
11 |
27,00 |
1,83 |
64 |
74 |
6680 |
8,8 |
74 |
99 |
0,20 |
34 |
Саудовская Аравия |
18 000 |
38 |
6 |
52,00 |
6,67 |
66 |
70 |
6651 |
7,7 |
77 |
62 |
3,20 |
35 |
Северная Корея |
23 100 |
24 |
6 |
27,70 |
2,40 |
67 |
73 |
1000 |
189,0 |
60 |
99 |
1,83 |
36 |
Сингапур |
2900 |
16 |
6 |
5,70 |
1,88 |
73 |
79 |
14 990 |
4456,0 |
100 |
88 |
1,20 |
37 |
США |
260 800 |
15 |
9 |
8,11 |
2,06 |
73 |
79 |
23 474 |
26,0 |
75 |
97 |
0,99 |
38 |
Таиланд |
59 400 |
19 |
6 |
37,00 |
2,10 |
65 |
72 |
1800 |
115,0 |
22 |
93 |
1,40 |
39 |
Турция |
62 200 |
26 |
6 |
49,00 |
3,21 |
69 |
73 |
3721 |
79,0 |
61 |
81 |
2,02 |
40 |
Украина |
51 800 |
12 |
13 |
20,70 |
1,82 |
65 |
75 |
2340 |
87,0 |
67 |
97 |
0,05 |
41 |
Филиппины |
69 800 |
27 |
7 |
51,00 |
3,35 |
63 |
68 |
867 |
221,0 |
43 |
90 |
1,92 |
42 |
Финляндия |
5100 |
13 |
10 |
5,30 |
1,80 |
72 |
80 |
15 877 |
39,0 |
60 |
100 |
0,30 |
43 |
Франция |
58 000 |
13 |
9 |
6,70 |
1,80 |
74 |
82 |
18 944 |
105,0 |
73 |
99 |
0,47 |
44 |
Чили |
14 000 |
23 |
6 |
14,60 |
2,50 |
71 |
78 |
2591 |
18,0 |
85 |
93 |
1,70 |
45 |
Швейцария |
7000 |
12 |
9 |
6,20 |
1,60 |
75 |
82 |
22 384 |
170,0 |
62 |
99 |
0,70 |
46 |
Швеция |
8800 |
14 |
11 |
5,70 |
2,10 |
75 |
81 |
16 900 |
19,0 |
84 |
99 |
0,52 |
47 |
Эфиопия |
55 200 |
45 |
14 |
110,00 |
6,81 |
51 |
54 |
122 |
47,0 |
12 |
24 |
3,10 |
48 |
ЮАР |
43 900 |
34 |
8 |
47,10 |
4,37 |
62 |
68 |
3128 |
35,0 |
49 |
76 |
2,60 |
49 |
Южная Корея |
45 000 |
16 |
6 |
21,70 |
1,65 |
68 |
74 |
6627 |
447,0 |
72 |
96 |
1,00 |
50 |
Япония |
125 500 |
11 |
7 |
4,40 |
1,55 |
76 |
82 |
19 860 |
330,0 |
77 |
99 |
0,30 |
Обозначения признаков:
— численность населения (в тыс. чел.); — рождаемость (на 1000 чел.); ) — смертность (на 1000 чел.); — младенческая смертность — число детей, умерших в возрасте до 1 г. (на 1000 чел.); — среднее число детей в семье; — ожидаемая продолжительность жизни мужчины (в годах); — ожидаемая продолжительность жизни женщины (в годах); — ВВП на душу населения (в долл. США по покупательной способности валют); — плотность населения (количество человек на кв. км); — процент городского населения; — процент грамотных; — прирост населения (% в год).
1. Кластерный анализ [1, 2] — один из методов многомерного анализа, предназначенный для группировки (кластеризации) совокупности элементов, которые характеризуются многими факторами, и получение однородных групп (кластеров).
Результаты кластерного анализа в виде иерархического дерева приведены на рис. 1. На графике четко проявляются три крупные группы (кластеры).
Рисунок 1. Иерархическая диаграмма результатов кластерного анализа
2. K-means (метод k-средних) — наиболее популярный метод кластеризации. Особенности метода заключаются в том, что он стремится минимизировать суммарное квадратичное отклонение точек кластеров от центров этих кластеров.
По известному количеству кластеров методом К-средних были определены составы каждого кластера. В качестве примеры были рассмотрены десять из двенадцати признаков, совокупность которых можно определить как индекс развития страны.
По рис. 2 можно заметить, что страны, принадлежащие к первому кластеру, характеризуются самой высокой младенческой смертностью , а также лидируют по показателям рождаемости и среднему числу детей в семье , в то время как ВВП на душу населения и процент грамотных в этих странах заметно ниже, чем у стран, относящихся ко второму и третьему кластерам, у которых наблюдается противоположная ситуация.
Рисунок 2. Средние значения показателей для каждого кластера
Таблица 2 демонстрирует состав каждого из кластеров, а также расстояние каждого объекта до центра данного кластера, что позволяет сделать выводы о том, на сколько та или иная страна по своим показателям близка к значениям, характерным для кластера, в состав которого она входит.
Таблица 2.
Состав кластеров
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3. Компонентный анализ [1, 2] относится к многомерным методам снижения размерности. Он содержит один метод - метод главных компонент, позволяющий уменьшить размерность данных, потеряв наименьшее количество информации.
На рис. 3. представлено окно результатов метода компонентного анализа ППП STATISTICA, из которого следует, что первые три главные компоненты содержат 81,2 % информации, что является достаточным для проведения исследований.
Рисунок 3. Окно результатов метода компонентного анализа ППП STATISTICA
Согласно алгоритму компонентного анализа ранжирование проводилось последовательно, в зависимости от величины собственного значения λ (λ1=7,22; λ2=1,34; λ3=1,17). Стоит отметить, что ранжирование стран по главным компонентам практически совпадает (за исключением ОАЭ) с проведенным в данном исследовании разделением на кластеры.
Таблица 3.
Ранжирование стран
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
По результатам исследования можно сделать вывод, что страны, относящиеся к третьей группе (к 3 кластеру) — это группа наиболее развитых стран, которые характеризуются высокими долей ВВП на душу населения, процентом образованных людей, а также более развитой медициной вследствие чего показатели смертности среди населения относительно невелики. В описанный выше кластер вошла Россия, заняв 25 место в рейтинге стран.
Список литературы:
1.Айвазян С.А., Мхитарян В.С. Прикладная статистика в задачах и упражнениях. М., ЮНИТИ, 2001. — 270 с.
2.Дубров А.М., Трошин Л.И., Мхитарян В.С. Многомерные статистические методы. М.: Финансы и статистика, 2000. — 352 с
3.Третьяков Н.П., Иванова Ю. Классификация городов СНГ с помощью кластерного и компонентного анализа. Интернет-журнал «Технологии техносферной безопасности», выпуск № 1 (29) февраль 2010 г.
4.Третьяков Н.П. Применение кластерного анализа к мировой статистике пожаров. Интернет журнал.
дипломов
Оставить комментарий