Статья опубликована в рамках: Научного журнала «Студенческий» № 19(357)
Рубрика журнала: Математика
Скачать книгу(-и): скачать журнал
МЕТОД ГЛАВНЫХ КОМПОНЕНТ В ЗАДАЧАХ АНАЛИЗА ДАННЫХ
PRINCIPAL COMPONENT ANALYSIS IN DATA DIMENSIONALITY REDUCTION
Danilchenko Oleg Ivanovich
1st year student, Department of Higher Mathematics, Ulyanovsk State Technical University
Russia, Ulyanovsk
Kireev Sergey Vladimirovich
Scientific supervisor, Candidate of Physical and Mathematical Sciences, Assoc. Prof., Ulyanovsk State Technical University,
Russia, Ulyanovsk
АННОТАЦИЯ
В данной статье рассматривается метод главных компонент (PCA) — один из ключевых подходов в многомерном статистическом анализе. Излагается математическая формулировка задачи, а также алгоритм расчёта главных компонент на основе собственных чисел и собственных векторов ковариационной матрицы. На примерах показано использование PCA для сокращения размерности пространства признаков и визуализации многомерных данных. Полученные результаты находят применение в системах распознавания образов, задачах сжатия информации и при предварительной обработке данных для нейросетевых моделей.
ABSTRACT
This article examines the principal component analysis (PCA) method, one of the key approaches in multivariate statistical analysis. It presents the mathematical formulation of the problem, as well as an algorithm for calculating principal components based on the eigenvalues and eigenvectors of the covariance matrix. Examples are used to demonstrate the application of PCA for reducing the dimensionality of feature space and visualizing multivariate data. The obtained results are applied in pattern recognition systems, information compression tasks, and data preprocessing for neural network models.
Ключевые слова: метод главных компонент, снижение размерности, собственные числа, ковариационная матрица, анализ данных.
Keywords: principal component analysis, dimensionality reduction, eigenvalues, covariance matrix, data analysis.
Ключевая трудность современных наук о данных — работа с многомерными объектами. Чем больше признаков, тем выше вычислительные затраты и сильнее влияние «проклятия размерности». Метод PCA решает эту проблему: он сжимает коррелированные признаки в несколько некоррелированных главных компонент, сохраняющих максимум дисперсии.
Исходные данные представлены матрицей X размерностью n×p, где n — число объектов, p — число признаков. Первым шагом выполняется центрирование: от каждого столбца отнимается его среднее значение. Далее ковариационная матрица рассчитывается по следующей формуле:

PCA ищет ортогональное преобразование, приводящее ковариационную матрицу к диагональному виду, что сводится к нахождению её собственных чисел и векторов.

В этих выражениях λi — собственные числа, отражающие дисперсию вдоль соответствующих главных компонент, а vi — собственные векторы (коэффициенты компонент). Собственные числа сортируются по убыванию: λ1 ≥ λ2 ≥ … ≥ λp. Направление первой главной компоненты совпадает с направлением максимальной дисперсии.
Снижение размерности достигается выбором первых k главных компонент (k ≪ p). Доля объяснённой (сохранённой) дисперсии определяется так:

Переход к сжатому представлению в пространстве главных компонент осуществляется проектированием, которое даёт новые координаты объектов:

На практике при выборе количества главных компонент k обычно ориентируются на порог сохранённой дисперсии — рекомендуется оставлять не менее 80–90% исходной вариативности данных.
Для примера возьмём выборку из 100 объектов с 5 признаками. Рассчитанные собственные числа ковариационной матрицы представлены в таблице 1.
Таблица 1.
Рассчитанные собственные числа ковариационной матрицы
|
Номер компоненты |
Собственное число λi |
Доля дисперсии, % |
Накопленная доля, % |
|---|---|---|---|
|
1 |
3.42 |
68.4 |
68.4 |
|
2 |
1.15 |
23.0 |
91.4 |
|
3 |
0.28 |
5.6 |
97.0 |
|
4 |
0.10 |
2.0 |
99.0 |
|
5 |
0.05 |
1.0 |
100.0 |
Как видно из таблицы, первые две главные компоненты объясняют 91,4% дисперсии, что позволяет заменить ими пять исходных признаков без значимых потерь. Выбор числа компонент визуализирует график «каменистой осыпи» (рисунок 1).

Рисунок 1. График собственных чисел (scree plot)
Точка излома на графике указывает номер компоненты, начиная с которого собственные числа принимают малые значения. В рассматриваемом примере такой перелом наблюдается после второй компоненты.
Основные области применения метода главных компонент:
- Визуализация многомерных данных
- Сжатие информации
- Предобработка для машинного обучения
- Удаление шума
PCA линеен и не подходит для нелинейных данных — тогда используют главные кривые или автокодировщики. При этом PCA эффективен для снижения размерности и широко применяется в финансах, биоинформатике и компьютерном зрении.
Список литературы:
- Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. — 2nd ed. — New York: Springer, 2009. — 745 p.
- Jolliffe I.T. Principal Component Analysis. — 2nd ed. — New York: Springer, 2002. — 487 p.
- James G., Witten D., Hastie T., Tibshirani R. An Introduction to Statistical Learning. — New York: Springer, 2013. — 426 p.
- Bishop C.M. Pattern Recognition and Machine Learning. — New York: Springer, 2006. — 738 p.

