Е.Е. Фомина
4
Гуманитарный вестник
# 10·2017
Выделение главных компонент осуществляется по представлен-
ному ниже алгоритму.
1. Стандартизация исходных переменных, приводящая к тому,
что дисперсии всех стандартизированных переменных становятся
одинаковыми (все стандартизированные переменные имеют одина-
ковую информативность) и начало координат переносится в центр
облака данных.
2. Линейное преобразование пространства
1 2
( , , ..., )
k
Z z z
z
=
с це-
лью построения нового ортогонального пространства главных ком-
понент
1 2
( , , ..., ) :
k
Y y y y
=
1
α ,
k
j
ij i
i
y
z
=
=
∑
,
1, .
i j
k
=
Для осуществления этого преобразования необходимо рассчитать
коэффициенты
{α }
ij
Λ =
. Они определяются исходя из следующих
требований:
•
главные компоненты должны быть линейными комбинациями
переменных
1 2
, , ...,
k
z z
z
;
•
главные компоненты должны быть ортогональными;
•
первая главная компонента должна иметь максимальную выбо-
рочную дисперсию, вторая главная компонента должна иметь макси-
мальную выборочную дисперсию при фиксированной первой и т.д.:
2
2
2
1
2
( )
( ) ...
( )
k
s y s y
s y
≥
≥ ≥
;
•
суммарная дисперсия исходных переменных должна быть равна
суммарной дисперсии главных компонент.
Вычисление главных компонент сводится к вычислению
собствен- ных векторови
собственных значений1 2
(λ , λ , ..., λ )
k
корреляционной
матрицыисходных данных. При этом собственные числа будут равны
дисперсиям новых переменных
2
2
2
1
1
2
2
( ) λ ( ) λ ...
( )
k
s y
s y
s y
= ≥
= ≥ ≥
=
= λ ,
k
а собственные векторы будут совпадать со столбцами матрицы
{α }
ij
Λ =
:
1
(α ...α )
T
i
ki
—
i
-й собственный вектор, соответствующий
собственному числу
λ
i
.
Значения
α
ij
называются факторными нагрузками. Они представ-
ляют собой коэффициенты корреляции между исходными перемен-
ными и главными компонентами. Факторы включают в себя те пере-
менные, для которых
α 0, 7.
>
ij
3. Сокращение размерности пространства
1 2
( , , ..., )
k
Y y y y
=
по-
средством отсечения неинформативных переменных. Для решения
этой задачи используются: