Метод главных компонент является методом визуализации данных.
Методы визуализации данных нацелены на поиск наиболее выразительных изображений совокупности исследуемых объектов для последующего максимального использования потенциала зрительного анализатора экспериментатора.
Визуализация данных предполагает получение тем или иным способом графического отображения совокупности объектов в новое координатное пространство, в качестве которого могут быть использованы либо числовая ось, либо плоскость, либо трехмерное пространство, максимально отражающие особенности распределения этих объектов в многомерном пространстве.
В соответствии с количеством измерений в новом координатном пространстве могут быть следующие способы визуального представления:
- одномерное измерение, или 1-D,
- двумерное измерение, или 2-D,
- трехмерное (проекционное) измерение, или 3-D.
С геометрических позиций алгоритм построения главных компонент (ГК) состоит в следующем.
Производится центрирование исходных данных (рис.1а), начало координат переносится в центр распределения данных (центроид), являющимся центром эллипсоида рассеивания случайного вектора Х (рис.1б).
Рис. 2. Формирование главных компонент
Затем осуществляется формирование главных компонент F 1 , F 2 ,…, Fp (рис.1в). Линейные комбинации выбираются таким образом, что среди всех возможных комбинаций первая главная компонента F 1 ( X ) обладает наибольшей дисперсией. Дисперсия σ стремится к максимуму: F 1 ( X )= I = max σ ->ω pi. Графически это выглядит как ориентация новой координатной оси F 1 вдоль направления наибольшей вытянутости эллипсоида рассеивания объектов в исходном пространстве P признаков. а разбросом вдоль нескольких последних осей можно пренебречь.
Вторая главная компонента F 2 ( X ) перпендикулярна первой и строится исходя из предположений нахождения максимальной дисперсии среди всех оставшихся линейных комбинаций, некоррелированных с первой ГК.
Остальные главные компоненты определяются аналогичным способом.
Количество главных компонент равно количеству элементарных признаков.
Введем исходные данные в электронную таблицу STATGRAPHICS (48*8).
Анализ методом главных компонент состоит из нескольких этапов:
1) Необходимо получить данные о результатах анализа (таблица сводки) (рис.3)
рис.3 Сводка метода ГК
В Данной таблице содержится информация о результатах построения главных компонент: собственные значения главных компонент (eigenvalue), упорядоченных по величине, процент дисперсии (percent of variance), приходящейся на каждую выделенную главную компоненту, накопленный процент дисперсии (cumulative percentage).
На основе полученных результатов можно седлать вывод о том, что первые 2 компоненты дают 80 процентов дисперсии, что достаточно для проведения анализа распределения компонентов в пространстве.
2) Далее проанализируем таблицу весов признаков (рис.4)
рис.4 Веса признаков в главных компонентах
Определим зависимость первой главной компоненты от признаков. Зависимость от того или иного признака определяется величиной признака.
Первая главная компонента в наибольшей степени зависит от 3 признаков:
Дата: 2019-05-29, просмотров: 274.