Корреляционная матрица и корреляционный граф.
Поможем в ✍️ написании учебной работы
Поможем с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой

О корреляции вообще см. вопрос № 36 с. 56 (64) 063.JPG

 

с. 64 (156)

Корреляционная матрица.Часто корреляционный анализ включает в себя изучение связей не двух, а множества переменных, измеренных в количествен­ной шкале на одной выборке. В этом случае вычисляются корреляции для каждой пары из этого множества переменных. Вычисления обычно прово­дятся на компьютере, а результатом является корреляционная матрица.

Корреляционная матрица(Correlation Matrix) — это результат вычисления корреляций одного типа для каждой пары из множества Р переменных, изме­ренных в количественной шкале на одной выборке.

ПРИМЕР

Предположим, изучаются связи между 5 переменными (vl, v2,..., v5; P= 5), изме­ренными на выборке численностью N=30 человек. Ниже приведена таблица ис­ходных данных и корреляционная матрица.

Исходные данные:

Корреляционная матрица:

Нетрудно заметить, что корреляционная матрица является квадратной, симметрич­ной относительно главной диагонали (таккакг,у= /}у), с единицами на главной диа­гонали (так как ги = Гу = 1).

Корреляционная матрица является квадратной: число строк и столбцов равно числу переменных. Она симметрична относительно главной диагона­ли, так как корреляция х с у равна корреляции у с х. На ее главной диагонали располагаются единицы, так как корреляция признака с самим собой равна единице. Следовательно, анализу подлежат не все элементы корреляцион­ной матрицы, а те, которые находятся выше или ниже главной диагонали.

Количество коэффициентов корреляции, подлежащих анализу при изучении связей Рпризнаков определяется формулой: Р(Р- 1)/2. В приведенном выше примере количество таких коэффициентов корреляции 5(5 — 1)/2 = 10.

Основная задача анализа корреляционной матрицы — выявление структуры взаимосвязей множества признаков. При этом возможен визуальный анализ корреляционных плеяд — графического изображения структуры статистически значимых связей, если таких связей не очень много (до 10—15). Другой спо­соб — применение многомерных методов: множественного регрессионного, факторного или кластерного анализа (см. раздел «Многомерные методы...»). Применяя факторный или кластерный анализ, можно выделить группиров­ки переменных, которые теснее связаны друг с другом, чем с другими пере­менными. Весьма эффективно и сочетание этих методов, например, если признаков много и они не однородны.

Сравнение корреляций — дополнительная задача анализа корреляционной матрицы, имеющая два варианта. Если необходимо сравнение корреляций в одной из строк корреляционной матрицы (для одной из переменных), при­меняется метод сравнения для зависимых выборок (с. 148—149). При сравне­нии одноименных корреляций, вычисленных для разных выборок, применя­ется метод сравнения для независимых выборок (с. 147-148).

Методы сравнения корреляций в диагоналях корреляционной матрицы (для оценки стационарности случайного процесса) и сравнения нескольких корре­ляционных матриц, полученных для разных выборок (на предмет их одно­родности), являются трудоемкими и выходят за рамки данной книги. Позна­комиться с этими методами можно по книге Г. В. Суходольского1.

Проблема статистической значимости корреляций.Проблема заключается в том, что процедура статистической проверки гипотезы предполагает одно­кратное испытание, проведенное на одной выборке. Если один и тот же метод применяется многократно, пусть даже и в отношении различных переменных, то увеличивается вероятность получить результат чисто слу­чайно. В общем случае, если мы повторяем один и тот же метод проверки гипотезы к раз в отношении разных переменных или выборок, то при уста­новленной величине а мы гарантированно получим подтверждение гипоте­зы в ахк числе случаев.

Предположим, анализируется корреляционная матрица для 15 переменных, то есть вычислено 15(15—1)/2 = 105 коэффициентов корреляции. Для проверки гипотез установлен уровень а = 0, 05. Проверяя гипотезу 105 раз, мы пять раз (!) получим ее подтверждение независимо от того, существует ли связь на самом деле. Зная это и получив, скажем, 15 «статистически достоверных» коэффициентов корреляции, сможем ли мы сказать, какие из них получены случайно, а какие — отражают ре­альную связь?

Строго говоря, для принятия статистического решения необходимо умень­шить уровень а во столько раз, сколько гипотез проверяется. Но вряд ли это целесообразно, так как непредсказуемым образом увеличивается вероятность проигнорировать реально существующую связь (допустить ошибку II рода).

Одна только корреляционная матрица не является достаточным основанием для статистических выводов относительно входящих в нее отдельных коэффи­циентов корреляций!

Можно указать лишь один действительно убедительный способ решения этой проблемы: разделить выборку случайным образом на две части и прини­мать во внимание только те корреляции, которые статистически значимы в обеих частях выборки. Альтернативой может являться использование много­мерных методов (факторного, кластерного или множественного регрессион­ного анализа) — для выделения и последующей интерпретации групп статис­тически значимо связанных переменных.

Проблема пропущенных значений.Если в данных есть пропущенные значе­ния, то возможны два варианта расчета корреляционной матрицы: а) построч­ное удаление значений (Exclude cases listwise);б) попарное удаление значений (Exclude cases pairwise).При построчном удалении наблюдений с пропусками удаляется вся строка для объекта (испытуемого), который имеет хотя бы одно пропущенное значение по одной из переменных. Этот способ приводит к «пра­вильной» корреляционной матрице в том смысле, что все коэффициенты вы­числены по одному и тому же множеству объектов. Однако если пропущенные значения распределены случайным образом в переменных, то данный метод может привести к тому, что в рассматриваемом множестве данных не останется ни одного объекта (в каждой строке встретится, по крайней мере, одно пропу­щенное значение). Чтобы избежать подобной ситуации, используют другой способ, называемый попарным удалением. В этом способе учитываются только пропуски в каждой выбранной паре столбцов-переменных и игнорируются пропуски в других переменных. Корреляция для пары переменных вычисляет­ся по тем объектам, где нет пропусков. Во многих ситуациях, особенно когда число пропусков относительно мало, скажем 10%, и пропуски распределены достаточно хаотично, этот метод не приводит к серьезным ошибкам. Однако иногда это не так. Например, в систематическом смещении (сдвиге) оценки может «скрываться» систематическое расположение пропусков, являющееся причиной различия коэффициентов корреляции, построенных по разным под­множествам (например — для разных подгрупп объектов). Другая проблема, связанная с корреляционной матрицей, вычисленной при попарном удалении пропусков, возникает при использовании этой матрицы в других видах анали­за (например, в множественном регрессионном или факторном анализе). В них предполагается, что используется «правильная» корреляционная матрица с определенным уровнем состоятельности и «соответствия» различных коэффи­циентов. Использование матрицы с «плохими» (смещенными) оценками приводит к тому, что программа либо не в состоянии анализировать такую матри­цу, либо результаты будут ошибочными. Поэтому, если применяется попарный метод исключения пропущенных данных, необходимо проверить, имеются или нет систематические закономерности в распределении пропусков.

Если попарное исключение пропущенных данных не приводит к какому-либо систематическому сдвигу средних значений и дисперсий (стандартных отклонений), то эти статистики будут похожи на аналогичные показатели, вы­численные при построчном способе удаления пропусков. Если наблюдается значительное различие, то есть основание предполагать наличие сдвига в оцен­ках. Например, если среднее (или стандартное отклонение) значений перемен­ной А, которое использовалось при вычислении ее корреляции с переменной В, намного меньше среднего (или стандартного отклонения) тех же значений переменной А, которые использовались при вычислении ее корреляции с пе­ременной С, то имеются все основания ожидать, что эти две корреляции (А—В нА—С) основаны на разных подмножествах данных. В корреляциях будет сдвиг, вызванный неслучайным расположением пропусков в значениях переменных.

Анализ корреляционных плеяд.После решения проблемы статистической зна­чимости элементов корреляционной матрицы статистически значимые корре­ляции можно представить графически в виде корреляционной плеяды или пле­яд. Корреляционная плеяда — это фигура, состоящая из вершин и соединяющих их линий. Вершины соответствуют признакам и обозначаются обычно цифра­ми — номерами переменных. Линии соответствуют статистически достоверным связям и графически выражают знак, а иногда — и /j-уровень значимости связи.

Корреляционная плеяда может отра­жать все статистически значимые связи корреляционной матрицы (иногда называ­ется корреляционным графом) или только их содержательно выделенную часть (напри­мер, соответствующую одному фактору по результатам факторного анализа).

ПРИМЕР ПОСТРОЕНИЯ КОРРЕЛЯЦИОННОЙ ПЛЕЯДЫ

 

 

Корреляционная плеяда:

Построение корреляционной плеяды начинают с выделения в корреляци­онной матрице статистически значимых корреляций (иногда — разным цве­том в зависимости от/?-уровня значимости). Затем для строк (столбцов) мат­рицы, содержащих статистически значимые корреляции, подсчитывается их количество. Построение плеяды начинают с переменной, имеющей наиболь­шее число значимых связей, постепенно добавляя в рисунок другие перемен­ные — по мере убывания числа связей и связывая их линиями, соответствую­щими связям между ними.

 

Дата: 2016-10-02, просмотров: 650.