О корреляции вообще см. вопрос № 36 с. 56 (64) 063.JPG
с. 64 (156)
Корреляционная матрица.Часто корреляционный анализ включает в себя изучение связей не двух, а множества переменных, измеренных в количественной шкале на одной выборке. В этом случае вычисляются корреляции для каждой пары из этого множества переменных. Вычисления обычно проводятся на компьютере, а результатом является корреляционная матрица.
Корреляционная матрица(Correlation Matrix) — это результат вычисления корреляций одного типа для каждой пары из множества Р переменных, измеренных в количественной шкале на одной выборке.
ПРИМЕР
Предположим, изучаются связи между 5 переменными (vl, v2,..., v5; P= 5), измеренными на выборке численностью N=30 человек. Ниже приведена таблица исходных данных и корреляционная матрица.
Исходные данные:
Корреляционная матрица:
Нетрудно заметить, что корреляционная матрица является квадратной, симметричной относительно главной диагонали (таккакг,у= /}у), с единицами на главной диагонали (так как ги = Гу = 1).
Корреляционная матрица является квадратной: число строк и столбцов равно числу переменных. Она симметрична относительно главной диагонали, так как корреляция х с у равна корреляции у с х. На ее главной диагонали располагаются единицы, так как корреляция признака с самим собой равна единице. Следовательно, анализу подлежат не все элементы корреляционной матрицы, а те, которые находятся выше или ниже главной диагонали.
Количество коэффициентов корреляции, подлежащих анализу при изучении связей Рпризнаков определяется формулой: Р(Р- 1)/2. В приведенном выше примере количество таких коэффициентов корреляции 5(5 — 1)/2 = 10.
Основная задача анализа корреляционной матрицы — выявление структуры взаимосвязей множества признаков. При этом возможен визуальный анализ корреляционных плеяд — графического изображения структуры статистически значимых связей, если таких связей не очень много (до 10—15). Другой способ — применение многомерных методов: множественного регрессионного, факторного или кластерного анализа (см. раздел «Многомерные методы...»). Применяя факторный или кластерный анализ, можно выделить группировки переменных, которые теснее связаны друг с другом, чем с другими переменными. Весьма эффективно и сочетание этих методов, например, если признаков много и они не однородны.
Сравнение корреляций — дополнительная задача анализа корреляционной матрицы, имеющая два варианта. Если необходимо сравнение корреляций в одной из строк корреляционной матрицы (для одной из переменных), применяется метод сравнения для зависимых выборок (с. 148—149). При сравнении одноименных корреляций, вычисленных для разных выборок, применяется метод сравнения для независимых выборок (с. 147-148).
Методы сравнения корреляций в диагоналях корреляционной матрицы (для оценки стационарности случайного процесса) и сравнения нескольких корреляционных матриц, полученных для разных выборок (на предмет их однородности), являются трудоемкими и выходят за рамки данной книги. Познакомиться с этими методами можно по книге Г. В. Суходольского1.
Проблема статистической значимости корреляций.Проблема заключается в том, что процедура статистической проверки гипотезы предполагает однократное испытание, проведенное на одной выборке. Если один и тот же метод применяется многократно, пусть даже и в отношении различных переменных, то увеличивается вероятность получить результат чисто случайно. В общем случае, если мы повторяем один и тот же метод проверки гипотезы к раз в отношении разных переменных или выборок, то при установленной величине а мы гарантированно получим подтверждение гипотезы в ахк числе случаев.
Предположим, анализируется корреляционная матрица для 15 переменных, то есть вычислено 15(15—1)/2 = 105 коэффициентов корреляции. Для проверки гипотез установлен уровень а = 0, 05. Проверяя гипотезу 105 раз, мы пять раз (!) получим ее подтверждение независимо от того, существует ли связь на самом деле. Зная это и получив, скажем, 15 «статистически достоверных» коэффициентов корреляции, сможем ли мы сказать, какие из них получены случайно, а какие — отражают реальную связь?
Строго говоря, для принятия статистического решения необходимо уменьшить уровень а во столько раз, сколько гипотез проверяется. Но вряд ли это целесообразно, так как непредсказуемым образом увеличивается вероятность проигнорировать реально существующую связь (допустить ошибку II рода).
Одна только корреляционная матрица не является достаточным основанием для статистических выводов относительно входящих в нее отдельных коэффициентов корреляций!
Можно указать лишь один действительно убедительный способ решения этой проблемы: разделить выборку случайным образом на две части и принимать во внимание только те корреляции, которые статистически значимы в обеих частях выборки. Альтернативой может являться использование многомерных методов (факторного, кластерного или множественного регрессионного анализа) — для выделения и последующей интерпретации групп статистически значимо связанных переменных.
Проблема пропущенных значений.Если в данных есть пропущенные значения, то возможны два варианта расчета корреляционной матрицы: а) построчное удаление значений (Exclude cases listwise);б) попарное удаление значений (Exclude cases pairwise).При построчном удалении наблюдений с пропусками удаляется вся строка для объекта (испытуемого), который имеет хотя бы одно пропущенное значение по одной из переменных. Этот способ приводит к «правильной» корреляционной матрице в том смысле, что все коэффициенты вычислены по одному и тому же множеству объектов. Однако если пропущенные значения распределены случайным образом в переменных, то данный метод может привести к тому, что в рассматриваемом множестве данных не останется ни одного объекта (в каждой строке встретится, по крайней мере, одно пропущенное значение). Чтобы избежать подобной ситуации, используют другой способ, называемый попарным удалением. В этом способе учитываются только пропуски в каждой выбранной паре столбцов-переменных и игнорируются пропуски в других переменных. Корреляция для пары переменных вычисляется по тем объектам, где нет пропусков. Во многих ситуациях, особенно когда число пропусков относительно мало, скажем 10%, и пропуски распределены достаточно хаотично, этот метод не приводит к серьезным ошибкам. Однако иногда это не так. Например, в систематическом смещении (сдвиге) оценки может «скрываться» систематическое расположение пропусков, являющееся причиной различия коэффициентов корреляции, построенных по разным подмножествам (например — для разных подгрупп объектов). Другая проблема, связанная с корреляционной матрицей, вычисленной при попарном удалении пропусков, возникает при использовании этой матрицы в других видах анализа (например, в множественном регрессионном или факторном анализе). В них предполагается, что используется «правильная» корреляционная матрица с определенным уровнем состоятельности и «соответствия» различных коэффициентов. Использование матрицы с «плохими» (смещенными) оценками приводит к тому, что программа либо не в состоянии анализировать такую матрицу, либо результаты будут ошибочными. Поэтому, если применяется попарный метод исключения пропущенных данных, необходимо проверить, имеются или нет систематические закономерности в распределении пропусков.
Если попарное исключение пропущенных данных не приводит к какому-либо систематическому сдвигу средних значений и дисперсий (стандартных отклонений), то эти статистики будут похожи на аналогичные показатели, вычисленные при построчном способе удаления пропусков. Если наблюдается значительное различие, то есть основание предполагать наличие сдвига в оценках. Например, если среднее (или стандартное отклонение) значений переменной А, которое использовалось при вычислении ее корреляции с переменной В, намного меньше среднего (или стандартного отклонения) тех же значений переменной А, которые использовались при вычислении ее корреляции с переменной С, то имеются все основания ожидать, что эти две корреляции (А—В нА—С) основаны на разных подмножествах данных. В корреляциях будет сдвиг, вызванный неслучайным расположением пропусков в значениях переменных.
Анализ корреляционных плеяд.После решения проблемы статистической значимости элементов корреляционной матрицы статистически значимые корреляции можно представить графически в виде корреляционной плеяды или плеяд. Корреляционная плеяда — это фигура, состоящая из вершин и соединяющих их линий. Вершины соответствуют признакам и обозначаются обычно цифрами — номерами переменных. Линии соответствуют статистически достоверным связям и графически выражают знак, а иногда — и /j-уровень значимости связи.
Корреляционная плеяда может отражать все статистически значимые связи корреляционной матрицы (иногда называется корреляционным графом) или только их содержательно выделенную часть (например, соответствующую одному фактору по результатам факторного анализа).
ПРИМЕР ПОСТРОЕНИЯ КОРРЕЛЯЦИОННОЙ ПЛЕЯДЫ
Корреляционная плеяда:
Построение корреляционной плеяды начинают с выделения в корреляционной матрице статистически значимых корреляций (иногда — разным цветом в зависимости от/?-уровня значимости). Затем для строк (столбцов) матрицы, содержащих статистически значимые корреляции, подсчитывается их количество. Построение плеяды начинают с переменной, имеющей наибольшее число значимых связей, постепенно добавляя в рисунок другие переменные — по мере убывания числа связей и связывая их линиями, соответствующими связям между ними.
Дата: 2016-10-02, просмотров: 710.