В математической статистики количественная связь между признаками, явлениями или компонентами оценивают методом корреляции. При статистической обработке данных полученных в результате геологоразведки для научных и практических выводов важно проследить, как меняются значения в пробах одного компонента относительно другого, то есть нужно найти уравнение связи и значение коэффициента корреляции, определяющего степень влияния одного компонента на другой компонент.
Термин “correlation” – переводится с английского языка как соотношение, сопоставление или взаимозависимость. Связи между компонентами, проявляющиеся в изменение одного компонента относительно другого компонента называют статистическими, в отличие от функциональных связей, где влияние одного признака на другой происходит по формуле. В статистических связях влияние изменения одного компонента на изменение другого проявляется в среднем, при этом отдельные результаты могут противоречить установленной связи.
В большинстве геологоразведочных данных наблюдается, что в пробах измеряется сразу несколько компонентов. Например, в некоторых пробах измерялись содержания хрома, никеля и ванадия. Результаты опробования представлены в таблице 3333.
Таблица
CR | NI | V |
205 | 130 | 180 |
255 | 165 | 215 |
195 | 100 | 135 |
220 | 135 | 200 |
235 | 145 | 205 |
Сумма - 1110 | Сумма - 675 | Сумма - 935 |
Среднее - 222 | Среднее - 135 | Среднее - 187 |
Эти компоненты могут и не быть независимыми друг от друга, между ними может существовать некоторая статистическая связь. Как оценить силу этой связи и если сама эта связь между этими компонентами. Для оценки силы связи можно использовать вычислительные процедуры, которые мы используем для вычисления дисперсии, только не одного компонента, а для пары компонентов. Вычисление дисперсии сразу для пары компонентов называется ковариацией (в английском языке variation - дисперсия covariation – совместное изменение двух величин) и является характеристикой совместного изменения двух переменных по отношению к их общему знаменателю.
Это соотношение можно изобразить на рисунке двойной гистограммы в трехмерном пространстве.
Рис. Вид двойной гистограммы в трехмерном пространстве.
Точно как дисперсия характеризует разброс относительно центральной точки, ковариация характеризует разброс значений относительно общего среднего распределений двух компонентов.
Вычисление оценки ковариации прямо вытекает из вычисления оценки дисперсии. Формула дисперсии –
- S2=1/n1∑(xiχ)2 – переписывается как S2=1/n1∑(xiχ)*(xiχ) и далее преобразуется для двух компонентов, например - Cov=1/n1∑(xCrχCr)*(xNiχNi). Если, например значения в пробах хрома и никеля будут равны то формула ковариации (COV) сведется к формуле дисперсии (S2), то есть формула ковариации является частью формулы дисперсии. Можно вычислить дисперсии и ковариации для компонентов, представленных в таблице и из вычисленных значений составить новую таблицу.
Таблица
Cr | Ni | V | |
Cr | S2(Cr) | Cov (Cr-Ni) | Cov (Cr-V) |
Ni | Cov (Ni-Cr) | S2(Ni) | Cov (Ni-V) |
V | Cov (V-Cr) | Cov (V-Ni) | S2(V) |
Формула ковариации позволяет очень чутко реагировать на скорость изменения одного компонента относительно скорости изменения другого. Это хорошо иллюстрирует следующий цифровой пример, в таблицах № 1 и 2 в котором расчеты приведены без усредняющего фактора по формуле - ∑(xCrχCr)*(xNiχNi).
Таблица 1
Сr | Ni | (xCrχCr)*(xNiχNi) |
5 | 25 | (5-10)*(25-30)=25 |
10 | 30 | (10-10)*(30-30)=0 |
15 | 35 | (15-10)*(35-30)=25 |
∑(xCrχCr)*(xNiχNi) | 50 |
Таблица 2
Сr | Ni | (xCrχCr)*(xNiχNi) |
5 | 25 | (5-10)*(25-28)=15 |
10 | 28 | (10-10)*(28-28)=0 |
15 | 30 | (15-10)*(30-28)=10 |
∑(xCrχCr)*(xNiχNi) | 25 |
Анализ этих двух таблиц показывает, что если увеличение одного компонента сопровождается меньшим увеличением другого компонента, то сумма становится значительно меньше.
На рисунке, расположенном ниже приведен график совместного распределения двух компонентов, тесно связанных между собой, и которые имеют высокие значения ковариации.
Рис. Совместное распределение двух компонентов, тесно связанных между собой.
На следующем рисунке приведен график совместного распределения двух компонентов, которые имеют те же дисперсии, но абсолютно не зависят друг от друга.
Рис. Совместное распределение двух компонентов, абсолютно не связанных между собой, но имеющих те же дисперсии.
Однако анализ дисперсий и ковариаций не так удобен, так как значения этих статистик зависит от единиц измерения и трудно проводить сравнения распределений значений проб компонентов, если например одни компоненты измеряются в процентах, а другие в граммах на тонну. Для оценки степени взаимной связи между компонентами (переменными) используется коэффициент корреляции, который представляет собой отношение ковариации двух компонентов к произведению их стандартных отклонений.
R= Cov(Ni-Cr)/Sni*SCr
Если значения проб никеля и хрома равны между собой, то в числителе и знаменателе мы получим значения дисперсии, и отношение станет равным единице. Поэтому крайнее значение коэффициента корреляции приближается к единице, но не достигает ее, так как если связь между компонентами будет равна единице, то это будет указывать на наличие прямой линейной связи между двумя переменными, и такая связь не будет статистической, и не будет называться корреляционной. Коэффициент корреляции – называют линейным коэффициентом корреляции, и он принимает значения от -1 до +1. Если коэффициент корреляции приближается к -1, то это указывает на отрицательную связь, то есть в этом случае одна переменная изменяется в противоположном направлении по отношению к другой. Между двумя упомянутыми случаями находится спектр менее сильных связей, если коэффициент корреляции находится около нуля или равен нулю, то это указывает на полное отсутствие статистических линейных зависимостей. На рисунках 44 44 44 изображены различные ситуации.
Рис. Коэффициент корреляции равен 0.95 (сильная корреляция)
Рис. Коэффициент корреляции равен 0.54 (менее очевидная корреляция или слабая корреляция)
Рис. Коэффициент корреляции равен -0.28 (почти полное отсутствие корреляции).
Рис. Коэффициент корреляции равен -0.95 (отрицательная корреляция, одна переменная уменьшается, другая увеличивается).
Рис. Коэффициент корреляции подсчитать нельзя, так как у одной из переменных не меняются значения и стандартное отклонение равно 0, при вычислении коэффициента корреляции происходит попытка деления на 0.
Коэффициент корреляции нельзя определить, если на графике мы видим не линейное распределение компонентов относительно друг от друга, а близкое к кругу, экспоненте, или квадратичной кривой, в этом случае можно предположить связь между переменными (компонентами), но эта связь не является линейной, а коэффициент корреляции фиксирует только степень линейной связи. Существует много возможных не линейных зависимостей между переменными, но в этом случае коэффициент корреляции нельзя считать удовлетворительной мерой степени связи между переменными. Так как коэффициент корреляции измеряет линейное соотношение между двумя переменными, то можно рассчитать формулу прямой, характеризующей зависимость между ними.
Рис. Прямая – характеризует связь между компонентами.
Используя эту формулу можно рассчитать примерное значение второго компонента относительно положения первого в новых пробах. Установление четкой линейной связи может позволить в некоторых случаях сэкономить на опробовании попутных компонентов.
Наведенная корреляция.
В некоторых случаях высокие значения коэффициента корреляции между переменными не отражают связь между ними, а возникают вследствие преобразования результатов каких-либо измерений. То есть некоторые независимые случайные величины, полученные путем измерений, имеют нулевую корреляцию, однако некоторые операции над переменными могут привести к возникновению корреляции между ними, хотя как уже было сказано никакой корреляции (или никакого линейного соотношения) между этими переменными не существует. В книге Дж.С.Девиса “Статистический анализ данных в геологии” приводится следующий пример, описанный ниже. Предположим, что образцы гальки случайным образом выбираются на галечном пляже и без перемещения гальки измеряются ортогональные оси (X,Y,Z). Никаких попыток измерить самую длинную ось или самую короткую не предпринимается, измерения проводятся на гальках в том положении, в каком они лежат на пляже. Можно предположить, что результаты измерения по осям будут слабо коррелированы, так как измерения ортогональных осей на больших гальках будут иметь большие значения, по всем трем осям, а на маленьких гальках наоборот измерения будут иметь маленькие значения по всем трем ортогональным осям. В таблице 100 приведены замеры галек и на рисунке 100 показан корреляционный график.
Таблица 100
Номер | Ось 1 | Ось 2 | Ось 3 |
1 | 3 | 7 | 8 |
2 | 16 | 5 | 8 |
3 | 10 | 12 | 9 |
4 | 13 | 5 | 12 |
5 | 14 | 16 | 5 |
6 | 9 | 8 | 14 |
7 | 16 | 13 | 13 |
8 | 6 | 3 | 11 |
9 | 9 | 15 | 9 |
10 | 13 | 10 | 9 |
Рис. Слабая корреляция между измерениями первой и второй ортогональных осей. Корреляция равна 0.279.
Однако если изменить положение гальки согласно предварительному соглашению, по которому длинную ось гальки нужно расположить по ортогональной оси X, а короткую ось по ортогональной оси Y, то такое упорядочение приведет к изменению значений измерений и приведет к изменению корреляций. Эти изменения отражены в таблице 100 и на рисунке 100, причем эти изменения могут и не привести к изменению суммы первоначальных измерений размеров галек.
Таблица 100
Номер | x | y | z |
1 | 8 | 7 | 3 |
2 | 16 | 8 | 5 |
3 | 12 | 10 | 9 |
4 | 13 | 12 | 5 |
5 | 16 | 14 | 5 |
6 | 14 | 9 | 8 |
7 | 16 | 13 | 13 |
8 | 11 | 6 | 3 |
9 | 15 | 9 | 9 |
10 | 13 | 10 | 9 |
Рис. Корреляция между измерениями первой и второй ортогональных осей (X и Y) равна 0.596.
Анализ рисунка 100 свидетельствует, что упорядочение в измерениях размеров гальки привело к смещению точек на корреляционном графике к нижнему сектору диаграммы, разделенной прямой под углом 450.
Наведенные корреляции, которые причиняют наибольшие беспокойства - это ложные отрицательные корреляции, которые появляются в замкнутых множествах данных. Замкнутым множеством данных называют множество данных, в котором сумма всех переменных равна 100% или 1, что означает, что переменные представляют собой определенные пропорции от целого. Так как сумма переменных есть фиксированное число, то увеличение доли одной переменной приводит к сокращению доли других переменных. В открытом множестве, в котором измерения не представляются в виде пропорций двух независимых переменных, не будет существовать корреляции. Если же открытое множество данных замкнуть преобразованием измерений в пропорции, то появятся отрицательные корреляции, хотя исходные данные первоначально представляли собой независимые переменные. Такие преобразования первоначально первоначальных данных характерны при нанесении данных на треугольные диаграммы, например трехфазные компонентные диаграммы.
Рис. Пример треугольной диаграммы.
Эти отрицательные корреляции возникают из того факта, что по мере увеличения пропорций одного компонента, остальные два компонента – их значения должны уменьшаться. Так как таких примеров анализа по треугольным диаграммам очень много, то было предпринято много попыток правильно определять в таких данных статистические корреляционные связи, и в настоящее время нет вполне удовлетворительного метода вычисления силы связи между переменными в замкнутых множествах данных. В некоторых случаях в замкнутых таблицах для трех переменных корреляции оцениваются через дисперсии по формуле –
r1-2 =S23 – (S21+S22)/2S1*S2
Корреляционный критерий.
Коэффициент корреляции является стандартизированной мерой линейной связи между переменными, но какая статистическая значимость этого коэффициента. Под статистической значимостью мы понимаем, насколько оценка корреляции по выборке соответствует истинному коэффициенту корреляции, вычисленному по совокупности. Коэффициент выборочной корреляции - r является оценкой параметра R, который отражает связь между переменными в совокупности. Предполагая, что обе переменные имеют нормальное распределение, и наши наблюдения выбраны случайно из некоторой совокупности, мы можем осуществить проверку значимости – r. Из совокупности данных могут быть извлечены различные выборки. Мы проверяем две гипотезы нулевую гипотезу и ее альтернативу.
H0: R = 0;
H1: R ≠ 0;
Нулевая гипотеза означает, что истинный коэффициент корреляции равен нулю, в этом случае все возможные выборочные коэффициенты корреляции имеют нормальное распределение, а стандартизированное среднее этих коэффициентов равно нулю. Нулевая гипотеза говорит о том, что две переменные не связаны друг с другом, они независимы и любое ненулевое значение выборочного коэффициента корреляции –r возникает просто из-за случайных флуктуаций при случайном выборе.
Альтернативная гипотеза означает, что истинный коэффициент корреляции не равен нулю, в этом случае все возможные выборочные коэффициенты корреляции не распределяются нормально и стандартизированное среднее этих коэффициентов не равно нулю. Альтернативная гипотеза говорит о том, что две переменные зависят друг от друга, а любое нулевое значение, возникает просто из-за изменений внутри совокупности и случайном выборе из нее данных. Мы проверяем, имеет ли наш выборочный коэффициент нормальное распределение со средним равным нулю, а если выборочные коэффициенты не распределяются нормально, то появляется основание заявлять о значимости выборочного коэффициента корреляции, то есть о том, что выборочный коэффициент корреляции соответствует истинному коэффициенту корреляции и что корреляция между переменными существует.
Дата: 2018-12-28, просмотров: 322.