Эти гипотезы также называют: гипотезы о сходимости распределений, выравнивание статистических распределений, подбор теоретического распределения.
а) выравнивание статистического распределения с использованием c2 - критерия (Пирсона)
Проверка гипотез о законах распределения основываются на изучении меры расхождения между статистическим и теоретический распределениями.
Предположим, что произведены наблюдения над некоторой случайной величиной. Все полученные наблюдения разбиты на l интервалов. В каждый интервал попало mi число наблюдений (рис.5.5).
f( t ) |
t |
, , , , , , , , |
1 2 3 |
Рис. 5.5. Интерпретация интервалов наблюдений по оси времени
при этом
m 1 + m 2 +· · · + ml = n (5.7)
где n - общее количество наблюдений (испытаний);
mi- статистическое значение числа наблюдений (испытаний), попавших в i-й интервал
Обозначим Pi - теоретическое значение вероятности попадания наблюдений в i интервал.
Следовательно,
= + + · · · + =1 , (5.8)
Умножив на n , получим
+ + · · · + = n , (5.9)
где - теоретическое значение числа наблюдений (испытаний), попавших в i-й интервал.
При построении критерия c2 в качестве меры расхождения между статистическим и теоретическим распределениями используется расхождение между теоретической и статистической частотами.
Рассмотрим некоторую случайную величину x i, равную
(5.10)
Величина xi распределена асимптотически нормально. Очевидно, распределение величины x i будет тем ближе к нормальному, чем будут больше величины и то есть, когда объем наблюдений будет достаточно велик.
Обычно требуется, чтобы = 8¸10
Рассмотрим распределение сунны величин x i 2 , то есть:
(5.11)
то есть величина подчиняется c2 - распределению с числом степеней свободы
k = l - 1, где l - количество интервалов.
Число степеней свободы k уменьшают на единицу, так как накладывается условие:
5.12)
Кроме того необходимо учесть, что при подборе теоретического распределения eго параметры вычисляются по данным статистических наблюдений (испытаний). Чтобы уменьшать возникшую в связи с этим ошибку, количество степеней свободы c2 -распределения уменьшают еще на число параметров предполагаемого закона распределения. Следовательно, при проверке гипотезы о законе распределения в этом случае используют c2 - распределение с k = l - c -1 степенями свободы, где c- число параметров теоретического распределения.
Для проверки выдвинутой гипотеза поступают двояко:
а) сравнивают вычисленное значение критерия c2 , с его теоретическим значением ( k ), взятого при уровне значимости a и числе степеней свободы k = l - c -1
Если при этом окажется, что c2 £ ( k ), то принимается нулевая гипотеза Но, если же c2 £ ( k ),то гипотеза Но отвергается. Однако при этом нельзя утверждать, что гипотеза Н1 справедлива;
б) находят значение вероятности Р { c2 £ ( k )}. Если эта вероятность велика, то принимают гипотезу Но . Это значит, что расхождение между частостями mi и является неслучайным, а полученное статистическое распределение согласуется с предполагаемым теоретическим распределением.
Чем больше объем наблюдений, тем при меньшем значении вероятности Р{ x2 ³ ( k )} можно принимать нулевую гипотезу Но.
Считают, что при n £ 100 можно принимать Но Р ³ 0,2 ¸0,3. При больших n значение Р может быть взято меньше ( при n ³ 1000 ; Р ³ 0,05).
Рассмотрим пример выравнивания статистического распределения, построенного по данным таблицы 5.1.
По данный получено:
Таблица 5.1
Интервал | mi | (Ti) | Zi | j (Zi) | F(Zi) | pi | npi | ||
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
0,071 | -1,47 | -0,4292 | 0,0708 | 0,0708 | 12 | 0 | 0,0002 | ||
23 | 0,135 | -0,860 | -0,3050 | 0,1950 | 0,1242 | 21,2 | 0,153 | 0,0108 | |
33 | 0,194 | -0,213 | -0,0987 | 0,4013 | 0,2063 | 35,2 | 0,137 | 0,0123 | |
33 | 0,224 | 0,353 | 0,1368 | 0,6368 | 0,2355 | 40,0 | 0,100 | 0,0115 | |
34 | 0,200 | 0,960 | 0,3315 | 0,8315 | 0,1947 | 33,2 | 0,02 | 0,0053 | |
21 | 0,124 | 1,565 | 0,4406 | 0,9406 | 0,1091 | 18,7 | 0,283 | 0,0149 | |
0,053 | 2,780 | 0,4972 | 0,9972 | 0,0566 | 9,7 | 0,050 | 0,0036 | ||
Суммы | 170 | 1,00 | 170 | 0,725 | Суммы |
о = 36,335; S 2 ( T ) = 10, 37 ; s = 3,3 .
Значения величин (таблица 5.1) вычислялись по формулам:
= ; D Р i = - Р i, где n = 170.
Схема решения:
Вычисляется Zi = по таблицам функции Лапласа определяется значение Ф( Zi ) и значение F ( Zi ) =0,5 + Ф( Zi ) ;
находится значение теоретической частоты Р i = F ( Zi ) - F ( Zi - 1 ) и вычисляется значение n pi = 170 Pi;
определяется величина
При вычислении значений pi в качестве теоретического распределения принято нормальное.
В формуле для вычислена Zi значение Ti берется равным значению Т для конца интервала, так например для первого интервала Т1 = 31,5 и
По результатам вычислений получено:
c 2= 0,725 (статистическое значение c2 - критерия).
Находим значение ( k ) при уровне значимости α =0,05 и числе степеней свободы K = l - с - 1 = 7 - 2 - 1 = 4, где l = 7 - число интервалов после объединения; с = 2 - количество наложенных связей, равное количеству параметров забранного распределена (для нормального с = 2). Находим:
( k ) = (4) = 9,49 ( по табл.. 9 приложения 2).
Так как x 2 = 0,725 < (4) =9,49, то вычисленное значение критерия не попадает в критическую область, а гипотеза о выбранном законе распределения не отвергается.
В случае использования второго способа проверки гипотезы о сходимости статистического распределения с нормальным распределением по таблицам x2 -распределения определяемся значение вероятности ( k ) = (4)}
Если эта вероятность достаточно велика, это расхождение между статистический и теоретическим распределениями случайно (незначимо ) и, следовательно, нулевая гипотеза должна быть принята.
В нашем случае ( k ) = (4)} = 0,94,
т.е. расхождение между статистическим и теоретическим распределениями случайно с вероятность 0,94.
Если бы эта вероятность была мала, то это означало бы, что расхождение между - теоретическим а статистические распределениями не случайно, и нулевая гипотеза должна быть отвергнута.
Некоторые замечания о критерии c 2 . Он является достаточно мощным критерием, однако ему присущи определенные недостатки:
а) в некоторых интервалах количество наблюдений мало, их приходится объединять с соседними интервалами, что может привести определенной погрешности;
б) параметры теоретического распределения находятся по статистическим данным. И хотя это учитывается уменьшением числа степеней свободы, но не гарантирует от ошибок;
в) учитывая ( a ) и принимая во внимание, что для ряда законов необходимо иметь l ≥ 4 , чтобы K= l - c -1 ≥ 1, т.е., этот критерии можно применять при числе наблюдений n ≥ 30 (чтобы в каждом интервале было не менее 8 наблюдений).
5.3. Выравнивание статистического распределения с использованием λ - критерия (критерия Колмогорова)
В 1933 году Гливенко и Колмогоров показали, что если F(x) функция распределения случайной величины ( x º t ) является непрерывной, то величина Dn равная максимальной разности теоретического и статистического значений этой функции, умноженная на , т.е.
Dn = max | (x) - F(x)| (5.13)
имеет своим пределом распределение, вычисляемое по формуле:
P{Dn£l} = (5.14)
и независимо от вида функции F(x)
Здесь: (x)- статистическая функция распределения случайной величины ( x º t ) , определяемая по объему наблюдений n;
F(x) - теоретическая функция распределения случайной величины ( x º t ) ;
n - число наблюдений (испытаний).
Критерий Колмогорова использует в качестве меры расхождения максимальную разность между F(x) и (x) ( см. рис. 5.6) .
F(x) |
F(x) |
x |
Dn |
Рис. 5.6. Графическая интерпретация меры расхождения между F(x) и (x)
Если имеется достаточно большое количество наблюдений n, то при всяком λ > 0 вероятность того, что Dn ≤ λ, обозначаемая через K(λ), равна;
P{Dn < l}= k(l) = (5.15)
Тогда
P{Dn > l}=1- k(l) = (5.16)
Следовательно, если вероятность P { Dn > l } -достаточно велика, то расхождение между (x) и F ( x ) будет случайным . В противном случае, если вероятность эта мала, то расхождение будет неслучайным и гипотеза о сходимости распределений должна быть отвергнута
Схема решения задача с помощью λ - критерия;
а) По экспериментальным данный строится статистическая функция распределения (x) и сравнивается с предполагаемые теоретическим распределением F(x);
б) Определяется максимальная разность между этими функциями, max | (x) - F ( x )|;
в) Вычисляется значение критерия λо ,
λо = max | (x) - F ( x )| ;
г) По значению λо определяется вероятность P{Dn > l о} с использованием таблиц λ - критерия (табл. 12 приложения 2).
Если эта вероятность велика, то расхождение случайно и нулевая гипотеза принимается.
Пример.
n = 170; max | (x) - F ( x )| = 0,0149; l о =0,0149 =0,194
По таблицам для λ - критерия, находим:
P{Dn > 0,194}= 1- k(0,194) = 1 , следовательно, гипотеза о нормальном распределении принимается.
Критерий Колмогорова всегда дает завышенное значение сходимости распределений.
Оценка λ критерия:
a) Метод проверки гипотезы очень прост. т.к. оценивается расхождение только в одной точке;
б) Не учитывается факт, что параметры предполагаемого теоретического распределения вычисляются по статистическим данным, поэтому, как правило, получаются завышенные результаты сходимости;
в) λ - критерий необходимо применять в случае, если известны параметры теоретического распределения (что практически редко имеет место);
г) Обычно применяется при малом объеме наблюдений, когда точность принятия решений мала, а задача решается упрощенно.
Чем меньше n , тем выше надо устанавливать критическую границу вероятности сходимости (при n = 10 ¸15 - нулевая гипотеза принимается при P{Dn > l о}³0,05; при n ≥ 100 значение P ≥ 0,01 ¸ 0,05, но при таком числе наблюдений лучше пользоваться критерием x 2.
Дата: 2018-12-21, просмотров: 288.