Проверка гипотез о законе распределения
Поможем в ✍️ написании учебной работы
Поможем с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой

Эти гипотезы также называют: гипотезы о сходимости распре­делений, выравнивание статистических распределений, подбор теоре­тического распределения.

а)  выравнивание статистического распределения с использованием  c2  - критерия (Пирсона)

Проверка гипотез о законах распределения основываются на изучении меры расхождения между статистическим и теоретический распределениями.

Предположим, что произведены наблюдения над некоторой слу­чайной величиной. Все полученные наблюдения разбиты на l интер­валов. В каждый интервал попало mi число наблюдений (рис.5.5).

f( t )
t
,  ,  , , , ,  , ,  
1 2 3    

Рис. 5.5. Интерпретация интервалов наблюдений по оси времени

 

при этом

m 1 + m 2 +· · · + ml = n  (5.7)

где n - общее количество наблюдений (испытаний);

mi- статистическое значение числа наблюдений (испытаний), попавших в i-й интервал

Обозначим  Pi  -  теоретическое значение вероятности попадания наблюдений в i интервал.  

Следовательно,

 = + + · · · +  =1 ,   (5.8)

Умножив на n ,  получим

+ + · · · +  = n ,           (5.9)

где  - теоретическое значение числа наблюдений (испытаний), попавших в i-й интервал.

При построении критерия c2 в качестве меры расхождения между статистическим и теоретическим распределениями используется расхождение между теоретической и статистической частотами.

Рассмотрим некоторую случайную величину x i, равную

 

                             (5.10)

       Величина xi распределена асимптотически нормально. Очевидно, распределение величины x i будет тем ближе к нормальному, чем будут больше величины и  то есть, когда объем наблюдений будет достаточно велик.

       Обычно требуется, чтобы = 8¸10

Рассмотрим распределение сунны величин x i 2 , то есть:

(5.11)

 

то есть величина подчиняется  c2 - распределению с числом степеней свободы

 k = l - 1, где   l - количество интервалов.

Число степеней свободы k  уменьшают на единицу, так как  накладывается условие:

                     5.12)

Кроме того необходимо учесть, что при подборе теоретического распределения eго параметры  вычисляются по данным статистических наблюдений (испытаний).  Чтобы уменьшать возникшую в связи с этим ошибку, количество степеней свободы c2 -распределения уменьшают еще на число параметров предполагаемого закона распределения. Следовательно, при проверке гипотезы о законе распределения в этом случае используют c2   - распределение с k = l - c -1 степенями свободы,  где c- число параметров теоретического распределения.

Для проверки выдвинутой гипотеза поступают двояко:

а) сравнивают вычисленное значение критерия  c2 , с его теоретическим значением ( k ), взятого при уровне значимости a и числе  степеней свободы k = l - c -1

Если при этом окажется,  что c2 £  ( k ), то принимается нулевая  гипотеза Но, если же c2 £  ( k ),то гипотеза  Но  отвергается. Однако при этом нельзя утверждать, что гипотеза Н1 справедлива;

 б) находят значение вероятности Р { c2 £  ( k )}. Если эта вероятность велика, то принимают гипотезу  Но . Это значит,  что расхождение между частостями  mi и  является неслучайным, а полученное статистическое распределение согласуется с предполагаемым теоретическим  распределением.

Чем больше объем наблюдений, тем при меньшем значении вероятности Р{ x2 ³  ( k )} можно принимать нулевую гипотезу Но.

 Считают, что при  n £  100  можно принимать Но Р ³ 0,2 ¸0,3. При больших  n значение  Р может быть взято меньше ( при n ³ 1000 ; Р ³ 0,05).

 Рассмотрим пример выравнивания статистического распределения, построенного по данным таблицы 5.1.

По данный   получено:


 

Таблица 5.1

Интервал mi  (Ti) Zi j (Zi) F(Zi) pi npi
1 2 3 4 5 6 7 8 9 10
  0,071 -1,47 -0,4292 0,0708 0,0708 12 0 0,0002
23 0,135 -0,860 -0,3050 0,1950 0,1242 21,2 0,153 0,0108
33 0,194 -0,213 -0,0987 0,4013 0,2063 35,2 0,137 0,0123
33 0,224 0,353 0,1368 0,6368 0,2355 40,0 0,100 0,0115
34 0,200 0,960 0,3315 0,8315 0,1947 33,2 0,02 0,0053
21 0,124 1,565 0,4406 0,9406 0,1091 18,7 0,283 0,0149
0,053 2,780 0,4972 0,9972 0,0566 9,7 0,050 0,0036
Суммы 170 1,00         170 0,725 Суммы

 


о  = 36,335; S 2 ( T ) = 10, 37 ; s = 3,3 .

Значения величин (таблица 5.1) вычислялись по формулам:

 = ; D Р i = - Р i,    где n = 170.

Схема решения:         

Вычисляется Zi = по таблицам функции Лапласа определяется значение Ф( Zi ) и  значение F ( Zi ) =0,5 + Ф( Zi ) ;

находится значение теоретической частоты  Р i = F ( Zi ) - F ( Zi - 1 ) и вычисляется значение n pi = 170 Pi

       определяется величина

При вычислении значений pi в качестве теоретического распределения принято нормальное.

В формуле для вычислена Zi  значение Ti берется равным значению Т для конца интервала, так например для первого интер­вала Т1 = 31,5 и

По результатам вычислений получено:

c 2= 0,725 (статистическое значение  c2 - критерия).

Находим значение  ( k )   при уровне значимости α =0,05 и числе степеней свободы K = l - с - 1 = 7 - 2 - 1 = 4, где l = 7 - число интервалов после объединения; с  = 2 - количество наложенных связей, равное количеству параметров забранного распределена (для нормального с = 2).       Находим:

 ( k )   =  (4)   = 9,49  (  по табл.. 9 приложения 2).

 

Так как x 2 = 0,725 <  (4)   =9,49, то вычисленное значение критерия не попадает в критическую область, а гипотеза о выбранном законе распределения не отвергается.

В случае использования второго способа проверки гипотезы о сходимости статистического распределения с нормальным распределением по таблицам x2 -распределения определяемся значение вероятности  ( k )   =  (4)}   

Если эта вероятность достаточно велика, это расхождение между статистический и теоретическим распределениями случайно (незначимо ) и, следовательно, нулевая гипотеза должна быть принята.

В нашем случае  ( k )   =  (4)}  = 0,94,

т.е. расхождение между статистическим и теоретическим распреде­лениями случайно с вероятность 0,94.

Если бы эта вероятность была мала, то это означало бы, что расхождение между - теоретическим а статистические распределениями не случайно, и нулевая гипотеза должна быть отвергнута.

Некоторые замечания о  критерии c 2 . Он является достаточно мощным критерием, однако ему присущи определенные недостатки:

а) в некоторых интервалах количество наблюдений мало, их приходится объединять с соседними интервалами, что может привести определенной погрешности;

б) параметры теоретического распределения находятся по статистическим данным. И хотя это учитывается уменьшением числа степеней свободы, но не гарантирует от ошибок;

в) учитывая ( a ) и принимая во внимание, что для ряда законов необходимо иметь l ≥ 4 , чтобы K= l - c -1 ≥ 1, т.е., этот критерии можно применять при числе наблюдений n ≥ 30 (чтобы в каждом интервале было не менее 8 наблюдений).

 

5.3. Выравнивание статистического распределения   с использованием  λ - критерия  (критерия Колмогорова)

В 1933 году Гливенко и Колмогоров показали,  что если F(x)  функция распределения случайной величины ( x º t )   является непрерывной, то величина  Dn  рав­ная максимальной разности теоретического и статистического значе­ний этой функции, умноженная на  , т.е.

Dn = max | (x) - F(x)|             (5.13)

имеет своим пределом распределение, вычисляемое по формуле:

P{Dn£l} = (5.14)

и независимо от вида функции F(x)

       Здесь: (x)- статистическая функция распределения случай­ной величины ( x º t )  , определяемая по объему наблюдений n;

       F(x) - теоретическая функция распределения случайной величины ( x º t )   ;

       n - число наблюдений (испытаний).

       Критерий Колмогорова использует  в качестве меры расхождения  максимальную разность между F(x) и (x)  ( см. рис. 5.6) .

F(x)
F(x)
x
 
Dn

Рис. 5.6. Графическая интерпретация меры расхождения  между F(x) и   (x)

       Если имеется достаточно большое количество наблюдений n, то при всяком λ > 0 вероятность того, что Dn  ≤  λ, обоз­начаемая через K(λ), равна;

P{Dn < l}= k(l) = (5.15)

Тогда

       P{Dn > l}=1- k(l) = (5.16)

Следовательно, если вероятность  P { Dn > l } -достаточно велика, то расхождение между (x) и F ( x ) будет случайным . В противном случае, если вероятность эта мала, то расхождение будет неслучайным и гипотеза о сходимости распределений должна быть отвергнута

Схема решения задача с помощью λ - критерия;

а) По экспериментальным данный строится статистическая функция распределения (x) и сравнивается с предполагаемые теоретическим распределением F(x);

б) Определяется максимальная разность между этими функциями, max | (x) - F ( x )|;

в) Вычисляется значение критерия λо ,

 λо = max | (x) - F ( x )| ;       

г) По значению λо определяется вероятность P{Dn > l о} с использованием таблиц λ - критерия (табл. 12 приложения 2).

Если эта вероятность велика, то расхождение случайно и нулевая гипотеза принимается.

Пример.

n = 170;     max | (x) - F ( x )|   = 0,0149;       l о =0,0149 =0,194

По таблицам  для λ - критерия, находим:

P{Dn > 0,194}= 1- k(0,194) = 1 , следовательно, гипотеза о нормальном распределении принимается.

Критерий Колмогорова всегда дает завышенное значение сходимости распределений.

Оценка  λ  критерия:

a) Метод проверки гипотезы очень прост. т.к. оценивается расхождение только в одной точке;

б) Не учитывается факт, что параметры предполагаемого теоре­тического распределения вычисляются по статистическим данным, поэтому, как правило, получаются завышенные результаты сходимости;

в) λ - критерий необходимо применять в случае, если известны параметры теоретического распределения (что практически редко имеет место);

г) Обычно применяется при малом объеме наблюдений, когда точность принятия решений мала, а задача решается упрощенно.

Чем меньше n , тем выше надо устанавливать критическую границу вероятности сходимости (при n = 10 ¸15 - нулевая ги­потеза принимается при P{Dn > l о}³0,05; при n ≥ 100  значение P ≥ 0,01 ¸ 0,05, но при таком числе наблюдений лучше пользоваться критерием   x 2.



Дата: 2018-12-21, просмотров: 255.