Проверка гипотезы случайности выборки

Поможем в ✍️ написании учебной работы

Имя

Поможем с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой

Нажимая кнопку "Продолжить", я принимаю политику конфиденциальности

Для описания и изучения свойств генеральной совокупности по выборке из нее необходимо, чтобы выборка была репрезентативной (представительной). Репрезентативной может быть только случайная выборка. Напомним, что выборка считается случайной, если все объекты генеральной совокупности имеют равную возможность попасть в выборку.

Для проверки гипотезы случайности выборки может быть использовано два способа: способ последовательных разностей и способ числа и длины серий. Если можно допустить, что в течение наблюдений центр распределения величины х постепенно меняется, но дисперсия остается постоянной, то для проверки гипотезы «случайности» выборки является удобным и вполне приемлемым способ последовательных разностей. Такой случай часто имеет место при наблюдениях за размерами обрабатываемых деталей на настроенном станке, когда, вследствие износа инструмента, нагревания станка, циклических погрешностей многопозиционных станков и т. п., центр рассеивания постепенно смещается и, таким образом, происходит медленное и достаточно плавное изменение средней при неизменном стандарте σ, характеризующем рассеивание размеров.

Способ последовательных разностей заключается в следующем: по наблюденным значениям х _i выборки, расположенным в последовательности их наблюдения: х₁, х₂, х₃, . . ., х _n, образуют n - 1 разностей между соседними членами:

a₁ = х₂ – х₁;

a₂ = х₃ – х₂;

…………..;

a_n _-₁ = х _n – х _n_-1;

Доказано, что если выборка взята из генеральной совокупности с параметрами и σ², то математическое ожидание Ма² величины a² будет равно:

Ма² = 2s². (1)

Так как состоятельной и несмещенной оценкой математического ожидания является средняя арифметическая, то взяв среднюю арифметическую из величин и разделив ее на два, мы получим несмещенную оценку σ² по данным выборки, которую обозначим c²:

. (2)

С другой стороны, для обычной несмещенной оценки σ² имеем

Таким образом, мы имеем две несмещенные оценки σ²: c² и s². Когда центр распределения ( ) изменяется достаточно медленно и плавно при неизменном σ², это мало скажется на последовательных разностях, а следовательно, и на величине c². Однако это изменение значительно отразится на величине s², так как в формулу вычисления последней входит непосредственно величина .

В связи с указанным для оценки «случайности» выборки при наличии возможности смещения центра рассеивания (при неизменном σ) целесообразно использовать критерий t:

(3)

При этом малые значения t следует считать указывающими на неверность гипотезы «случайности» выборки.

При n > 20 критерий t будет иметь нормальное распределение, если выборки будут действительно случайны. Поэтому критическая область для t, отвечающая q % уровню значимости при n > 20, будет определяться неравенством , в котором

Значение t_q определяется из соотношения .

Откуда

Заметим, что функция является функцией Лапласа . Зная по таблице П1 приложения можно определить . Например, n = 24 при q = 5%, . По таблице П1 приложения этому значению функции соответствует t_q =1,65, следовательно, . Если вычисленное по данным 24-х наблюдений τ будет меньше 0,67, то это укажет на неверность нашей гипотезы о «случайности». Если же τ окажется больше 0,67, то гипотеза «случайности» будет верна с вероятностью .

Пример 1. n = 20, s² = 0,133 мм², с² = 0,127.

По таблице 1 при n = 20 нижняя граница для критерия t при 5%-ном уровне значимости равна , т. е. . Следовательно, гипотеза «случайности» верна.

Таблица 1. Нижние пределы значений критерия t_q

Число наблюдений n	Уровни значимости q		Число на-блюдений n	Уровни значимости q			Число на-блюдений n	Уровни значимости q
Число наблюдений n	1%	5%	Число на-блюдений n	1%		5%	Число на-блюдений n	1%	5%
4	0,256	0,390	10	0,376		0,531	16	0,475	0,614
5	0,269	0,410	11	0,397		0,548	17	0,487	0,624
6	0,281	0,445	12	0,414		0,564	18	0,499	0,633
7	0,307	0,468	13	0,431		0,578	19	0,510	0,642
8	0,331	0,491	14	0,447	0,591		20	0,520	0,650
9	0,354	0,514	15	0,461	0,603

Способ длины и числа серий. Пусть имеется последовательность, в которой наблюдается случайное чередование m элементов, состоящее из n₁ элементов первого рода и n₂ элементов второго рода. Если обозначить элементы первого рода буквой a, а элементы второго рода буквой b, то такую последовательность можно представить в виде чередования букв a и b, например:

a a a b b a a b a a b b b b a a b b a b.

Данная последовательность состоит из 10 элементов a и 10 элементов b, т. е. n₁ = 10, n₂ = 10 и m = n₁ + n₂ = 10 + 10 = 20.

Совокупность следующих друг за другом одинаковых элементов называется серией. Число элементов, входящих в серию, называется длиной серии. В нашем примере последовательность состоит из 10 серий, в том числе имеется 5 серий из элементов a и 5 серий из элементов b. Эти серии расположены в следующей последовательности: серия a состоит из трех элементов, серия b – из двух, серия a – из двух, серия b – из одного элемента и т. д. Следовательно, длины этих серий равны: 3, 2, 2, 1 и т. д. Обозначим буквой K наибольшую длину серии любого элемента, а буквой R — общее число серий элементов a и b. В нашем примере K = 4, R = 10.

Для величин K и R в случайных выборках из совокупностей с непрерывным распределением найдены законы их распределения. С помощью этих законов вычислены критические значения K и R в случайных выборках объема n = 10 200 при доверительном уровне вероятности q = 0,05 (таблицы 2, 3). Эти критические значения K и R используются в качестве критериев для проверки гипотезы «случайности» выборки.

Таблица 2. Критические значения наибольшей длины серии K в случайных выборках объема n при доверительной вероятности q = 0,05

n	10	14	22	34	54	86	140	230
K	5	6	7	8	9	10	11	12

Таблица 3. Критические значения чисел серий R в случайной выборке объема n

при доверительной вероятности q = 0,05:

n	10	20	30	40	50	60	80	100	120	140	160	180	200
R	3	6	11	15	19	24	33	42	51	60	70	79	88

Из приведенных в таблице 1 данных следует, что, например, в выборке объема n = 10, если она случайна, появление серии длиной K = 5 или более имеет вероятность q = 0,05. Такую же вероятность имеет появление серии длиной K ≥ 6 для выборок объема n = 11 14.

Так как вероятность q = 0,05 очень мала, а маловероятные явления практически осуществляются очень редко или почти не осуществляются, то появление в выборке объема n = 10 серии длиной K = 5 или более укажет на то, что данная выборка является не случайной.

Из приведенных в таблице 2 данных следует, что, например, в выборке объема n = 10, если она случайна, можно встретить общее число серий R ≤ 3 только с вероятностью q = 0,05, а в выборке объема n= 41 50 с такой же вероятностью можно встретить R ≤ 19. Поэтому, если в действительности в выборках объема n встретится такое общее число серий R, какое указано выше для соответствующего n или менее этого числа R, то в силу принципа практической невозможности маловероятных явлений надо считать наблюденное число серий, а следовательно, и выборку не случайными.

Таким образом, если обозначим наблюденное значение длины серии в выборке буквой K_н, а наблюденное значение общего числа серий R_н, то для принятия гипотезы случайности выборки необходимо выполнение следующих двух условий одновременно:

K_н < K, R_н > R,

где К и R — табличные значения критерия для соответствующих значений n.

Для того чтобы гипотезу случайности отвергнуть, достаточно наличие хотя бы одного из двух условий:

K_н ≥ K, R_н ≤ R.

Сама процедура проверки гипотезы «случайности» выборки из генеральной совокупности с непрерывным распределением заключается в следующем.

Берется выборка объема n и значения ее членов x_i (например, действительных размеров) записываются в порядке извлечения экземпляров выборки. Затем определяется медиана Me наблюденного ряда значений x_i и производится разбивка наблюденного ряда значений на два класса: на большие медианы и меньшие медианы. Значения x_i большие или равные медиане, обозначают буквой а, значения x_i меньшие медианы, буквой b. Таким образом, вся последовательность наблюденного ряда значений x_i разбивается на элементы а и b, где

a = x_i ≥ Me, b = x_i < Me.

Составив последовательность из элементов а и b, определяют наибольшую длину серии K_н и общее число серий R_н. Затем сравнивают K_н и R_н с табличными значениями этих критериев и по результатам сравнения принимают или отвергают нулевую гипотезу. Нулевая гипотеза всегда заключается в том, что выборка предполагается «случайной».

Пример 2. С автомата, обрабатывающего ролики диаметром D =20_-0,16 мм, взята текущая выборка объема n = 20. Действительные размеры роликов в порядке их изготовления имеют следующие значения: 19,89; 19,92; 19,87; 19,86; 19,89; 19,90; 19,95; 19,84; 19,90; 19,88; 19,91; 19,88; 19,93; 19,92; 19,84; 19,86; 20,0; 19,92; 19,94; 19,96.

Необходимо установить, является ли данная выборка случайной. Другими словами, выяснить, не было ли смещения центра распределения размеров в период отбора пробы.

Для проверки гипотезы случайности выборки воспользуемся критериями K и R. С этой целью сначала определим медиану наблюденного ряда значений размеров.

После расположения этого ряда в возрастающем порядке: 19,84; 19,84; 19,86; 19,86; 19,87; 19,88; 19,88; 19,89; 19,89; 19,90; 19,90; 19,91; 19,92; 19,92; 19,92; 19,93; 19,94; 19,95; 19,96; 20,00 оказалось, что Me = 19,90 мм. Теперь представим наблюденный ряд значений размеров D _i в порядке изготовления роликов на станке в виде последовательности элементов a = D_i ≥ Me и b = D_i < Me:

b а b b b а a b a b a b a a b b a a a a.

В полученной последовательности наибольшая длина серии равна K_н = 4, а общее число серий R_н = 12. По приведенным в таблицах 2, 3 критическим значениям длины серии К и чисел серии R имеем для n = 15 22 К = 7, а для n = 20 R = 6. Так как K_н < K и R_н > R, то наша гипотеза случайности выборки может быть принята.

Дата: 2019-02-25, просмотров: 958.

⇐ Предыдущая 10 11 12 13 141516 17 18 19 Следующая ⇒