Работа с частотами как результатом измерения ЗП

Поможем в ✍️ написании учебной работы

Имя

Поможем с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой

Нажимая кнопку "Продолжить", я принимаю политику конфиденциальности

Специфика данных – это положительные целые числа и нули.

Если регистрируемые частоты редкие данные – это Пуасоновское распределение, если более частые – нужно использовать как распределение биноминальную негативную модель.

Для Пуасоновского распределения два вида данных – с постоянным интервалом наблюдения (число всех возможных исходов константно), и с переменным – когда для разных наблюдений разный интервал наблюдения (тогда нужно оценивать не абсолютные, а относительные частоты).

Данные – файл ch7data1.sav: 9956 старшеклассников 9 класса из 44 школ.

Как показал Хокс (2001), при выборках небольшого размера не всегда для всех наблюдений среднее совпадает с дисперсией (как положено для Пуасоновского распределения: σ ), поэтому компенсации этого недостатка следует использовать опцию робастной оценки стандартной ошибки.

Одноуровневые модели.

η _i = log ( ) = β₀

Или оценивается к-т, равный натуральному логарифму параметра пуасовновского распределения. В данном случае интерсепт без предикторов интерпретируется как логарифм ожидаемой частоты провала хотя бы одного курса ( ) первокурсником старшей школы по всей выборке школьников (процедура GENLIN): с вероятностью 0,602 школьник завалит в этом семестре хоть один курс.

Параметр	B	Проверка гипотезы			Exp(B)
Параметр	B	Хи-квадрат Вальда	ст.св.	Знч.	Exp(B)
(Константа)	-,508	1544,799	1	,000	,602
(Масштаб)	1^a

Логарифм для распределения Пуасссона – это каноническая функция связи.

Можно также подсчитать по формуле вероятность провала 1, 2, 3 или 4 курсов: 0,33 – 0,099 – 0,02 – 0,003 (с. 332).

Далее включим в модель три фактора: SES, пол, тест по математике и возраст:

η _i = log ( ) = β ₀ +SES + male + math +age

Все факторы укажем как ковариаты:

Параметр	B	Стд. Ошибка	Проверка гипотезы			Exp(B)
Параметр	B	Стд. Ошибка	Хи-квадрат Вальда	ст.св.	Знч.	Exp(B)
(Константа)	-2,473	,5220	22,442	1	,000	,084
lowses	,344	,0372	85,532	1	,000	1,411
male	,168	,0358	21,902	1	,000	1,182
math	-,007	,0003	611,736	1	,000	,993
age	,242	,0375	41,721	1	,000	1,274
(Масштаб)	1^a

Интерпретация:

- SES: при переходе от 0 к 1 (т.е. к малообеспеченным) на 41% увеличивается вероятность провала курса:

- Male: для мальчиков (1) вероятность на 18% больше,

- чем старше школьник, тем выше вероятность провала: на каждый год по 27%,

- чем выше уровень по математике, тем ниже вероятность провала: на каждую сигму по 0,7%.

Проблема переоценки дисперсии в распределении Пауссона:

- scale-factor по умолчанию устанавливается 1, это правильно при тоной оценке дисперсии;

- хороший показатель оценки дисперсии – отношение дисперсии модели к числу степеней свободы, он д.б. около 1:

Статистики согласия^a
	Значение	ст.св.	Значение/ст.св.
Уклонение	14322,071	9951	1,439
Масштабированное уклонение	14322,071	9951
Хи-квадрат Пирсона	17971,844	9951	1,806
Масштабированное значение хи-квадрат Пирсона	17971,844	9951
Log-правдоподобие^b	-10926,549
Информационный критерий Акаике (AIC)	21863,098
Скорректированный информационный критерий Акаике (AICC) для выборки конечного объема	21863,104
Информационный критерий Байеса (BIC)	21899,127
Состоятельный информационный критерий Акаике (CAIC)	21904,127

- в случае расхождения можно использовать более общую модель – отрицательное биноминальное распределение (второй вариант обработки данных типа частоты) с логарифмической функцией связи, позволяющую работать с переоценкой дисперсии (Хокс, 2010); в этом случае нужно указать вспомогательный параметр – внизу окна (0 или 1, или что-то еще); сравнить хорошесть подгонки данных под модель можно с помощью 2-х инфоромационных критериев AIC и BIC.

Двухуровневые модели

Используем процедуру GENLIN MIXED, 4 фиксированными факторами и робастным оцениванием коэффициентов – это одноуровневая модель. Объект в данной модели – это школы.

Далее оценим 2-х уровневую необусловленную модель:

η _ij = log ( ) = β₀ _j

(т.е. с одним интерсептом, варьирующим на уровне школ - 2 –ом уровне):

Это означает, что по всем школам вероятность провала курса для учеников – 0,496.

Кроме того, установлена достоверная вероятность вариации (0,220) такой вероятности между школами (изменчивость на втором уровне):

Из этого можно оценить вероятность провала по 1 курсу:

P(Y=1) = (e^-0,496)(0,496)/1! = 0,302

Включим в модель фиксированные факторы и рассмотрим их влияние на 2-ом уровне – с учетом вариации по школам:

η _ij = log ( ) = β _0j + b1SES +b2male + b3gmmath + b4gmage

Интерпретация:

1. Интерсепт показывает, что средняя девочка со средним или высоким семейным доходом и со средним возрастом и средним рейтингом по математике имеет вероятность завалить курс 0,346.

2. Все предикторы оказывают значимое влияние на ЗП.

3. Дисперсия между школами также значима.

Обработка с помощью отрицательного биноминального распределения дает немного лучшую подгонку.

Включим в модель еще один случайный фактор – SES, и рассмотри его возможную вариацию по школам. Оказалось, что эта вариация не значима:

Добавление в модель межуровневые взаимодействия – т.е. одни факторы связаны с уровнем индивидуальности испытуемого, другие – с контекстом самой школы

В модель добавляются два школьных фактора (стаж и наличие лицензии у учителя) и их взаимодействие с SES. Эти факторы обеспечивают новый источник вариации – факторов перового уровня (наклон регрессионной прямой) на втором уровне (разные интерсепты).

Для оценки связи между интерсептом и наклоном, как третьего компонента ковариационной матрицы, выберем тип неструктурированной ковариационной матрицы.

UN (1,1) – вариация интерсептов на втором уровне,

UN (2,1) – вариация факторов 1 и 2 уровней, т.е. наклона и интерсепта,

UN (2,2) – вариация SES на втором уровне.

Дата: 2019-02-19, просмотров: 447.

⇐ Предыдущая 1 2 3 4 5 678 Следующая ⇒