Модели с порядковыми измерениями ЗП

Поможем в ✍️ написании учебной работы

Имя

Поможем с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой

Нажимая кнопку "Продолжить", я принимаю политику конфиденциальности

В этих моделях предикторы могут быть как категориальными переменными, так и количественными ковариатами.

Порядковые модели предсказывают вероятность того, что ответ был дан на k-ой категории или ниже:

P(Y ≤ c) = π₁ + π₂+ … +π_с

Поскольку модель представляет собой формулировку накопленной вероятности, то вероятность появления ранга с _i или выше выражается как:

P(Y ≥ c) = 1 - P(Y ≤ c)

В отличии от вероятности отдельного события, в комулятивной (или пропорциональной) модели эта вероятность рассматривается как вероятность интересующего нас ранга и всех предшествующих ему рангов.

Например (как в рассматриваемом ниже файле), если ЗП имеет 3 упорядоченных категории (1 – отчислен из вуза, 2 – до сих пор числится, 3 – окончил вуз) для респондента i накопленные вероятности (в сумме равны 1) будут такими:

P(Y_1i =1) = P(c_i =1) = π_1i

P(Y_2i =1) = P(c_i =1) + P(c_i =2) = π_2i

P(Y_3i =1) = P(c_i =1) + P(c_i =2) + P(c_i =3) = 1

Чаще всего распределение рангов представляется в виде модели мультиноминальным распределением и комулятивной логит или комулятивной пробит функциями связи.

Оценка комулятивной вероятности появления в данных ранга с _i и ниже определяется по отношению в референтной c-ой категории, соответствующее отношение правдоподобия будет следующим:

η_ic = log(P(Y ≤ c)/P(Y >c) = log (π_i/1- π_i), где с – ранговые категории.

Нужно иметь в виду, что в порядковых регрессионных моделях мы имеем дело не с вероятностями реальных данных, а с отношениями правдоподобия кумулятивных вероятностей модельных коэффициентов. Ключевая особенность порядковых моделей состоит в том, что для все регрессионных прямых допускается один и тот же наклон, что означает, что выбранные предикторы оказывают одно и тоже влияние на все порядковые категории (как в параллельных регрессионных моделях). Фактически в этих моделях предполагается, что для каждой категории существует свой порог (величина влияния предиктора η_ic), выше которого дается соответствующий ответ: если величина предиктора меньше первого порога, то дается наименьшая категория, если больше первого порога и меньше равна второму порогу – наблюдается вторая категория, и, если η_ic больше второго порога – наблюдается третья категория.

Поскольку пропорциональная вероятностная модель с комулятивной логит функцией связи фактически оценивает вероятность попадания ЗП переменной в отдельную категорию с или ниже ее (P(Y ≤ c), а Х – величина предиктора), то в литературе эта модель описывается такой линейной функцией:

η _ic = log ( π_ic /1- π_ic ) = a_c – b Х ,

где а – это увеличивающийся порог, разделяющий латентную переменную η_ic на ожидаемые вероятности Y. Каждая логит-модель имеет свой порог (а) и наклон регрессионных прямых, равный для всех категорий – b.

Способ кодировки рангов определяет направление отношение правдоподобия и знак к-та b. Этот к-т (или бета) в таких моделях отражает увеличение в единицах отношения правдоподобия попадание ранга в категорию c и ниже в сравнении с опорной боле высокой категорией при увеличении Х на одну единицу. Таким образом, положительный к-т бета увеличивает отношение правдоподобия появления более самой высокой (референтной) категории (поскольку уменьшает вероятность оцениваемой относительно нее категории!), а отрицательный к-т – уменьшает. Поэтому знак к-тов в кумулятивной вероятностной модели нужно рассматривать наоборот по сравнению с соответствующей моделью множественной регрессии. Эта важно иметь в виду при интерпретации результатов: какая вероятность уменьшается или увеличивается относительно какой.

В СПСС допускается кодировать ЗП, упорядочивая их значения от меньшего к большему.

В разных пакетах (HLM, SPSS, Mplus)знак отношения правдоподобия может оцениваться по-разному. Это нужно иметь в виду при интерпретации результатов.

Очень полезно для каждой рейтинговой категории построить и проанализировать таблицу средних значений каждого предиктора, тогда будет проще оценивать полученные статистические результаты.

Пример - файл ch6data2.sav: что влияет на вероятность продолжения обучения в вузе. 6983 студента из 934 вузов.

Сначала строим одноуровневую модель порядковых данных с помощью процедуры GENLIN, модель – порядковая логистическая:

η _ic = log ( π_ic /1- π_i ) = a_c + b₁ Х _zses + b₂ Х _hiabsent

Первый член – вклад школьного фактора (стандартизированные оценки соц-эконом. статуса студентов), второй – индивидуального (много – 1, или мало прогуливает - 0).

Оценки параметров модели:

- важно иметь в виду, что СПСС для интерпретабельности результатов инвертирует знаки коэффициентов (см. выше формулу и соответствующие пояснения);

- при константности остальных предикторов уровень SES позитивно связан с вероятностью остаться и продолжить обучение в вузе – увеличение SES на 1 сигму приводит к увеличению отношения правдоподобия на 0,925; т.е. чем выше этот уровень, тем более высока вероятность для студента продолжить обучение в вузе (или соответствовать более высокой рейтинговой категории ЗП);

- в логистических моделях для порядковых данных отношение правдоподобия представляет собой вероятность появления более высокой категории по сравнению со всеми более низкими категориями для каждой категории при увеличении предиктора на 1 единицу (в этом смысле очень удобно использовать стандартизированные значения НЗП – это отмечают и сами авторы книги); в данном примере при увеличении SES на 1 сигму вероятность перехода ЗП в след категорию увеличивается в 2,522 раза;

- и наоборот, отрицательные значения частоты прогулов уменьшают вероятность появления у ЗП более высокой категории, т.е. снижают шанс студента доучиться до конца (референтная категория – студенты с низким уровнем прогулов): вероятность студентов с кодом 1 (много прогуливают) увеличивает их шанс быть отчисленными на 18,9%. Тоже самое: уменьшение прогулов на 1 единицу увеличивает почти в 5 раз вероятность продолжить обучение.

Параметр		B	Проверка гипотезы			Exp(B)
Параметр		B	Хи-квадрат Вальда	ст.св.	Знч.	Exp(B)
Пороговое значение	[persist3=0]	-2,438	2793,506	1	,000	,087
Пороговое значение	[persist3=1]	-2,043	2352,843	1	,000	,130
hiabsent		-1,664	256,633	1	,000	,189
zses		,925	576,636	1	,000	2,522
(Масштаб)		1^a

Оценим эффект взаимодействия этих двух факторов:

η _ic = log ( π_ic /1- π_i ) = a_c + b₁ Х _zses + b₂ Х _hiabsent + b₁ Х _zses × b₂ Х _hiabsent

Для этого во вкладке «Модель» нужно сначала установить «Взаимодействие», а затем, выделив оба фактора, перетащить их в правое окно – тогда в модель включиться эффект взаимодействия..

В результате получаем незначимый эффект межфакторного взаимодействия, т.е. прогулы снижают роль SES как предиктора вероятности студента доучиться до конца.

Пример 2: многоуровневая порядковая модель. Для этого используем процедуру GENLINMIXED.

Сначала рассмотрим необусловленную модель, т.е. модель без предикторов с одним интерсептом. Для респондента i и школы j имеем следующее выражение:

η _cij = log ( π_cij /1- π_cij ) = a_c + b _о _j

Отметим, что интерсепт – первый порог, может варьировать по школам, но второй порог – это фиксированный параметр.

Используем мультноминальную логистическую регрессию, модель с двумя фиксированными факторами (два интерсепта – для категории 0 и 1) и одни случайный фактор (вариация интерсептов по школам).

Оценив интерсепты по каждой категории, можно получить оценки вероятности для каждой из категорий - η _cij = log ( π_cij /1- π_cij ):

Для категории 0: 0,124/1+0,124 = 0,110

Для категорий 0+1, кумулятивно: 0,181/1+0?181=0,153 или для одной категории 1:

0,153 – 0,124 = 0,042.

Анализ компонентов ковариации показывает значимую вариацию оценок по школам.

Далее включим в модель два фактора – SES как предиктор школьного уровня и одни индивидуальный – прогулы. Результат:

1) при увеличении SES на 1 сигму, в 2, 427 раза повышается вероятность продолжения обучения,

2) при переходе к прогулам (от 0 к 1) вероятность продолжения обучения всего 0,18 или она снижается на 82%.

Для тех случаем, когда ранги распределены неравномерно – есть маленькие и большие частоты при измерении ЗП, обычно используют кумулятивную дополняющую лог-лог функцию связи.

Важно, что для процедуры GENLINMIXED имеет значение, какой указан уровень измерения ЗП – номинальный или порядковый! Тем не менее, стоит иметь в виду, что мультноминальная модель игнорируют упорядоченность категорий.

Дата: 2019-02-19, просмотров: 389.

⇐ Предыдущая 1 2 3 4 567 8 Следующая ⇒