Описание ряда методов анализаноминальных данных. Придадим цельность нашему изложению путем установления связи между этими методами посредством прослеживанияопределенного родства заложенных в этих методах моделей. Сделаемэто посредством выработки единого основания для классификациивсех рассматриваемых алгоритмов, основания, связанного с определенной типологией социологических задач.
Предлагаемое основание будет опираться на то обстоятельство,что для социолога важно осознание необходимости определенной диалектики в понимании признака и его значений: выделение ситуаций,когда отдельной альтернативе имеет смысл придать статус самостоятельного признака.
Приведем пример. Нас может интересовать, каким является отвечающее респонденту значение признака "профессия", а может – является ли этот респондент или не является учителем. Во второмслучае мы придали статус признака одному значению признака "профессия" – тому, которое называлось "учитель". К такому переходунас подталкивает не желание пооригинальничать, а стремление адекватно решать стоящие перед социологом задачи. Скажем, изучая связи между рассматриваемыми переменными, мы можем придти к выводу,что профессия никак не связана с полом (забегая вперед, скажем,что такой вывод можно сделать, использовав какой-либо из известныхкоэффициентов связи, рассчитывающихся на базе таблицы сопряженности "пол–профессия", скажем, критерий "Хи-квадрат", см. п. 2.3.1). Тем не менее, та же статистика может нам говорить, что почти все учителя –женщины, т.е. что соответствующее отдельное значение признака"профессия" связано с полом. Чтобы не "упустить" эту "локальную"связь, мы и должны рассмотреть отдельный дихотомический признак"быть учителем" с целью измерения величины его связи с признаком"пол".
Описанное требование можно обобщить: самостоятельной переменной может отвечать не одно значение некоторого признака, а сочетание таких значений (скажем, при решении ряда задач имеетсмысл объединить, учителей и врачей вместе), каждое изкоторых соответствует, вообще говоря, своему признаку (о такихситуациях, когда объединяются альтернативы разных признаков, пойдет речь в п.2.5).
Два слова о терминах. В работе [Чесноков, 1982] предлагается называтьглобальнымикоэффициенты парной связи, рассчитывающиеся на основе учета всех градаций рассматриваемых признаков, и локальными– коэффициенты связи, рассчитывающиеся на основе учета одной градации одного признака и одной градации другого. Нам представляется неприемлемым деление всех показателей на глобальные и локальные,поскольку при таком подходе из рассмотрения (во всяком случае натерминологическом уровне), выпадают связи "промежуточных" видов:такие, когда учитываются несколько градаций каждого признака. Однако термин “локальная связь” мы будем использовать, понимая под таковой связь между отдельными альтернативами.
Заметим, что приведенные выше соображения имеют самое непосредственное отношение к проблеме социологического измерения, к анализу понятия"признак" и, в конечном счете, к проблеме операционализации понятий, к изучению перехода от реальных многогранных объектов к ихузкому, всегда ограниченному описанию набором некоторых признаков (к "мышлению признаками", по выражению автора работы [Ноэль, 1993]).
Описанные ситуации возникают в силу того, что, с одной стороны, само понятие признака имеет смысл только при некоторой однокачественности тех объектов, для которых значения признаков вычисляются; с другой стороны, – каждому значению признака отвечает свое собственное качество. Понятие однокачественности относительно. На разных этапах исследования может возникнуть потребность однокачественные объекты считать разнокачественными и наоборот. Так, выше мы показали, что бывают ситуации, когда однокачественными объектами мы считаем всех тех и только тех респондентов, которые имеют профессию учителя. Человек же с профессиейврача в такой ситуации будет иметь другое качество. При изучениипроблем интеллигенции учитель и врач могут стать однокачественными объектами. Если же мы работаем с признаком "профессия" какединым целым, то тем самым полагаем, что этот признак отражаетсуществование некоторого социального института и однокачественными являются все члены такого общества, в котором этот институтимеется.
В обосновании необходимости "склеивания" отдельных значенийразных (вообще говоря) признаков просматривается актуальность решения следующей проблемы социологического измерения: чтобы отразить латентные свойства объекта, мы вынуждены "выдергивать" отдельные значения разных признаков, формировать из этих "надерганных" значений различные комбинации, надеясь, что какое-то сочетание хотя бы частично явится индикатором определенного "поведения"объекта.
Дальнейшее обобщение требования склеивания отдельных градаций приводит к осознанию возможности рассмотрения в качестве нового признака не сочетания отдельных альтернатив, а сочетаниянескольких признаков.Соответствующее обобщение проблемы измерения очевидно: новым измеряемым признаком является здесь комбинация исходных признаков.
Продолжая ту же логику, естественно приходим к необходимости рассмотрения всех признаков сразу как единой системы.
Выделение перечисленных возможностей мы будем рассматриватькак основу для дальнейшего изложения (в частности, для классификации методов анализа связей номинальных признаков).
Итак, в соответствии с предлагаемой точкой зрения, каждыйрассматриваемый метод можно трактовать как реализацию следующегопроцесса: все исходные номинальные признаки как бы "рассыпаются"на отдельные градации, которые затем по-разному комбинируются, наих основе строятся новые признаки, взаимоотношения которых далееизучаются. Каждый метод анализа связей номинальных данных предлагается рассматривать как метод поиска либо связей между разнымигруппами альтернатив, либо групп альтернатив, определяющих некоторое поведение респондентов (задаваемое разными способами). Методы систематизируются в зависимости от отвечающих им способовагрегирования отдельных альтернатив в новые признаки.
Использование предлагаемого подхода, на наш взгляд, побуждает исследователя не забывать о существовании многих методов,весьма адекватных социологическим задачам, но мало используемыхсоциологами.
В данном разделе мы будем рассматривать методы, которые включаются в указанную классификацию. Но прежде, чем более подробно ее описать (что будет сделано в п. 2.2.2), представляется важным рассмотреть один момент, позволяющий лучше понять, как модели, заложенные в интересующих нас методах, соотносятся с моделями других известных методов анализа данных (о других моментах такого рода см. п. 2.2.3).
Нетрудно заметить, что упомянутые выше задачи (и отвечающие им методы), связанные с поиском групп альтернатив, определяющих некоторое поведение респондентов, очень похожи на задачи поиска того, что в математической статистике (в частности, в дисперсионном и регрессионном анализе; описание первого можно найти, например, в [Статистические методы..., 1979], о втором пойдет речь в п.2.6), называется взаимодействием.
Напомним, что использование этого термина предполагает выделение среди всех признаков главного признака (зависимого, выходного, целевого, объясняемого, результирующего, признака-функции, признака-следствия) и группы детерминирующих его признаков (независимых, входных, объясняющих, предикторов, признаков - аргументов, признаков-причин; подробнее о подобных терминах см. п. 2.5.3.1). “Взаимодействие” означает сочетание значений независимых признаков, определяющих тот или иной уровень зависимого (заметим, что в дисперсионном анализе зависимый признак предполагается количественным, т.е. таким, значения которого получены по крайней по интервальной шкале; а совокупность независимых признаков фиксируется). Например, при изучении миграционного поведения взаимодействием может служить свойство респондента одновременно быть мужчиной (т.е. обладать, скажем, значением “1” признака 4 - “пол”) и иметь высшее образование (т.е. обладать, например, значением “5” признака 6 - “образование”), если это свойство детерминирует желание обладающего им человека уехать за границу.
Роль поиска взаимодействий в эмпирической социологии вряд ли можно преувеличить. Однако представляется, что потребность практики делает целесообразным расширение этого понятия. Для того, чтобы пояснить, каким способом это можно сделать, попытаемся вдуматься в смысл того, что значит делать какие-то выводы в терминах рассматриваемых (номинальных) признаков. Вероятно, исходя из здравого смысла, подобные выводы должны иметь вид (мы имеем в виду формальную структуру того статистического утверждения, которое служит социологу основой для дальнейших выводов о причинно-следственных отношениях):
“5-е значение 8-го признака часто встречается с 3-м значением 14-го и 1-м значением 2-го”, “из того, что 3-й признак принимает 2-е значение одновременно с тем, что 4-й принимает 5-е значение, как правило, следует, что 6-й признак принимает либо 2-е, либо 3-е”, “из того, что 3-й признак принимает какое-либо значение, кроме 2-го, следует, что 7-й признак принимает 4-е значение” и т.д. (надеемся, что для понимания сказанного не требуется более конкретно формулировать подобные утверждения: скажем, указывать, что 3-й признак - это возраст, его 5-е значение - указание того, что возраст конкретного респондента заключён в интервале от 35 до 40 лет и т.д.).
(Выражения, подобные сформулированным, являются наиболее естественными для социолога. Они отвечают сути номинальных шкал, тому, что каждое значение признака означает самостоятельное автономное качество объекта. Однако исследователь зачастую стремится по-другому формулировать искомые содержательные выводы, вольно или невольно вписывая их в традиционные рамки классических математико-статистических формулировок: “такие-то два признака имеют сильную статистическую связь”, “второй признак линейно зависит от седьмого” и т.д. Можно показать, что такие формулировки тоже могут быть "переведены" на язык наших взаимодействий.)
Анализ подобного рода выражений заставляет следующим образом обобщить понятие взаимодействия:
· совокупность признаков-предикторов будем считать "плавающей" (естественно, - в пределах множества признаков, заданных в исследовании; напомним, что в дисперсионном анализе фиксируется небольшое количество признаков-предикторов и рассматриваются все возможные сочетания их значений; среди этих значений и ищутся взаимодействия); в частности, будем полагать, что какое-то сочетание значений одного набора предикторов может определять одно значение признака-функции, а некоторое сочетание значений другого набора предикторов – другое значение функции; например, в добавление к высказанному выше гипотетическому предположению о том, что у мужчин с высшим образованием появляется желание покинуть Родину, можно добавить еще одно предположение – о том, что женщины, имеющие более двух детей, напротив, выступают против отъезда за границу;
· будем полагать, что взаимодействием может быть не только конъюнкция суждений типа “значение такого-то признака равно тому-то” (именно конъюнкцией суждений “человек – мужчина” и “человек имеет высшее образование” является суждение “человек является мужчиной с высшим образованием”), а любые логические функции от таких выражений (предполагаем, что читатель знает определение основных логических функций - конъюнкции, дизъюнкции, импликации, отрицания; используемые здесь и ниже сведения по логике можно почерпнуть, например, из [Бочаров, Маркин, 1994]); например, взаимодействием будем считать суждение "человек является или пенсионером, или женщиной с маленьким ребенком, или не бизнесменом", если люди, обладающие соответствующими свойствами, не желают покидать родные места; (сравним также с упомянутыми выше "2-м значением 3-го признака и 5-м – 4-го, любым значением 3-го, кроме 2-го";) такого рода функции будем называть объясняющими, или детерминирующими, положениями (выражениями); их будем описывать так, как это обычно делается в литературе: используя для обозначения входящих в них признаков букву Х с индексами (Х3(2) & Х4(5), ù Х3(2) и т.д.).
· будем полагать, что наше взаимодействие может определять не только некоторое значение непрерывного признака (как в дисперсионном анализе), но и любую логическую функцию значений произвольных, в том числе дискретных (в частности, номинальных) признаков (ср. упомянутые выше "3-е значение 14-го признака и 1-е – 2-го; 2-е или 3-е значение 4-го признака); каким-либо другим образом задаваемое "поведение" респондента (примеры будут приведены в п.2.5, при обсуждении алгоритмов THAID и CHAID); частоту в таблице сопряжённости (ср. “ 5-е значение 8-го признака часто встречается с 3-м значением 14-го и 1-м значением 2-го”; это мы рассматривать не будем; однако подчеркнем, что речь идет об очень актуальных для социологии задачах, решаемых с помощью логлинейного анализа [Аптон, 1982]); а может и ничего не определять, но тогда естественно требовать просто истинность взаимодействия как логической функции; то, что определяет взаимодействие, будем называть объясняемыми, или детерминируемыми, положениями. их будем описывать обычно, используя для входящих в них признаков букву Y с индексами;
Вопросы для самопроверки
1. Назовите классификацию задач анализа связей номинальных признаков.
2. Анализируйте понятие взаимодействия.
Лекция 12.
Анализ связей типа "признак – признак".
Для измерения связи между двумя номинальными признаками в литературе предлагается более сотни коэффициентов. Это является следствием того, что интересующее насявление - указанную связь (еще раз подчеркнем, что мы говоримо статистической связи, хотя в действительности нас, как правило, интересуют соответствующие причинно-следственные отношения) – оказывается возможным формализовать по-разному. И каждому способу формализации отвечает свое понимание сути искомойсвязи, своя априорная модель того, что мы хотим изучить.
Не будем описывать все известные из литературы коэффициенты рассматриваемого характера. Коснемся лишь трех подходов к измерению парной связи между номинальными признаками. Эти подходы являются наиболее употребительными на практике.
Коэффициенты связи, основанные на критерии"Хи-квадрат".
Приведем простой пример, иллюстрирующий рассматриваемыйподход к пониманию связи между двумя номинальными признаками.Предположим, что перед нами стоит задача оценки того, зависит ли профессия респондента от его пола. Пусть наша анкетасодержит соответствующие вопросы и в ней перечисляютсяпять вариантов профессий, закодированных цифрами от 1 до 5;для обозначения же мужчин и женщин используются коды 1 и 2 соответственно. Для краткости обозначим первый признак (т.е.признак, отвечающий вопросу о профессии респондента) через Y,а второй (отвечающий полу) - через X. Итак, наша задача состоит в том, чтобы определить, зависит ли Y от X.
Предположим, что исходная таблица сопряженности, вычисленнаядля каких-то 100 респондентов имеет вид:
Таблица 1. Пример таблицы сопряженности для двух независимых признаков
Профессия | Пол | Итого | |
1 | 2 | ||
1 | 18 | 2 | 20 |
2 | 18 | 2 | 20 |
3 | 45 | 5 | 50 |
4 | 0 | 0 | 0 |
5 | 9 | 1 | 10 |
Итого | 90 | 10 | 100 |
Вероятно, любой человек согласится, что в таком случае признаки можно считать независимыми, поскольку и мужчины, и женщины в равной степени выбирают ту или иную профессию: первая и вторая профессии пользуются одинаковой популярностью и у тех и у других; третью – выбирает половина мужчин, но и половина женщин; четвертую не любят ни те, ни другие и т.д. Итак, мы делаем вывод: независимость признаков означает пропорциональность столбцов (строк; с помощью несложиных арифметических выкладок можно показать, что пропорциональность столбцов эквивалентна пропорциональности строк) исходной частотной таблицы. Заметим, что в случае пропорциональности “внутренних” столбцов таблицы сопряженности, эти столбцы будут пропорциональны также и столбцу маргинальных сумм по строкам. То же – и для случая пропорциональности строк они будут пропорциональны и строке маригинальных сумм по столбцам.
Наука не дает точного ответа. Она предлагает нам лишь такой его вариант, который формулируется в вероятностных терминах. Этот ответ можно найти в математической статистике. Чтобы его воспринять, необходимо взглянуть на изучаемую связь, опираясь на своеобразное математико-статистическое видение мира. Опишем соответствующие рассуждения в следующем параграфе. Сразу скажем, что эти рассуждения типичны для математической статистики – речь идет об одной из основных решаемых ей задач – проверке статистической гипотезы.
Дата: 2019-03-05, просмотров: 266.