После изучения материала этой главы вы должны уметь ...
1. Разбираться в том, что собой представляют парная корреляция, частная корреляция,
частичная корреляция и показать, почему они являются основой для регрессионного
анализа.
2. Объяснить природу и методы двумерного регрессионного анализа и описать общую модель,
процедуры оценки параметров, нормирование коэффициента регрессии, проверки значи-
мости, процедуру определения точности прогноза, анализ остатков и перекрестную провер-
ку модели.
3. Объяснять природу и методы множественного регрессионного анализа и значение частных
коэффициентов регрессии.
4. Описать специализированные методы, используемые в рамках множественного регресси-
онного анализа, особенно пошаговую регрессию, регрессию с фиктивными переменными, а
также дисперсионный и ковариационный анализ с регрессией.
5. Объяснить неметрическую корреляцию и такие показатели, как коэффициенты ранговой
корреляции Спирмена и Кендалла.
КРАТКИЙ ОБЗОР
В главе 16 рассматривались взаимосвязи между /-критерием, дисперсионным и ковариаци-
онным анализом, а также регрессией. В этой главе вы познакомитесь с регрессионным анали-
зом, объясняющим вариацию в доли рынка, продажах, предпочтении торговой марке и других
маркетинговых результатах, получаемых при управлении такими маркетинговыми перемен-
ными, как реклама, цена, распределение и качество продукции. Однако прежде чем присту-
пить к изучению регрессии, мы рассмотрим парную корреляцию и частный коэффициент кор-
реляции, лежащие в основе регрессионного анализа.
Разбираясь с регрессионным анализом, мы сначала обсудим самый простой его тип — дву-
мерную регрессию, опишем процедуры оценки, нормирования коэффициентов регрессии,
проверку и определение тесноты и значимости связи между переменными, а также точность
прогноза и допущения, которые лежат в основе регрессионного анализа. Затем мы разберем мо-
дель множественной регрессии, уделив особое внимание интерпретации параметров, тесноте
связи, проверкам значимости и анализу остатков.
СКВОЗНОЙ ПРИМЕР. ВЫБОР УНИВЕРМАГ)
( Множественная регрессия
В ходе реализации проекта "Выбор универмага" маркетологи использовали множественный
регрессионный анализ для разработки модели, объясняющий выбор того или иного кон-
1 кроткого универмага, исходя из его оценки респондентами по восьми критериям. Зависи-
мой переменной в данном случае служило предпочтение, отдаваемое каждому универмагу.
В качестве независимых переменных выбраны оценки каждого магазина по следующим па-
раметрам: качество товаров; их разнообразие и ассортимент; условия обмена и возврата про-
данных товаров; услуги продавцов; цены; удобное расположения; планировка универмага;
| условия предоставления кредита и выполнения расчетов за покупки. Анализ показал, что |
640 Часть III. Сбор, подготовка и анализ данных
все факторы, рассматривавшиеся в качестве критерия выбора магазина, за исключением
фактора "услуги продавцов", являются значимыми для объяснения предпочтения магазина
клиентом. Коэффициенты всех переменных оказались положительными. Это означает, что
чем выше оценки каждого из значимых факторов конкретного магазина, тем выше его
предпочтение. Модель хорошо согласуется с фактическими данными, и на ее основе можно
f хорошо прогнозировать предпочтения в выборе универмага.
Ниже рассматриваются такие вопросы регрессионного анализа, как пошаговая регрессия,
мул ьти колли неарность, относительная важность независимых переменных (предикторов) и
перекрестная проверка. Мы опишем регрессию с фиктивными переменными и использование
этой процедуры для выполнения дисперсионного и ковариационного анализа. Рассмотрим на
примерах применение регрессионного анализа.
ПРИМЕР. Как регрессионный анализ помог фирме Avon
Компания Avon Products, Inc. одно время испытывала нехватку торговых агентов, которые
служили основой ее бизнеса, предлагая продукцию компании путем личной продажи. Что-
бы выявить факторы, обусловившие сложившуюся ситуацию, были разработаны компью-
терные регрессионные модели. Они показали, что самой значимой переменной является
уровень денежного взноса, который торговые агенты платят за продукцию компании. Руко-
водствуясь полученными данными, компания снизила взнос. Это позволило увеличить ко-
личество сотрудников и снизить текучесть кадров [1].
I ПРИМЕР. Internet-революция в торговле
Многие эксперты по розничной торговле считают, что продажа товаров через Internet pej
волюционизирует розничную торговлю. Рассмотрим результаты маркетингового исследова-
j ния, в рамках которого проводился корреляционный анализ предпочтений потребителей к
I электронным покупкам посредством видеотекса (услуга покупки товаров на дому с помо-
| гдью компьютера). Для объяснения потребительских предпочтений были выбраны предла-
| гаемые в литературе психографическая, демографическая и информационная переменные.
j Исследование проводилось в Южной Флориде, где с 1983 года функционирует компания
I Viewtron, предлагающая видеотекс-услуги. Компания Viewtron, филиал корпорации Knight-
\ Ridder Corporation, тратит миллионы на рекламу в этой сфере услуг. Все респонденты знако-
I мы с понятием компьютеризированной покупки товаров на дому.
Для анализа данных маркетологи воспользовались множественной регрессией. Ее общая
i модель оказалась значимой при уровне значимости, равном 0,05. Одномерная проверка с
| помощью ^-критерия показала, что следующие переменные значимы при уровне значимо-
I сти, равном 0,05 или ниже: ценовая ориентация, пол, возраст, род деятельности, этническая
1 принадлежность и образование. Ни одна из трех информационных переменных (СМИ, уст-
\ ная информация, реклама) не связаны статистически значимым образом с зависимой пере-
\ менной, которой являлось предпочтение потребителей.
Полученные результаты означают, что покупать товары через Internet предпочитают бе-
1 лые, женщины, среднего возраста, хорошо образованные, руководители, и ориентированные
| на цену товара. Информация такого типа представляет ценность для целевого маркетинга в
I сфере электронной торговли |2].
Эти примеры иллюстрируют использование регрессионного анализа для определения неза-
висимых переменных, которые обуславливают статистически значимую вариацию в исследуе-
мой зависимой переменной; установления структуры и формы взаимосвязи, силы взаимосвязи
и определения предсказанных значений зависимой переменной. Главное в регрессионном ана-
лизе — это понять, что такое парная корреляция.
Глава 17. Корреляция и регрессия 641
ПАРНАЯ КОРРЕЛЯЦИЯ
Часто при проведении маркетингового исследования нас интересует связь между двумя
метрическими переменными, как, например, в следующих ситуациях.
• Насколько сильно связан объем продаж с расходами на рекламу?
• Существует ли связь между долей рынка и количеством торгового персонала?
• Связано ли восприятие качества товаров потребителями с их восприятием цены?
В таких ситуациях наиболее широко используемой статистикой является коэффициент пар-
ной корреляции, г (product moment correlation г), который характеризует степень тесноты связи
между двумя метрическими (измеряемыми с помощью интервальной или относительной
шкал) переменными, скажем, Хп Y. Этот коэффициент используют, чтобы определить, суще-
ствует ли между переменными линейная зависимость. Он показывает степень, в которой ва-
риация одной переменной X связана с вариацией другой переменной Y, т.е. меру зависимости
между переменными Л" и Y.
Коэффициент парной корреляции г (product moment correlation r)
Статистический показатель, характеризующий степень тесноты связи между двумя метриче-
скими переменными.
Поскольку этот коэффициент первоначально предложил Карл Пирсон (Karl Pearson), его
также называют коэффициентом корреляции Пирсона. Кроме того, он известен как простой коэф-
фициент корреляции, линейный коэффициент корреляции или просто коэффициент корреляции,
Имея выборку, размером п наблюдений, коэффициент парной корреляции г, для переменных
Хтл Кможно вычислить по формуле:
Разделив числитель и знаменатель на (п ~ 1) получим:
±(X,-X)(Y,-Y)
п-
л-1
±(X,-X)(Y,-Y)
л-1
п~\ л-1
= covv sxsr
В этих уравнениях X и X обозначают выборочные средние, а S x и S y— соответствующие
стандартные отклонения. COV^ представляет собой ковариацию (covariance) между X и Y, явля-
ясь мерой зависимости Хи Y.
642 Часть III. Сбор, подготовка и анализ данных
Ковариация (covariance)
Систематическая взаимосвязь между двумя переменными, при которой изменение одной
переменной вызывает соответствующее изменение другой переменной (COVxy).
Ковариация может быть как положительной, так и отрицательной. Деление на S xS y приво-
дит к нормированному виду, так что коэффициент корреляции г находится в пределах от ми-
нус 1 до плюс 1. Обратите внимание, что коэффициент корреляции никак не связан с едини-
цами измерения, в которых выражены переменные.
Предположим, что исследователь хочет выяснить, зависит ли отношение респондента к ме-
стожительству от длительности проживания его в этом городе. Отношение выражают в 11-
балльной шкале (1— не нравится город, 11 — очень нравится город), а продолжительность
проживания измеряют количеством лет, которые респондент прожил в этом городе. Получен-
ные от 12 респондентов данные приведены в табл. 17.1.
. „
\ Таблица 17.1 Отношение
i сти проживания в нем
Номер респондента Отношение к городу Длительность проживания Влияние погодных условий
1
2
3
4
5
6
1
8
9
10
11
12
6
9
8
3
10
•:
5
2
11
У
Ю
2
10
12
12
4
12
6
В
а
18
9
17
2
3
11
4
1
11
1
7
4
8
10
8
5
Коэффициент корреляции можно вычислить по формуле:
— _ (10 + 12 + 12 + 4 +12 +6 + 8+ 2 +18 + 9 +17 + 2) _п
А — ' У, ЗЗЗ
12
- (6 + 9+8 + 3 + 10 + 4 + 5 + 2 + 11 + 9 + 10 + 2)
Y = = 6,583
12
E(jr, - Jf )(^ - У) = (Ю - 9,33) (6 - 6,58) + (12 - 9,33) (9 - 6,58)+
+ (12 - 9,33) (8 - 6,58) + (4 - 9,33) (3 - 6,58)+
+ (12 - 9,33) (10 - 6,58) + (6 - 9,33) (4 - 6,58)+
+ (8 - 9,33) (5 - 6,58) + (2 - 9,33) (2 - 6,58)+
+ (18 - 9,33) (11 - 6,58) + (9-9,33) (9-6,58)+
+ (17 - 9,33) (10 - 6,58) + (2 - 9,33) (2 - 6,58)+
= - 0,3886 + 6,4614 + 3,7914 + 19,0814+
+ 9,1314+8,5914 + 2,1014 + 33,5714+
+ 38,3214-0,7986 + 26,2314 + 33,5714= 179,6668
Глава 17. Корреляция и регрессия 643
£(Х, - А: ) = (10 - 9,33)2 + (12 - 9,33)2 + (12 - 9,33)2 + (4 - 9,33)2
/-1
+ (12 - 9,33)2 + (6 - 9,33)2 + (8 - 9,33)2 + (2 - 9,33)2 +
+ (18 - 9,33)2 + (9 - 9,33)2 + (17 - 9,33)2 + (2 - 9,33)2 =
= 0,4489 + 7, 1289 + 7, 1289 + 28,4089+
+ 7,1289 + 11,0889 + 1,7689 + 53,7289+
+ 75, 1689 + 0,1089 + 58,8289 + 53,7289 = 304,6668
и 2
£(Г, -У) = (6 - 6,58)2 + (9 - 6,58)2 + (8 - 6,58)2 + (3 - 6,58)2
i-i
+(10 - 6,58)2 + (4 - 6,58)2 + (5 - 6,58)2 + (2 - 6,58)2+
+ (11 - 6,58)2 + (9 - 6,58)2 + (10 - 6,58)2 + (2 - 6,58)2=
= 0,3364 + 5,8564 + 2,0164 + 12,8164+
+ 1 1,6964 + 6,6564 + 2,4964 + 20,9764 +
+ 19,5364 + 5,8564 + 1 1,6964 + 20,9764 = 120,9168
Таким образом
=0.936. ,
^(304,6668X120,9168)
В этом примере г = 0,9361, что близко к 1. Это означает, что отношение респондента к сво-
ему городу сильно зависит от времени проживания в нем. Более того, положительный знак г
указывает на прямую связь (прямопропорциональную): чем дольше респондент проживает в
городе, тем больше он ему нравится, и наоборот.
Так как коэффициент корреляции показывает меру, в которой вариация значений одной
переменной зависит от вариации другой, то г можно выразить через разложение полной вариа-
ции (см. главу 16). Другими словами,
объяснимое изменение
г = --
полная вариация
_SS,
ssy
_ полная вариация - вариация ошибки _
полная вариация
Следовательно, г* показывает, какая доля вариации одной переменной обусловлена вариа-
цией другой. И г, и г2 являются симметричными показателями связи между переменными.
Иначе говоря, корреляция между Хм Хта же, что и корреляция между Уи X. Корреляция не за-
висит оттого, какая из переменных взята в качестве зависимой, а какая в качестве независи-
мой. Коэффициент корреляции является мерой линейной зависимости, и он не предназначен
для измерения силы связи в случае нелинейной зависимости. Таким образом, г = 0 просто оз-
начает отсутствие линейной зависимости между X и Y. Это не означает, что А" и У не взаимо-
связаны. Между ними может существовать нелинейная зависимость, которую нельзя опреде-
лить с помощью коэффициента корреляции г (рис. 17.1).
Если коэффициент корреляции вычисляют не для выборки, а для всей генеральной сово-
купности, то он обозначается греческой буквой р (ро). Коэффициент г — это оценка р. Обрати-
те внимание, что расчет г предполагает, что X и У— метрические переменные, кривые распре-
деления которых имеют одинаковую форму. Если эти допущения не удовлетворяются, то зна-
чение г уменьшается и р получается недооцененным. В маркетинговых исследованиях данные,
полученные с использованием относительной шкалы при небольшом числе категорий, могут
не быть строго интервальными. Это приведет к снижению г и недооценке р [3].
644 Часть III. Сбор, подготовка и анализ данных
-3
I
1
Рис. 17. 1. Нелинейная зависимость, для которой г~0
Статистическую значимость связи между двумя переменными, измеренную коэффициен
том корреляции г, можно легко проверить. Гипотезы имеют такой вид:
Статистику, лежащую в основе критерия для проверки гипотезы, вычисляют по формуле:
п-2
\-г2
которая имеет /-распределение с я — 2 степенями свободы [4]. Для коэффициента корреля-
ции, вычисленного на основе данных, приведенных в табл. 17.1, значение/-статистики равно:
I = 0.9361
12-2
1-(0,9361)2
а число степеней свободы — 12 — 2 = 10. Из таблицы /-распределения (табл. 4 Статистического
приложения) критическое значение t-статистики для двусторонней проверки и уровне значи-
мости а = 0,05 равно 2,228. Следовательно, нулевую гипотезу об отсутствии связи между пере-
менными Хи У отклоняют. Это наряду с положительным знаком коэффициента корреляции
показывает, что отношение респондента к своему городу прямо пропорционально зависит от
продолжительности проживания его в городе. Более того, высокое значение г показывает, что
эта связь сильная.
При выполнении многомерного анализа данных часто полезно изучить простую корреля-
цию между каждой парой переменных. Эти результаты представляют в форме корреляционной
матрицы, которая показывает коэффициент корреляции между каждой парой данных. Обыч-
но, рассматривают только самую нижнюю треугольную часть матрицы. Все элементы по диаго-
нали равны 1,00, так как переменная коррелирует сама с собой. Верхняя треугольная часть мат-
рицы — зеркальное отражение нижней треугольной части матрицы, поскольку г— симметрич-
ный показатель связи между переменными. Форма корреляционной матрицы для пяти
переменных от V t до К5 представлена ниже:
Глава 17. Корреляция и регрессия 645
V, Vg V9 V< V5
V,
Vi 0,5
V, 0,3 0,4
V 4 0,1 0,3 0,6
V s 0,2 0,5 0,3 0,7
Хотя матрица простых коэффициентов корреляций позволяет уяснить суть попарных свя-
зей, иногда исследователю хочется изучить связи между двумя переменными при условии
управления одной или несколькими переменными. В последнем случае следует оценивать ча-
стную корреляцию.
ЧАСТНАЯ КОРРЕЛЯЦИЯ
В то время как линейный коэффициент корреляции — это показатель силы связи,
описывающий линейную зависимость между двумя переменными, частный коэффициент
корреляции (partial correlation coefficient) — это мера зависимости между двумя перемен-
ными при фиксированных (исключенных) или скорректированных эффектах одной или
нескольких переменных.
Частный коэффициент корреляции (partial correlation coefficient)
Мера зависимости между двумя переменными после фиксации (исключения, корректиров-
ки) эффектов одной или нескольких переменных.
Эта статистика позволяет ответить на следующие вопросы,
• Зависит ли объем продаж от расходов на рекламу, если фиксировать влияние цены
(исключить эффект цены)?
• Существует ли связь между долей рынка и количеством торгового персонала, если за-
фиксировать эффект от усилий по продвижению товара?
• Связано ли восприятие качества товаров потребителями с их восприятием цены, если
исключить эффект торговой марки?
Предположим, что в этих ситуациях исследователь хочет вычислить силу связи между X и
Y, исключив при этом эффект влияния третьей переменной Z. Поступая логично, сначала сле-
дует удалить эффект Zn3 значения переменной X. Для этого следует использовать коэффици-
ент парной корреляции г а между X и Z, и вычислить значения X, исходя из информации о Z.
Затем полученное значение X вычитают из фактического значения X, получая скорректирован-
ное значение X. Аналогично корректируют значения Y, чтобы исключить эффект, и скорректи-
рованный коэффициент обозначают г^.. Статистически, поскольку простой коэффициент кор-
реляции между двумя переменными полностью описывает линейную зависимость между ни-
ми, частный коэффициент корреляции можно вычислить, зная только эти простые
коэффициенты корреляции и не используя отдельные наблюдения.
Предположим, что исследователь хочет рассчитать силу связи между отношением к городу,
переменная Y, и продолжительностью проживания в нем, переменная Х„ фиксируя при этом
эффект третьей переменной, а именно, погодных условий, переменная Х 2. Эти данные приве-
дены втабл. 17.1.
646 Часть III. Сбор, подготовка и анализ данных
Линейные коэффициенты корреляции между переменными равны:
гТЖ| =0,9361, rv), =0,7334, г1]Л, =0,5495
Частный коэффициент корреляции можно вычислить по формуле:
0,9361-(0,5495)(0,7334)
гм.д = . V • Д - V =0,9386
^1-(0,5495)'>/1-(0,7334)1
Результаты показывают, что исключение эффекта, связанного с погодными условиями,
незначительно воздействует на зависимость между отношением к городу и продолжительно-
стью проживания в нем.
Частные коэффициенты корреляции характеризуются так называемом порядком, который
указывает количество переменных, на которые необходимо внести поправку или которые сле-
дует проконтролировать (исключить). Простой коэффициент корреляции г имеет нулевой по-
рядок, поскольку отсутствует необходимость исключать дополнительные переменные при оп-
ределении силы связи между двумя переменными. Коэффициент г^г представляет собой част-
ный коэффициент корреляции первого порядка, так как при его расчете контролируют эффект
от влияния одной дополнительной переменной Z, частный коэффициент корреляции второго
порядка контролирует эффект от влияния двух переменных и т.д. Коэффициенты корреляции
более высокого порядка вычисляют аналогично. Частный коэффициент корреляции (я + /)-го
порядка можно вычислить, поставив простые коэффициенты корреляции справа в предшест-
вующем уравнении для коэффициентов л-го порядка.
Частные коэффициенты корреляции могут оказаться полезными для выявления ложных
связей (см, главу 15). Связь между А'и /является ложной, если А'связана с Z, которая в дей-
ствительности является предиктором (независимой переменной) для Y. В этом случае корре-
ляция между X и Y исчезнет, если контролировать эффект от влияния переменной Z Рас-
смотрим пример, в котором потребление фирменного сухого завтрака (С) положительно
связано с доходом (У), и г„ = 0,28. Поскольку цена на этот товар вполне доступная, то марке-
тологи не ожидали, что доход окажется значимым фактором. Поэтому исследователь подоз-
ревает, что эта связь ложная. Результаты выборочного исследования также показали, что до-
ход позитивно связан с размером семьи (Н), коэффициент корреляции равен r hi = 0,48, а
размер семьи связан с потреблением сухого завтрака, коэффициент корреляции равен r ch =
0,56. Эти цифры свидетельствуют, что действительным предиктором потребления сухого
завтрака является не доход, а размер семьи.
Чтобы проверить это утверждение, маркетологи вычислили коэффициент частной корре-
ляции первого порядка между потреблением сухого завтрака и доходом, проконтролировав эф-
фект размера семьи. Читатель может проверить, что коэффициент частной корреляции равен
r clll = 0,02, и первоначально обнаруженная корреляция между потреблением сухого завтрака и
доходом исчезла, когда мы исключили влияние размера семьи. Следовательно, корреляция
между доходом и потреблением сухого завтрака ложная. Специальный случай, когда частная
корреляция оказывается больше, соответствующей корреляции нулевого порядка, обусловлен
эффектом экранирования (см. главу 15) [5].
Другим представляющим интерес коэффициентом корреляции является частичный коэф-
фициент корреляции (part correlation coefficient). Он представляет корреляцию между YH X, ко-
гда линейные эффекты других независимых переменных исключены из X, но не из Y.
Частичный коэффициент корреляции (part correlation coefficient)
Мера зависимости между Y и X, когда линейные эффекты других независимых переменных
исключены из X (но не из Y).
Частичный коэффициент корреляции r y(3S} вычисляют по формуле:
_ г» ~ Wp
ГУ(Х1| Г =—
Глава 17. Корреляция и регрессия 647
Частичный коэффициент зависимости отношения к городу от продолжительности прожи-
вания в нем при исключении эффекта погодных условий из переменной, обозначающей про-
должительность проживания, можно вычислить следующим образом:
0,9361-(0,5495){0,7334)
rvu 0=- , Л - ^ = 0,63806 Л.-*! ••*: '
Частный коэффициент корреляции считают более важным, чем частичный коэффи-
циент корреляции. Парный коэффициент корреляции, частичный и частный предпола-
гают, что данные измерены с помощью интервальной или относительной шкал. Если
данные не соответствуют этим требованиям, то исследователь должен использовать не-
метрическую корреляцию.
ПРИМЕР. Реклама и предпочтения покупателей
Реклама играет важную роль в формировании у потребителей отношений и предпочте-
ний к торговым маркам. Маркетологи обнаружили, что для товаров, продажа которых про-
исходит с минимальным участием продавца, отношение покупателя к рекламе служит про-
межуточным звеном между распознованием торговой марки и отношением к ней. Что про-
изойдет с влиянием этой промежуточной переменной, если товары покупают дома
непосредственно через специализированную компьютерную сеть? Компания Ноте Shopping
Budapest в Венгрии исследовала воздействие рекламы на покупки. Маркетологи провели оп-
рос, в ходе которого измерили ряд показателей: отношение к товару, отношение к торговой
марке, отношение к рекламе, доверие к торговой марке и т.д. Была выдвинута гипотеза, со-
гласно которой при покупке через специализированную компьютерную сеть главным обра-
зом реклама определяет отношение к торговой марке. Чтобы установить степень связи от-
ношения к рекламе с отношением к торговой марке и доверием к ней, следовало вычислить
частный коэффициент корреляции. Для этого вычислялся частный коэффициент корреля-
ции между отношением к торговой марке и доверием к ней с одновременным исключением
влияния отношения к рекламе. Если отношение к рекламе высокозначимое, то частный ко-
эффициент корреляции должен быть значительно меньше, чем парный коэффициент кор-
реляции между доверием к торговой марке и отношением к ней. Исследование подтвердило
данную гипотезу. Затем компания Saatchi & Saatchi разработала радиорекламу для Ноте
Shopping Budapest, чтобы выработать позитивное отношение к рекламе, и это стало главным
оружием в конкурентной борьбе [6].
НЕМЕТРИЧЕСКАЯ КОРРЕЛЯЦИЯ
Иногда маркетологу необходимо вычислить коэффициент корреляции между двумя немет-
рическими переменными. Вспомним, что неметрические переменные нельзя измерить с по-
мошью интервальной или относительной шкалы и они не подчиняются закону нормального
распределения. Если мы имеем дело с порядковыми и числовыми неметрическими перемен-
ными, то для изучения связи между ними можно использовать два показателя неметрической
корреляции (nonmetric correlation): коэффициент ранговой корреляции Спирмена д. (Spearmen1
rho p s) и коэффициент ранговой корреляции Кендалла т (Kendall's tau т).
Коэффициент неметрической корреляци (nonmetric correlation)
Показатель корреляции для двух неметрических переменных, в котором используются ранги
переменных.
Для вычисления обоих коэффициентов используют ранги, а не абсолютные значения пе-
ременных, и подход, лежащий в основе их применения, совершенно одинаков. Оба коэффи-
циента изменяются в диапазоне от—1 до+1 (см. главу 15).
648 Часть III. Сбор, подготовка и анализ данных
При отсутствии связанных рангов значение коэффициента ранговой корреляции Спирме-
на р, значительно ближе к коэффициенту парной корреляции Пирсона р, чем коэффициента
ранговой корреляции Кендалла т. В этих случаях абсолютное значение г стремится стать мень-
ше, чем р Пирсона. С другой стороны, если данные содержат большое количество связанных
рангов, то коэффициент г больше подходит для вычисления корреляции. В качестве эмпири-
ческого правила стоит запомнить, что коэффициент ранговой корреляции Кендалла целесооб-
разно использовать, когда большинство наблюдений попадает в относительно небольшое число
категорий (что приводит к большому количеству связанных рангов). И наоборот, целесообраз-
но использовать коэффициент ранговой корреляции Спирмена, когда мы имеем относительно
большое число категорий (что приводит к небольшому количеству совпадающих рангов) [7].
Парная корреляция, так же как частный и частичный коэффициенты корреляции, состав-
ляют концептуальную основу для парного и множественного регрессионного анализа.
РЕГРЕССИОННЫЙ АНАЛИЗ
Регрессионный анализ (regression analysis) — это мощный и гибкий метод установления
формы и изучения связей между метрической зависимой переменной и одной или нескольки-
ми независимыми переменными.
Регрессионный анализ (regression analysis)
Статистический метод установления формы и изучения связей между метрической зависи-
мой переменной и одной или несколькими независимыми переменными.
Регрессионный анализ используют в следующих случаях.
1. Действительно ли независимые переменные обуславливают значимую вариацию зависи-
мой переменной; действительно ли эти переменные взаимосвязаны?
2. В какой степени вариацию зависимой переменной можно объяснить независимыми пере-
менными: теснота связи?
3. Определить форму связи: математическое уравнение, описывающее зависимость между за-
висимой и независимой переменными.
4. Предсказать значения зависимой переменной.
5. Контролировать другие независимые переменные при определении вкладов конкретной
переменной.
Хотя независимые переменные могут объяснять вариацию зависимой переменной, это не-
обязательно подразумевает причинную связь. Использование в регрессионном анализе таких
терминов, как зависимая или критериальная переменная и независимая переменная
(предиктор) отражает наличие математической зависимости между переменными. Данная тер-
минология не подразумевает существование причинно-следственной связи между перемен-
ными. Регрессионный анализ имеет дело с природой и степенью связи между переменными и
не предполагает, что между ними существует какая-либо причинная связь. Вначале мы обсу-
дим парную регрессию, а затем множественную.
ПАРНАЯ РЕГРЕССИЯ
Парная регрессия (bivariate regression) — это метод установления математической (в форме
уравнения) зависимости между одной метрической зависимой (критериальной) переменной и
одной метрической независимой переменной (предиктором). Во многом этот анализ аналоги-
чен определению простой корреляции между двумя переменными. Однако для того чтобы вы-
вести уравнение, мы должны одну переменную представить как зависимую, а другую — как
независимую.
Глава 17. Корреляция и регрессия 649
Парная регрессия (bivariate regression)
Метод установления математической (в форме уравнения) зависимости между двумя мет-
рическими перемнными: зависимой и независимой.
Примеры, приведенные ранее при изучении простой корреляции, рассмотрим с точки зре-
ния регрессии.
• Можно ли вариацию в объеме продаж объяснить расходами на рекламу? Какова форма
этой зависимости и можно ли ее выразить в виде уравнения, описывающего прямую
линию?
• Зависит ли вариация доли рынка от количества торгового персонала?
• Определяется ли отношение потребителей к качеству товара их отношением к цене на
этот товар?
Прежде чем обсудить процедуру выполнения двумерной регрессии, определим основные
статистики.
СТАТИСТИКИ, СВЯЗАННЫЕ С ПАРНЫМ
РЕГРЕССИОННЫМ АНАЛИЗОМ
Ниже приведены статистики и термины, относящиеся к парному регрессионному анализу,
Модель парной регрессии. Основное уравнение регрессии имеет вид У; = j$ 0 + /ЗД + e lf где
Y~ зависимая или критериальная переменная, X— независимая переменная, или предиктор,
Р 0— точка пересечения прямой регрессии с осью OY; 0; — тангенс угла наклона прямой и е, —
остаточный член (остаток), связанный с /-м наблюдением, характеризующий отклонение от
функции регрессии1.
Коэффициент детерминации. Тесноту связи измеряют коэффициентом детерминации г 2. Он
колеблется в диапазоне между 0 и 1 и указывает на долю полной вариации У, которая обуслов-
лена вариацией X.
Вычисляемое (теоретическое) значение Y. Вычисляемое значение Уравно Y, = а + Ьх, где
Y, — вычисляемое значение У„ а параметры а и Ь — это вычисляемые оценки 0<,и /^соответ-
ственно.
Коэффициент регрессии. Вычисляемый параметр Ъ обычно называют ненормированным ко-
эффициентом регрессии.
Диаграмма рассеяния (поле корреляции). Поле корреляции — это графическое представле-
ние точек с координатами, определяемыми значениями двух переменных (независимой и за-
висимой), для всех наблюдений.
Стандартная ошибка уравнения регрессии, Эта статистика SEE представляет собой стандарт-
ное отклонение фактических значений Кот теоретических значений У .
Стандартная ошибка коэффициента регрессии Ь. Стандартное отклонение Ь, обозначаемое
SE k, называется стандартной ошибкой.
Нормированный коэффициент регрессии. Также называется бета-коэффициентом, или взве-
шенным бета-коэффициентом. Показывает изменение У в зависимости от изменения X (угол
наклона прямой уравнения регрессии) при условии, что все данные нормированы.
Сумма квадратов ошибок. Значения расстояний всех точек до линии регрессии возводят в
квадрат и суммируют, получая сумму квадратов ошибок, которая является показателем общей
ошибки e .
1 В литературе этот член уравнения называют также ошибочным (ошибкой) или возмущающим членом
(возмущением). — Прим. науч. ред.
650 Часть III. Сбор, подготовка и анализ данных
(-статистика, /-статистику с л — 2 степенями свободы можно использовать для проверки ну-
левой гипотезы, которая утверждает, что между X и У не существует линейной зависимости
или Я„: Р, = 0, где / = %.-. .
ВЫПОЛНЕНИЕ ПАРНОГО РЕГРЕССИОННОГО
АНАЛИЗА
Стадии, из которых состоит процедура парного регрессионного анализа, приведены на
рис. 17.2.
да нормированного коэффициента р
Определение тесноты и SHE
зга точности предок
! проверка модели
Рис. 17.2. Парный регрессионный анализ
Предположим, что маркетолог хочет выяснить, зависит ли отношение к городу от длитель-
ности проживания в нем (см. табл. 17.1). При выводе уравнения такой зависимости целесооб-
разно вначале изучить поле корреляции,
Поле корреляции
Это графическое изображение точек с координатами, соответствующими значениям двух
переменных для всех случаев. Обычно значения зависимой переменной откладывают по вер-
тикальной оси, в значения независимой — по горизонтальной. Поле корреляции используется
при определении формы зависимости между переменными, График дает исследователю первое
Глава 17. Корреляция и регрессия 651
представление о форме данных и о возможных проблемах. На графике легко идентифициро-
вать любую необычную комбинацию переменных. График зависимости У (отношение к горо-
ду) от ^(продолжительность проживания) дан на рис. 17.3.
I6
о
I J I I
2,25 4,5 6,75 9 11,25 13,5
Длительность проживания
15,75 18
Рис. 17.3. Поле корреляции: отношение к городу в зависимости от
продолжительности проживания в нем
Из рисунка видно, что точки располагаются полосой от нижнего левого угла в верхний
правый. На графике можно увидеть форму зависимости: с ростом одной переменной
другая переменная также увеличивается. Из рисунка видно, что зависимость между У и X
носит линейный характер и поэтому может быть описана уравнением прямой линии. Как
следует "подогнать" к этим точкам прямую линию, чтобы она наилучшим образом опи-
сывала данные?
Самый распространенный метод для расчета уравнения линейной регрессии по данным на
диаграмме рассеяния — это метод наименьших квадратов (least-squares procedure).
Метод наименьших квадратов (least-squares procedure)
Метод, используемый для расчета параметров уравнения линейной регрессии, когда на ос-
нове поля корреляции минимизируются расстояния по вертикали всех точек поля от графи-
ка регрессии.
Методом наименьших квадратов определяют наиболее подходящую прямую регрессии,
минимизируя расстояния по вертикали всех точек поля корреляции от этой прямой. Наиболее
подходящая прямая называется линией регрессии. Если точка поля не лежит на линии регрес-
сии, то расстояние по вертикали от нее до линии называется ошибкой е. (рис. 17.4)
Расстояния от всех точек до линии регрессии возводят в квадрат и суммируют, получая
сумму квадратов ошибок, и это число показывает суммарную ошибку ^ef . Для определения
наиболее подходящей линии с помощью метода наименьших квадратов минимизируют суммы
квадратов ошибок. Если значения Котложить по вертикальной оси, а значения X— по гори-
зонтальной, как показано на рис. 17.4, то полученная аппроксимированная линия называется
регрессией У по X, так как расстояния по вертикали минимизированы. Поле корреляции по-
казывает, можно ли зависимость У по X выразить прямой линией и, следовательно, подходит
ли к этим данным парная регрессионная модель.
652 Часть III. Сбор, подготовка и анализ данных
х^ чл'
: YJ
I I i l l .
X V Y Y V
"2 "3 "4 "5
Puc. 17.4. Парная регрессия
Модель парной регрессии
В модели парной регрессии форма прямой линии выражается уравнением:
где Y— зависимая, или критериальная переменная, X— независимая переменная, или предиктор,
Д, — отрезок прямой, отсекаемый на оси OY, Д — угловой коэффициент (тангенс угла наклона).
Эта модель исходит из того, что У полностью определяется X. При известных значениях Д, и Д,
можно предсказать значение Y. Однако в маркетинговом исследовании немного связей
между переменными четко детерминированы. Поэтому, чтобы учесть вероятностную при-
роду связи, в регрессионное уравнение вводят ошибочный член. Базовое уравнение рег-
рессии принимает вид:
где е,~ член уравнения, характеризующий ошибку 1-го наблюдения [8]. Оценка регрессионных
параметров Д, и 0/ относительна проста.
Определение параметров уравнения регрессии
В большинстве случаев Д, и ft, неизвестны, и их определяют (оценивают), исходя из имею-
щихся выборочных наблюдений с помощью следующего уравнения:
Y, = а + их,
где Y, — теоретическое значение Y, ,аак Ь — вычисленные значения Д, и /3,, соответственно,
Константу Ь обычно называют ненормированным коэффициентом регрессии. Он выражает
угол наклона линии регрессии и показывает ожидаемое изменение Г при изменении А" на еди-
ницу. Формулы для вычисления а и Ь просты [9]. Угловой коэффициент Ь можно вычислить
через ковариацию между А" и Y(COV^) и дисперсию X по формуле:
COV^ _
О = -- "- ---
Глава 17. Корреляция и регрессия 653
Отрезок, отсекаемый на оси OY — а, можно вычислить по формуле:
а=¥-ЬХ
Для данных табл. 17.1 оценки параметров будут такими:
+ (8)(5) + (2)(2) + (18)(11) + (9)(9) + (17)(10) + (2)(2) = 917
£*; = Ю2 + 122 + 122 + 42 + 122+ 6:+
;=i
+ 82 + 22 + 182 + 92 + 173 + 22 = 1 350
Вспомнив, изложенную ранее формулу вычисления среднего в простой корреляции,
получим:
~Х =9,333 _
Y =6,583
При заданном п = 12, вычислим Ь по формуле;
917-(12)(9.333)(«83)
1350-(12)(9,333)
a = F-£? = 6,583~(0,5897)(9,333) = 1,0793
Обратите внимание, что эти коэффициенты вычислены из исходных (не преобразованных)
данных. Если данные нормированы, то вычисление нормированных коэффициентов не вызо-
вет затруднений.
Нормированный коэффициент регрессии
Нормирование (standartization) представляет собой процедуру, посредством которой исход-
ные данные преобразуют в новые переменные со значением средней, равным нулю, и диспер-
сией, равной 1 (глава 14). После нормирования данных, отрезок, отсекаемый на оси OY, при-
нимает значение 0. Нормированный коэффициент регрессии обозначают как "бета"-
коэффициент или взвешенный "бета "-коэффициент. В этом случае угловой коэффициент рег-
рессии YnoX, обозначаемый йч„ тот же, что и угловой коэффициент регрессии А" по Y, обозна-
чаемый B yv Более того, каждый из этих коэффициентов регрессии равен простому (линейному)
коэффициенту корреляции между Хи Y;
°ух= *V= '' гзу
Существует простая связь между нормированным и ненормированным коэффициентами
регрессии:
Для регрессии, показатели которой представлены в табл. 17.2, значение "бета" -коэффициента
оценивается как 0,9361.
654 Часть III. Сбор, подготовка и анализ данных
Таблица 17.2. Парная регрессия
Коэффициент корреляции Я
Коэффициент детерминации R 2
Скорректированный И 2
Стандартная ошибка
0,93608
0,87624
0,86387
1,22329
Дисперсионный анализ
Степени свободы Сумма квадратов Средний квадрат
Регрессия I
Остаток 10
F = 70,80266 Значимость F равна 0,000
105,95222
14,96444
105,95222
1,49644
Переменная
Переменные в уравнении
5ЕЬ Бета, р Т Значимость Т
Продолжительность 0,58972
(Константа) 1,07932
0,07008
0,74335
0,93608 8,414
1,452
0,0000
0,1772
Поскольку параметры определены, можно проверить их значимость.
Проверка значимости
Статистическую значимость линейной связи между А" и У можно проверить, исследовав
гипотезы:
JSfcft-O
Я,: А* О
Нулевая гипотеза предполагает, что между Хи. Уне существует линейной зависимости. Аль-
тернативная гипотеза утверждает, что между X и К существует зависимость, либо положитель-
ная, либо отрицательная. Обычно проводят двустороннюю проверку. Можно использовать /-
статистику с п — 2 степенями свободы, где
Ъ
~SEb
SE h обозначает стандартное отклонение Ь, и этот показатель называют стандартной ошибкой
коэффициента регрессии b [10]. (-распределение обсуждалось в главе 15.
Используя компьютерную программу (например SPSS) и данные табл. 17.1, регрессия от-
ношения к городу от длительности проживания в нем даст результаты, представленные в
табл. 17.2. Величина отрезка а, отсекаемого на оси OY, равна 1,0793, угловой коэффициент
(наклон кривой) b равен 0,5897. Следовательно, вычисленное (теоретическое) уравнение рег-
рессии иметь вид
Отношение ( Y ) = 1,0793 + 0,5897 (длительность проживания)
Стандартная ошибка, или стандартное отклонение b определено как 0,07008, и значение /-
статистики равно: / = 0,5897/0,0701 = 8,414 с п - 2 = 10 степенями свободы. Из табл. 4 Стати-
стического приложения видно, что критическое значение ^-статистики с 10 степенями свободы
и уровнем значимости а = 0,05 равно 2,228 для двусторонней проверки. Поскольку вычислен-
ное значение /-статистики больше критического значения, то нулевую гипотезу отклоняют.
Следовательно, между отношением к городу и длительностью проживания в нем существует
статистически значимая линейная зависимость. Положительный знак углового коэффициента
указывает на то, что эта связь положительная (прямо пропорциональная). Другими словами,
чем дольше человек живет в городе, тем лучше он к нему относится.
Глава 17. Корреляция и регрессия 655
Теснота и значимость связи
Соответствующий статистический вывод включает определение тесноты и значимости
связи между Yvi X. Тесноту связи измеряют коэффициентом детерминации г2. В парной регрес-
сии i 2 представляет собой квадрат линейного коэффициента корреляции. Коэффициент г2 из-
меняется от 0 до 1. Он показывает долю от полной вариации Y, которая обусловлена вариацией
переменной ЛГ, Разложение полной вариации переменной Y аналогично разложению полной
вариации в дисперсионном анализе (глава 16). Как показано на рис. 17.5, полная вариация SS y
раскладывается на вариацию, которую можно объяснить, исходя из линии регрессии SS peipecctta,
и вариацию ошибки или остаточную вариацию, SS ouai6KU или SS a 'встатвчная'
1 ./Остаточная вариация,
У SSres
1 Объяснимая вариация,
J S5r.g
Рис. 17.5 Разложение полной вариации в парной регрессии
SSy —
где
Тесноту связи вычислим следующим образом;
2 _ - регресси
2 SS,. —
Чтобы проиллюстрировать определение г2, рассмотрим снова влияние продолжительности
проживания в городе на отношение к нему. Из ранее сделанных вычислений коэффициента
парной корреляции видно, что
Теоретическое значение У; можно определить на основании уравнения регрессии
Отношение (Y.) = 1,0793 + 0,5897 (длительность проживания)
Для первого наблюдения в табл. 17.1 это значение равно
656 Часть III. Сбор, подготовка и анализ данных
(Y t)= 1,0793 + 0,5897 x 10 = 6,9763
Для каждого последующего наблюдения теоретические значения будут следующими (в по-
рядке расположения): 8,1557; 8,1557; 3,4381; 8,1557; 4,6175; 5,7969; 2,2587; 11,6939; 6,3866;
11,1042; 2,2587. Следовательно,
Юреп*»- = 5Х^ ~^)2 = <6'9763 - 6,5833)2 + (8,1557 - 6,5833)2 .
(8,1557 - 6,5833)2 + (3,4381 - 6,5833)2
+ (8,1557 - 6,5833)2 + (4,6175 - 6,5833)2
+ (5,7969 - 6,5833)2 + (2,2587 - 6,5833)2
+ (11,6939 - 6,5833)2 + (6,6866 - 6,5833)2
+ (11,1042 - 6,5833)2 + (2,2587 - 6,5833)2
= 0,1544 + 2,4724 + 2,4724 + 9,8922 + 2,4724
+ 3,8643 + 0,6184+18,7021+21,1182
+ 0,0387 + 20,4385 + 18,7021 = 105,9522
^ктаточная = £(Г' -^У = (6 - 6,9763): + (9 - 8,1557)2+ (8 - 8,1557)2
I=L
+ (3 - 3,4381)2 + (8 - 8,1557):+ (4-4,б175)2
+ (5 - 5,7969)3 + (2 - 2,2587)2 + (11-11,6939)г
+ (9 - 6,3866)2 + (10 - 11.1042)2 + (2 - 2,2587)г = 14,9644
Видно, что SS y = SS^p,,^ + 55'к.тввм,,р|вя. Кроме того,
SS 105 9524 регрессии IV-Л-'^А.^ .-, onzn
Г = = = и.й/О2
SS, 120,9168
Другой равноценной проверкой значимости линейной зависимости между X и Y
(значимости Ь) является проверка значимости коэффициента детерминации. В этом случае ги-
потезы имеют следующий вид:
Соответствующей статистикой, лежащей в основе критерия, является /-"-статистика:
SS /in -2)
которая подчиняется F-распределению с 1 и п - 2 степенями свободы, /-"-критерий представля-
ет собой обобщенную форму /-критерия (см. главу 15). Если случайная переменная подчиняет-
ся /-распределению с п-степенями свободы, то значения t 2 подчиняются F-распределению с 1 и
л-степенями свободы. Следовательно, /-"-критерий для проверки значимости коэффициента
детерминации эквивалентен проверке следующих гипотез:
или
/4: /з=0
Я,:р/0
Из табл. 17.2 видно, что
105 - шз.
= - -
(105.9522 + 14,9644)
это равно ранее рассчитанному значению. Вычисленное значение /-"-статистики равно:
F. - ^^ _ = 70,8027
(105,9522 + 14,9644)
с 1 и 10 степенями свободы, Вычисленное значение /•'-статистики превышает критическое зна-
чение, равное 4,96 (определено по табл. 5 Статистического приложения). Следовательно, зави-
Глава 17. Корреляция и регрессия 657
симость статистически значима при уровне значимости а = 0,05, подтверждая результаты про-
верки с помощью /-критерия. Если зависимость между Хи У статистически значима, то имеет
смысл вычислить значения Y, исходя из значений А", и оценить точность предсказания.
Точность предсказания
Чтобы оценить точность предсказанных (теоретических) значений У , полезно вычислить
стандартную ошибку оценки уравнения регрессии SEE. Эта статистика представляет собой
стандартное отклонение фактических значений У от предсказанных значений У :
Г?^
*ь
rt-2
или, в более общем виде, при наличии k независимых переменных
SEE можно интерпретировать как вид среднего значения остатка или среднюю ошибку
предсказания Y, исходя из уравнения регрессии [11].
Могут иметь место два случая предсказания. Исследователь хочет предсказать среднее зна-
чение /для всех вариантов с заданным значением X, скажем Х 0, или значение У для одного
случая. В обеих ситуациях предсказанное значение одно и то же, обозначаемое У и равное
Y=a+bX0
Однако стандартная ошибка для этих ситуаций разная, хотя в обеих ситуациях она является
функцией SEE. Для больших выборок стандартная ошибка предсказания среднего значения У
равна SEEI-fn , а ошибка предсказания отдельного значения Уравна SEE. Следовательно,
построение доверительных интервалов (см. главу 12) для предсказанных значений варьи-
рует в зависимости от того, необходимо ли предсказать единственное значение наблюде-
ния или среднее значение.
Для данных табл. 17.2 SEE вычисляют по формуле
/14^9644
SEE= Г ' =1,22329
\(12-2)
Последние две стадии выполнения парного регрессионного анализа, а именно, анализ ос-
таточного члена и модель перекрестной проверки, мы рассмотрим ниже, а сейчас вернемся к
предпосылкам, лежащим в основе регрессионной модели.
Предпосылки регрессионного анализа
Регрессионная модель при оценке параметров и проверке значимости (рис. 17.4) исходит из
ряда допущений.
1. Ошибочный член уравнения регрессии (остаточный компонент) подчиняется закону нор-
мального распределения. Для каждого определенного значения X распределение У нор-
мальное [12].
2. Средние значения всех этих нормальных распределений У, при заданном X, лежат на пря-
мой линии с угловым коэффициентом Ь.
3. Среднее значение ошибочного члена равно 0.
4. Дисперсия ошибочного члена постоянна. Эта дисперсия не зависит от значений, при-
нятых X.
5. Между ошибочными членами автокорреляция отсутствует. Другими словами, значения
ошибочных величин независимы между собой.
658 Часть III. Сбор, подготовка и анализ данных
То. в какой степени модель должна соответствовать этим допущениям, можно понять из
анализа остаточных членов, который рассматривается в разделе, посвященном множественной
регрессии [13].
МНОЖЕСТВЕННАЯ РЕГРЕССИЯ
Множественная регрессия (multiple regression) включает одну зависимую переменную и две
или больше независимых.
Множественная регрессия (multiple regression)
Статистический метод, с помощью которого можно вывести математическую зависимость
между двумя или больше независимыми переменными и зависимой переменной, выра-
женной с помощью интервальной или относительной шкалы.
Вопросы, аналогичные тем, для ответа на которые маркетологи используют парную регрес-
сию, также можно решить с помощью множественной регрессии. Только в этом случае иссле-
дователи имеют дело с дополнительными независимыми переменными.
• Можно ли вариацию объема продаж объяснить с точки зрения расходов на рекламу, цен
и уровня каналов распределения?
• Может ли вариация доли рынка зависеть от количества торгового персонала, расходов на
рекламу и бюджета на продвижение товара?
• Определяется ли восприятие потребителей качества товара их восприятием цены,
имиджа торговой марки и характеристик товара?
С помощью множественной регрессии можно ответить на следующие дополнительные
вопросы.
• Какую долю вариации объема продаж можно объяснить расходами на рекламу, ценами
и уровнем каналов распределения?
• Чему равен вклад расходов на рекламу в объяснении вариации объема продаж при кон-
тролируемых переменных — уровнях цен и распределения?
• Какие объемы продаж можно ожидать, исходя из данных уровней расходов на рекламу,
цен или уровня распределения?
ПРИМЕР. Всемирные торговые марки — местная реклама
Европейцы хорошо относятся к товарам из других стран, но когда дело доходит до рекла-
мы, они предпочитают местную рекламу. Опрос, проведенный компанией Yankelovich and
Partners и ее филиалами, показывает, что в Европе самой любимой рекламой потребитель-
ских товаров является реклама местных торговых марок, несмотря даже на то, что сами по-
требители предпочитают покупать зарубежные фирменные товары. Респонденты во Фран-
ции, Германии и Великобритании назвали Coca-Cola в качестве наиболее часто покупаемо-
го безалкогольного напитка. Однако самой любимой коммерческой рекламой французы
назвали рекламу известной местной марки — воды Perrier. Аналогично, в Германии люби-
мой рекламой оказалась реклама немецкого безалкогольного пива Clausthaler. Однако в Ве-
ликобритании наиболее предпочитаемым безалкогольным напитком оказалась Coca-Cola, и
наиболее предпочитаемой рекламой также оказалась реклама Coca-Cola. В свете этих фактов
встал важный вопрос — способствует ли реклама товара его покупке? Увеличивает ли
реклама вероятность покупки товара или она просто поддерживает определенный уровень
признания товара? В этой ситуации можно построить регрессионную модель, в которой
1 зависимая переменная представляет собой вероятность покупки товара, а независимыми
переменными являются оценки отношения к товару и оценки рекламы. Чтобы оценить
I любой значимый вклад в вариацию покупки товара, следует построить отдельные модели с
Глава 17. Корреляция и регрессия 659
наличием и без наличия переменной — реклама, Чтобы выявить любой значимый вклад
обоих переменных— характеристик товара и рекламы, можно также выполнить отдельные
проверки с помощью /-критерия. Результаты укажут, в какой степени реклама влияет на
принятие решения о покупке товара [14].
Общая форма модели множественной регрессии (multiple regression model) имеет вид:
Г Модель множественной регрессии (multiple regression model)
Уравнение, используемое дли объяснения результатов множественного регрессионного ана-
лиза.
Модель оценивают следующим уравнением:
У = a+b,X,+b2X2+b3X3+...btXt
Как и раньше, коэффициент а представляет собой отрезок, отсекаемый на оси OY, но ко-
эффициенты Ь являются теперь частными коэффициентами регрессии. Здесь мы использу-
ем на основании метода наименьших квадратов критерий, который оценивает параметры та-
ким образом, чтобы минимизировать суммарную ошибку SS Kai_. Этот процесс также макси-
мизирует корреляцию между фактическими значениями Y и предсказанными значениями
У . Все предпосылки, которые используются в парной регрессии, применимы и для множе-
ственной регрессии. Мы дадим определения нескольким статистикам, а затем опишем про-
цедуру выполнения множественного регрессионного анализа [15].
СТАТИСТИКИ, СВЯЗАННЫЕ СО МНОЖЕСТВЕННОЙ
РЕГРЕССИЕЙ
Большинство статистик и статистических терминов, описанных при рассмотрении парной
регрессии, также применимы и во множественной регрессии. Дополнительно используют сле-
дующие статистики.
Скорректированный коэффициент множественной детерминации R 2. Коэффициент множест-
венной детерминации R 2 корректируют с учетом числа независимых переменных и размера
выборки, чтобы снизить влияние зависимости коэффициента детерминации от количества пе-
ременных. После введения нескольких первых переменных дополнительные независимые пе-
ременные не так сильно влияют на коэффициент детерминации.
Коэффициент множественной детерминации R 2. Тесноту связи между переменными при
множественной регрессии измеряют, возводя в квадрат коэффициент множественной
корреляции.
/'-критерий. Используется для проверки нулевой гипотезы о том, что коэффициент множе-
ственной детерминации в совокупности R' cot. равен нулю. Это эквивалентно проверке нулевой
гипотезы Н й: (З д = fi, = fl 2 =/?,... = /3t = 0. Статистика, лежащая в основе критерия для проверки
гипотезы, подчиняется /''-распределению с k и (п — k — 1) степенями свободы.
Частный F-критерий. Значимость частного коэффициента регрессии Д переменной Х-, мож-
но проверить, используя приростную /^статистику. Она основана на приращении в объясняе-
мой сумме квадратов, полученном добавлением независимой переменной Х { в уравнение рег-
рессии после исключения всех других независимых переменных.
Частный коэффициент регрессии. Частный коэффициент регрессии А, обозначает изменение
в предсказанном значении Y при изменении X, на единицу, когда другие независимые пере-
менные от Х 2до X k остаются неизменными.
660 Часть III. Сбор, подготовка и анализ данных
ВЫПОЛНЕНИЕ МНОЖЕСТВЕННОГО
РЕГРЕССИОННОГО АНАЛИЗА
Стадии, входящие в процедуру выполнения множественного регрессионного анализа, ана-
логичны рассмотренным для двумерного регрессионного анализа. При обсуждении мы обра-
тим особое внимание на частные коэффициенты регрессии, тесноту связи, проверку значимо-
сти и анализ остаточных членов.
Частные коэффициенты регрессии
Чтобы понять значение частного коэффициента регрессии, расмотрим случай с двумя неза-
висимыми переменными:
Y = а+Ь,Х2+Ь2Х2
Во-первых, отметим, что величина частного коэффициента регрессии независимой пере-
менной, в основном, отличается от коэффициента двумерной регрессии той же переменной.
Другими словами, частный коэффициент регрессии Ь, отличается от коэффициента регрессии
Ь, полученного при установлении зависимости Утолько от переменной X,. Это происходит по-
тому, что X, и Х 2 обычно взаимосвязаны. В парной регрессии Х 2 не принимают во внимание, и
любое изменение вариации в Y, за которую совместно отвечают X, и Х 2, относят на счет X,. Од-
нако в случае нескольких независимых переменных это несправедливо.
Интерпретация частного коэффициента регрессии Ь, заключается в том, что он представляет
ожидаемое изменение величины У, когда А^ изменяется на единицу, а,^ остается постоянной, т.е.
управляемой (контролируемой) переменной. В отличие от этого, Ь 2 представляет ожидаемое изме-
нение Упри изменении Х г на единицу, когда X, остается постоянной. Поэтому названия Ь,нЬ 2 —
частные коэффициенты регрессии, соответствуют действительности. Кроме того, результаты со-
вместного влиняия X, и Х 2 на У суммируются. Иначе говоря, если каждую из переменных X, и Х 2
изменить на единицу, то ожидаемое изменение значения Убудет равно (Ь, + 6,).
Логически, зависимость между коэффициентом парной регрессии и частным коэффициен-
том регрессии можно проиллюстрировать следующим образом. Предположим, что мы исключили
эффект от влияния Х 2изХ,. Это можно сделать, установив регрессию X, по X? Иначе говоря, мож-
но воспользоваться уравнением Х { = а + ЬХ 2 и вычислить остаточный член Х г = (X, — Х 1). Тогда
частный коэффициент регрессии Ь, станет равным коэффициенту парной регрессии Ь, полу-
ченному из уравнения Y = а + ЬХ Г. Таким образом, частный коэффициент регрессии Ь, равен
коэффициенту парной регрессии Ь между переменной Уи остаточным значением переменной
Х„ не учитывая эффекта от влияния переменной X,. Частный коэффициент регрессии Ь 2 ин-
терпретируем аналогично.
Распространение этого примера на случай с k переменными не вызывает затруднений. Ча-
стный коэффициент регрессии Ь, представляет ожидаемое изменение У, когда X, изменяется на
единицу, а переменные от Х 2 до X k остаются неизменными. Это можно интерпретировать как
коэффициент парной регрессии А для регрессии переменной У от остаточных значений пере-
менной X, при исключенных эффектах переменных отХ 2цоХ^.
"Бета"-коэффициенты являются частными коэффициентами регрессии, полученными по-
сле того, как перед оценкой уравнения регрессии, все переменные (У, Х }, Х 2,... X k,} нормирова-
ны с получением их среднего значения, равного нулю, и дисперсии, равной 1. Связь между
нормированным и ненормированным коэффициентами та же, что и рассмотренная ранее;
К - "I —
Глава 17. Корреляция и регрессия 661
Отрезок, отсекаемый на оси OY, и частный коэффициент регрессии определяют решением
системы уравнений, выведенной дифференцированием и приравниванием к нулю частных
производных. Поскольку эти коэффициенты можно вычислить с помощью разных компью-
терных программ, мы не будем вдаваться в детали. Однако стоит отметить, что уравнения
нельзя решить, если размер выборки л меньше или равен числу независимых переменных k;
или одна независимая переменная тесно связана с другой.
Предположим, что при объяснении зависимости отношения к городу от длительности
проживания в нем, мы сейчас введем вторую переменную— погодные условия. Данные, полу-
ченные от 12 респондентов и касающиеся отношения к городу, длительности проживания в
нем и погодных условий, приведены в табл. 17.1. Результаты множественного регрессионного
анализа даны в табл. 17.3. Значение частного коэффициента регрессии для переменной X,
(длительность проживания), равное 0,4811, теперь отличается от значения, полученного в ана-
лизе парной регрессии. Соответствующий "бета"-коэфициент равен 0,7636. Частный коэффи-
циент регрессии для переменной Х 2 (погодные условия) равен 0,2887 с "бета"-коэффициентом,
равным, 0,3138.
Теоретическое уравнение регрессии имеет вид:
(Y ) = 0,33732 + 0,48108 X, + 0,28865 Х2
или
отношение к городу = 0,33732 + 0,48108 (длительность проживания) + 0,28865 (погодные
условия)
Коэффициент множественной корреляции
Коэффициент детерминации Вг
Скорректированный R2
Стандартная ошибка уравнения регрессии
Дисперсионный анализ
Степени свободы
Регрессия 2
Остаток 9
F = 77,29364 Значимость F = 0,0000
Переменные в уравнении
Переменная b S£u
Погодные условия 0,28865 0,08608
Длительность 0,48108 0,05895
(Константа) 0,33732 0,56736
0,97210
0,94498
0,93276
0,65974
Сумма квадратов Средний квадрат
114,26425 57,13213
6,65241 0,73916
Бега, р Т Значимость Т
0,31382 3,353 0,0085
0,76363 8,160 0,0000
0,595 0,5668
Это уравнение можно использовать для разных целей, включая предсказание отношения к
городу при заданных длительности проживания в нем и отношения респондента к погодным
условиям региона.
662 Часть III. Сбор, подготовка и анализ данных
Теснота связи
Степень тесноты связи определим, используя соответствующие показатели связи между
переменными. Полную вариацию можно разложить (как и для парной регрессии) следую-
щим образом:
где
Тесноту связи измеряют, возводя в квадрат коэффициент множественной корреляции, по-
лучая коэффициент множественной детерминации R2
Коэффициент множественной корреляции R можно рассматривать как линейный коэф-
фициент корреляции г между Y и Y . Следует сделать несколько замечаний относительно
определения R*. Коэффициент множественной детерминации R 2 не может быть меньше, чем
самое высокое значение г 2 любой отдельной независимой переменной с зависимой перемен-
ной. Значение R 2 больше, когда корреляция между независимыми переменными слабее. Ес-
ли независимые переменные статистически независимы (не коррелированы), то значение R 2
представляет собой сумму коэффициентов парной детерминации каждой независимой пе-
ременной с зависимой переменной. Значение R 2 не может уменьшаться при добавлении не-
зависимых переменных в уравнение регрессии. Однако снижение влияния зависимости ко-
эффициента детерминации от количества переменных устанавливается таким образом, что
после введения нескольких первых переменных дополнительные независимые переменные
не вносят такой большой вклад в значение коэффициента детерминации [16]. Поэтому R 2
корректируют с учетом числа независимых переменных и размера выборки, используя сле-
дующую формулу:
*(!-**)
Скорректированный R = R -- s - -
n-k-l
Для данных регрессии, приведенных в табл. 17.3, значение R 2 равно
"4.2643
(114,2643 + 6,6524)
Это значение выше, чем значение г 1, равное 0,8762, полученное для парной регрессии. Зна-
чение г 2 парной регрессии представляет собой квадрат простого коэффициента корреляции ме-
жду отношением к городу и длительностью проживания в нем. Значение R 2, полученное в
множественной регрессии, также выше, чем квадрат простого коэффициента корреляции меж-
ду отношением к городу и отношением к погодным условиям (которое определено как 0,5379),
Скорректированный коэффициент детерминации Допределен следующим образом:
0,9450-2(1,0-0,9450)
Скорректированный R~ = - * - - = 0,932
12-2-1
Обратите внимание, что значение скорректированного коэффициента детерминации R 2
близко к значению обычного коэффициента детерминации R 2\\ их значение больше, чем у ко-
эффициента детерминации г для парной регрессии. Это означает, что добавление второй неза-
Глава 17. Корреляция и регрессия 663
висимой переменной — погодные условия, вносит определенный вклад в вариацию перемен-
ной — отношение к городу.
Проверка значимости
Проверка значимости включает проверку значимости общего уравнения регрессии и кон-
кретных частных коэффициентов регрессии. Нулевая гипотеза для проверки общего уравнения
гласит, что коэффициент множественной детерминации для генеральной совокупности
Л''„„шут равен нулю:
Это эквивалентно следующей нулевой гипотезе
Общую проверку можно выполнить, используя F-
9? /t J.J _ / Л р = Е£ =
R2lk
~ (\~R2]/(n~k-\Y
которая имеет /-распределение с k и (п — k — 1) степенями свободы [17]. Результаты проверки
даны в табл. 17.3
f = 114.2643/2
6,6524/9
которая является значимой при а = 0,05.
Если общую нулевую гипотезу отклоняют, то один или несколько частных коэффициентов
регрессии в совокупности имеют значение, отличное от нуля. Чтобы определить, какие из кон-
кретных коэффициентов Д отличны от нуля, выполним дополнительные проверки. Проверку
значимости Д выполним тем же способом, что и в случае парной регрессии, т.е. используя t-
статистику. Значимость частного коэффициента для переменной — погодные условия — мож-
но выполнить с помощью уравнения
,= * = 0.2887 =эз;з
SE,, 0,08608
которое подчиняется /-распределению с (п — k — 1) степенями свободы. Этот коэффициент ста-
тистически значим при уровне значимости а = 0,05. Значимость коэффициента для перемен-
ной — длительность проживания, проверяют аналогичным образом и находят, что он стати-
стически значимый. Следовательно, обе переменные: погодные условия и длительность про-
живания, имеют значение при объяснении отношения респондента к своему городу.
Ряд компьютерных программ позволяют проводить расчет Т7- критерия, что зачастую назы-
вается вычислением частного /^критерия. Такой расчет включает разложение суммы квадратов
общей регрессии 55^ на компоненты, соответствующие каждой независимой переменной.
В обычном подходе эту процедуру осуществляют при допущении, что каждую независимую
переменную добавляют в уравнение регрессии после включения в него всех других независи-
мых переменных. Приращение к объясняемой сумме квадратов, получаемое после добавления
независимой переменной Х„ представляет собой компонент вариации, присущий этой пере-
менной и обозначаемый £.5^ [18]. Значимость частного коэффициента регрессии для этой пе-
ременной PL проверяют, используя F-статистику приращения:
которая имеет /"-распределение с 1 и (п — k — 1) степенями свободы. В то время как высокое
значение R 2 и значимые частные коэффициенты регрессии достаточно удобны, эффективность
регрессионной модели должны быть оценена анализом остатков.
664 Часть III, Сбор, подготовка и анализ данных
Анализ остатков
Остаток, остаточный член (residual) — это разность между наблюдаемым значением Y, и тео-
ретическим значением, предсказанным регрессионным уравнением У,.
Остаток, остаточный член (residual)
Разность между наблюдаемым значением YI и теоретическим значением, предсказанным
регрессионным уравнением Y t .
Значения остаточных членов используют при вычислении некоторых статистик, связанных
с регрессией. В дополнение к этому диаграммы рассеяния остатков, которые показывают их
значения в зависимости от предсказанных значений Y,, времени или предикторов дают полез-
ную информацию для анализа правильности сделанных допущений [19].
Допущение нормальности распределения ошибочного члена проанализируем, построив
гистограмму остатков. Визуальный осмотр покажет, является ли распределение нормальным.
Дополнительное доказательство получим, определив процент остатков, попадающих в область
± 1 SE или ± 2 SE. Эти проценты можно сравнить с ожидаемыми для нормального распреде-
ления (68% и 95% соответственно). Более формальную оценку можно получить, применив од-
новыборочный критерий Колмогорова—Смирнова.
Предположение о постоянном значении дисперсии ошибочного члена проанализируем,
нанеся на график значения остатков в зависимости от вычисленных значений независимой
переменной Y,. Если точки нанесены на график неупорядоченно, то дисперсия ошибочного
члена — величина постоянна. На рис. 17.6 показана форма расположения остаточных членов,
дисперсия которых зависит от значений Y t .
Вычисленное значение Y
Рис. 17.6. График расположения остаточных чле-
нов, показывающий, что их дисперсия — величина
непостоянная
График зависимости значений остатков от времени или последовательности наблюдений
прольет некоторый свет на допущение, что ошибочные члены не коррелированны. Если это
предположение справедливо, то форма рсположения остаточных членов носит случайный ха-
рактер. График, подобный приведенному на рис. 17.7, показывает линейную зависимость зна-
чений остатков от времени.
Более формальную процедуру проверки корреляции между ошибочными членами даст
критерий Дарбина — Уотсона [20].
Графическое изображение зависимости значений остаточных членов от независимых пере-
менных предоставляет доказательство того, насколько подходит теоретическая модель регрес-
сии. График должен показывать случайную форму расположения остаточных членов. Значения
Глава 17. Корреляция и регрессия 665
остатков должны располагаться случайным образом относительно одинаково вокруг нуля. Они
не должны смешаться ни в положительную, ни в отрицательную стороны.
Для того чтобы понять, следует ли в уравнение регрессии вводить дополнительные незави-
симые переменные, можно построить регрессию остатков от предполагаемых переменных. Ес-
ли какая-либо переменная объясняет значительную долю остаточной вариации, то, вероятно,
ее следует включить в уравнение регрессии. При введении переменных в уравнение регрессии
необходимо руководствоваться целью исследования. Таким образом, анализ остатков позволяет
глубже понять как соответствие лежащим в основе регрессионной модели допущениям, так и
соответствие регрессионной модели. На рис. 17.8 изображен график, который показывает, что
лежащие в основе регрессионной модели предположения удовлетворяются и линейная модель
соответствует фактическим данным.
Время
Рис. 17.7. График расположения оста-
точных членов, показывающий линейную
зависимость между их значениями и
временем
Если проверка остатков выявит, что лежащие в основе регрессионной модели допущения не
выполняются, то исследователь может преобразовать переменные таким образом, чтобы эти
предположения выполнялись. Такие преобразования, как логарифмирование, извлечение
квадратного корня или вычисление обратных величин, могут стабилизировать дисперсию,
сделать распределение нормальным и зависимость линейной. В дальнейшем мы проиллюстри-
руем применение множественной регрессии на примере.
ПРИМЕР. "Нет" дополнительным расходам на рекламу
Широко распространено мнение, что цены на журналы зависят от рекламы, помещаемой
на их страницах. Маркетологи провели исследование, посвященное изучению того, каким
образом наличие рекламы влияет на цену журнала.
Чтобы изучить зависимость между ценой журнала и такими переменными, как объем
журнала (стр.), тираж, процент распространения через газетные киоски, расходы на продви-
жение, процент цветных страниц и доходы от рекламы в расчете на один экземпляр, марке-
тологи применили множественный регрессионный анализ:
РРС = Ь 0 + Ь,(объемжурнала) + Ь 2(тираж) + Ь 3(% распр. через газ. киоски)
+ Ь 4 (расходы на продвижение) + Ь 5 (% цветн.) + £й(доход от рекламы)
где
РРС — цена одного экземпляра (в долл.)
объем журнала — количество страниц в номере (в среднем)
тираж — логарифм среднего оплаченного тиража (в 000)
% распр. через газетные киоски — % распространения через газетные киоски
666 Часть III. Сбор, подготовка и анализ данных
расходы на продвижение — расходы на продвижение журнала
% цветн. — % цветных страниц
доход от рекламы — доход от рекламы в расчете на один экземпляр (в долл.)
Результаты регрессионного анализа, в котором зависимой переменной служила цена
журнала в расчете на один экземпляр, представлены в табл. 1. Из шести переменных значи-
мыми оказались три (р < 0,05): количество страниц, средний тираж и процент распростра-
нения через газетные киоски. Три переменные обусловили фактически всю из объяснимой
дисперсии (R 2 = 0,51; скорректированный R 1 = 0,48). Направление коэффициентов согласо-
валось с априорными ожиданиями: для количества страниц коэффициент был положитель-
ным, для тиража — отрицательным и для процента распространения через газетные киос-
ки — положительным. Такой результат и можно было ожидать, исходя из особенностей
данной сферы бизнеса, и он подтверждает предполагаемую зависимость.
Таблица 1. Регрессионный анализ с использованием цены одного экземпляра журнала как неза-
висимой переменной
Ь SE F
Зависимая переменная: цена одного экземпляра
Независимые переменные:
Объем журнала
Тираж
Процент распространения через газетные киоски
Расходы на продвижение журнала
Процент цветных страниц
Доход от рекламы в расчете на один экземпляр журнала
Общий Яг
•р<0,05
" - количество десятичных знаков после запятой
0,0084 0,0017 23,04*
-0,4180 0,1372 9,29*
0,0067 0,0016 18,46*
0,13-04" 0,0000 0,59
0,0227 0,0092 0,01
0,1070 0,0412 0,07
df = 9,93 Общая F-статистика = 16,19*
Установлено, что расходы на продвижение журнала, использование цвета и доходы от
рекламы в расчете на один журнал не связаны с ценой одного экземпляра журнала. Это вы-
явлено в результате регрессионного анализа после исключения эффектов от влияния других
переменных: тиража, процента распространения через газетные киоски и количества стра-
ниц редактора.
Поскольку эффект дохода от рекламы не был статистически значимым, то утверждение,
что реклама снижает цену одного экземпляра журнала, не подтвердилось. Таким образом,
1 наличие рекламы в журнале никак не влияет на цену журнала [21].
ПОШАГОВАЯ РЕГРЕССИЯ
Цель пошаговой регрессии (stepwise regression) состоит в отборе из большого количества пре-
дикторов небольшой подгруппы переменных, которые вносят наибольший вклад в вариацию
зависимой переменной.
Пошаговая регрессия (stepwise regression)
Регрессионная процедура, в которой предикторы по очереди вводят или выводят из урав-
нения регрессии.
Глава 17. Корреляция и регрессия 667
Вычисленное значение У
Рис. 17.8. График расположения остатков,
показывающий что теоретическая модель
соответствует данным наблюдения.
В этой процедуре предикторы вводят или выводят из уравнения регрессии по очереди [22].
Существует несколько подходов к выполнению пошаговой регрессии,
1. Прямое включение (прямая пошаговая регрессия). Вначале уравнение регрессии не содер-
жит предикторов. Они вводятся по одному, если они удовлетворяют определенному F-
критерию. В основе порядка введения включаемых переменных лежит вклад перемен-
ной в объясняемую вариацию.
Обратная пошаговая регрессия — исключение переменной. Вначале все предикторы входят в
уравнение регрессии. Затем по очереди выводятся из уравнения, исходя из их соответствия
F- критерию.
Пошаговый подход. На каждой стадии прямое включение осуществляют одновременно с вы-
водом предикторов, которые больше не удовлетворяют конкретному критерию.
Метод пошаговой регрессии не позволяет выводить оптимальные уравнения регрессии с
точки зрения получения наибольшего коэффициента детерминации R 2 для данного числа пре-
дикторов [23]. Из-за корреляций между предикторами важная переменная может никогда не
быть включена в уравнение, а второстепенные переменные будут введены в уравнение. Чтобы
определить оптимальное уравнение регрессии, желательно просчитать варианты, в которых
анализируются все возможные комбинации. Несмотря на это, пошаговая регрессия полезна в
ситуации, когда размер выборки велик по сравнению с количеством предикторов, как это по-
казано наследующем примере.
2.
3.
ПРИМЕР. Покупать? Нет, посмотреть.
Для определения профиля посетителей магазинов местного торгового центра, не имеющих
определенной цели покупки (browsers), маркетологи использовали три набора независимых пе-
ременных: демографические, покупательское поведение; психологические. Зависимая пе-
ременная представляет собой индекс посещения магазина без определенной цели, индекс брау-
зинга (browsing index). Методом ступенчатой регрессии, включающей все три набора пере-
менных, выявлено, что демографические факторы — наиболее сильные предикторы,
определяющие поведение покупателей, не преследующих конкретных целей. Окончательное
уравнение регрессии, содержащее 20 из 36 возможных переменных, включало все демогра-
фические переменные. В следующей таблице приведены коэффициенты регрессии, стан-
дартные ошибки коэффициентов, а также их уровни значимости.
668 Часть III. Сбор, подготовка и анализ данных
Регрессионный анализ (индекс браузинга - зависимая переменная) с использованием
пошаговой регрессии
Независимые переменные Коэффициент Стандартная Значимость
регрессии ошибка, SE
Пол (0 - мужчины, 1 -женщины) - 0,485 0,164 0,001
Занятость (0 - имеет работу) 0,391 0,182 0,003
Уверенность (в своем положении) - 0,151 0,128 0,234
Образование 0,079 0,072 271
Отношение к торговой марке -0,063 0,028 0,024
Смотрит ли телевизор в дневное время? (О - да) 0,232 0,144 0,107
Напряженность - 0,182 0,069 0,008
Доход 0,089 0,061 0,144
Частота посещения торгового центра - 0,130 0,059 0,028
Имеет меньше друзей, по сравнению с другими 0,162 0,084 0,054
Хороший покупатель - 0,122 0,090 0,174
Важность мнения других -0,147 0,065 0,024
Контроль над жизнью - 0,069 0,069 0,317
Размер семьи - 0,086 0,062 0,165
По характеру - энтузиаст - 0,143 0,099 0,150
Возраст 0,036 0,069 0,603
Количество покупок - 0,068 0,043 0,150
Число покупок в одном магазине 0,209 0,152 0,167
Покупки при стесненных средствах - 0,055 0,067 0,412
Оценка качества товаров - отличное -0,070 0,089 0,435
Константа 3,250
Общий R2 = 0,477
При интерпретации коэффициентов регрессии следует иметь в виду, что чем меньше
индекс браузинга (зависимая переменная), тем сильнее покупатели склонны демонстриро-
вать поведение, связанное с посещением магазина без определенной цели. Два предиктора с
самыми большими коэффициентами — это пол и занятость. После учета этих переменных
обнаружено, что чаще всего посетителями без определенной цели являются работающие
женщины, как правило, молодого возраста, причем с низким уровнем образования и дохода
и необязательно одиноки. Марктеологи определили, что большим размерам семьи соотвст- 1 ствуют меньшие значения индекса браузинга,
Посещение магазина людьми с низкими доходом указывает на то, что специализирован-
ные магазины в торговых центрах предлагают товары по умеренным ценам. Это может объяс- |
! нить низкий уровень банкротства среди таких магазинов торгового центра и стремление доро- j
1 гих специализированных магазинов размещаться только в престижных торговых центрах [24].
МУЛЬТИКОЛЛИНЕАРНОСТЬ
Пошаговую и множественную регрессию осложняет мультиколлинеарность. Фактически
всегда множественный регрессионный анализ в маркетинговых исследованиях имеет дело со
связанными между собой предикторами. Однако мультиколлинеарность (multicollmearity) воз-
никает тогда, когда связь между предикторами очень сильная [25].
Глава 17. Корреляция и регрессия 669
Мул ьтиколл и неарность (multicollinearity)
Состояние очень высокой степени корреляции между независимыми переменными,
Мул ьтиколл и неарность может привести к нескольким проблемам, включая следующие.
1. Частные коэффициенты регрессии нельзя точно определить. Значения стандартных оши-
бок скорее всего очень высокие.
2. Величины и знаки частных коэффициентов регрессии могут изменяться от выборки к
выборке.
3. Трудно оценить относительную важность независимых переменных при объяснении ва-
риации зависимой переменной,
4. Предикторы могут быть некорректно введены или исключены из уравнения регрессии в
ступенчатой регрессии.
Не всегда ясно, за счет чего существует сильная мул ьти коллинеарность, хотя в литературе
предлагается несколько эмпирических правил и процедур ее выявления. Чтобы справиться с
проблемой мул ьти коллинеарности, предлагается изменить уровень сложности [26]. Простая
процедура заключается в использовании только одной переменной из высоко коррелированно-
го набора переменных. Альтернативно, с помощью такого метода, как анализ главных компо-
нентов, можно преобразовать набор независимых переменных в новый набор предикторов,
взаимно независимых (глава 19). Кроме того, можно использовать специальные методы, такие
как гребневая регрессия и факторный анализ [27].
ОТНОСИТЕЛЬНАЯ ВАЖНОСТЬ ПРЕДИКТОРОВ
При мул ьти колл и неарности особое внимание следует уделить оценке относительной важно-
сти независимых переменных. При проведении маркетингового исследования целесообразно оп-
ределить относительную важность предикторов. Другими словами, насколько значимы независи-
мые переменные с точки зрения их вклада в вариацию зависимой переменной [28]? К сожалению,
из-за взаимосвязанности предикторов в регрессионном анализе не существует однозначного по-
казателя относительной важности предикторов [29]. Однако есть несколько широко распростра-
ненных подходов, используемых для оценки относительной важности независимых переменных.
1. Статистическая значимость. Если частный коэффициент регрессии переменной не являет-
ся значимым, что определяется приростным F-критерием, то эту переменную не считают
важной. Исключение из этого правила— веские теоретические причины, полагающие, что
эта переменная важная.
2. Квадрат линейного коэффициента корреляции. Этот показатель г2 представляет долю вариа-
ции зависимой переменной, которую можно объяснить независимой переменной в парной
зависимости.
3. Квадрат частного коэффициента корреляции. Этот показатель К гу, г.1& представляет собой
коэффициент детерминации между зависимой и независимой переменными, при исклю-
чении эффектов от влияния других независимых переменных.
4. Квадрат частичного коэффициента корреляции. Этот коэффициент представляет увеличение
R 2, когда переменную вводят в уравнение регрессии, которое содержит другие независимые
переменные.
5. Показатели, основанные на нормированных коэффициентах или взвешенных "бета"-
коэффициентах. Эти наиболее часто используемые показатели представляют собой абсо-
лютные значения взвешенных "бета"-коэффициентов IJ3J или значения квадратов коэф-
фициентов P2j. Поскольку это частные коэффициенты, то взвешенные "бета"-
коэффициенты учитывают эффект других независимых переменных. Чем выше корреля-
670 Часть III. Сбор, подготовка и анализ данных
ция между предсказанными переменными (с ростом мультиколлинеарности), тем нена-
дежнее эти показатели.
6. Пошаговая регрессия. Порядок ввода или вывода предикторов в уравнение регрессии ис-
пользуют для определения их относительной важности.
Принимая во внимание, что предикторы взаимосвязаны, по крайней мере, в некоторой
степени, фактически во всех регрессионных ситуациях, ни один из этих показателей не являет-
ся достаточно надежным. Кроме того, возможно, что разные показатели могут указывать на
различный порядок важности предикторов (могут располагать предикторы по степени важно-
сти в разном порядке) |30]. Однако если все показатели изучать совместно, то представление об
относительной важности предикторов будет достаточно ясным.
ПЕРЕКРЕСТНАЯ ПРОВЕРКА
Прежде чем оценить относительную важность предикторов или сделать какие-либо другие
выводы, необходимо подвергнуть регрессионную модель перекрестной проверке. Дело в том,
что для регрессии и других многомерных процедур характерно выявление случайных вариаций
переменных. Это приводит к тому, что уравнение регрессии становится чрезмерно чувстви-
тельным к конкретным данным, используемым для построения модели. Одним из подходов
для оценки модели из-за этой и других проблем, связанных с регрессией, — перекрестная про-
верка. Перекрестная проверка (cross-validation) позволяет проанализировать, действительно ли
регрессионная модель распространяется на сопоставимые данные, которые не использовались
для построения модели.
Перекрестная проверка (cross-validation)
Проверка достоверности модели, с помощью которой изучают, применима ли регрессион-
ная модель для анализа сопоставимых данных, не использовавшихся при построении ис-
ходной модели.
Типичная процедура перекрестной проверки, используемая в маркетинговых исследовани-
ях, состоит из следующих стадий.
1. Маркетологи рассчитывают регрессионную модель, используя полный набор данных.
2. Имеющиеся данные делят на две части: расчетную выборку и контрольную выборку. Расчет-
ная выборка обычно содержит от 50 до 90% данных общей выборки.
3. Регрессионную модель рассчитывают, используя только данные из расчетной выборки. Эту
модель сравнивают с моделью, рассчитанную по данным полной выборки, чтобы опреде-
лить их соответствие с точки зрения знаков и величин частных коэффициентов регрессии.
4. Рассчитанную модель применяют к данным из контрольной выборки чтобы определить
значения зависимой переменной У, для наблюдений в контрольной выборке.
5. Наблюдаемые значения ^ и расчетные теоретические значения У, в контрольной выборке
сопоставляют, чтобы определить линейный коэффициент детерминации г 2. Его сравнивают
с коэффициентом R 2 для полной выборки и с R 1 — для расчетной выборки, чтобы оценить
степень сжатия.
Специальную форму проверки называют двойной перекрестной проверкой. При двойной
перекрестной проверке (double cross-validation) выборку делят на две равные половины.
Двойная перекрестная проверка (double cross-validation)
Специальная форма проверки, в которой выборку делят на две равные части. Одна поло-
вина служит расчетной выборкой, а вторая - контрольной. Затем роли выборок меняются, и
перекрестную проверку повторяют.
Глава 17. Корреляция и регрессия 671
Категория
потребителя товара
Не использующие
Слабо
Средне
Много
код
исходной
переменной
1
2
3
4
0,
1
0
0
0
При выполнении перекрестной проверки одна половина служит расчетной выборкой, вто-
рая — контрольной. Затем места расчетной и контрольной выборок меняются и перекрестную
проверку повторяют [31].
РЕГРЕССИЯ С ИСПОЛЬЗОВАНИЕМ ФИКТИВНЫХ
ПЕРЕМЕННЫХ
Перекрестная проверка представляет собой общую процедуру, которую можно применять
для некоторых специальных приложений регрессии, таких как регрессия с использованием
фиктивных переменных. В качестве предикторов можно использовать номинальные
(категориальные) переменные, закодировав их как фиктивные. Понятие фиктивных перемен-
ных введено в главе 14. В той главе мы объяснили, как категориальную переменную с четырьмя
уровнями (люди, которые много, средне, слабо потребляют товар и не используют) можно вы-
разить тремя фиктивными переменными: D }, D 2, D }, как показано ниже,
Код фиктивной переменной
Ог D3
0 О
1 О
Ч 1
о о
Предположим, что исследователя интересует регрессионный анализ зависимости отноше-
ния к торговой марке от степени потребления товара, Фиктивные переменные D,, D 2 и D 3 мож-
но использовать как предикторы. Регрессия с фиктивными переменными описывается таким
уравнением:
Y. = a + bjD, + Ь^2 + b3D}
В этом случае категория "много потребляющие" выбрана в качестве контрольной и поэтому
не включена непосредственно в уравнение регрессии. Обратите внимание, что для этой катего-
рии значения фиктивных переменных D b D 2 и />3 определено равным нулю, и уравнение рег-
рессии принимает вид
Y, = а
Для не пользователей Д = 1 и D 2 = D 3 = 0 и уравнение регрессии запишем
Y, = а+Ь,
Таким образом, коэффициент £, представляет собой разницу в вычисленном значении для
не пользователей по сравнению с пользователями, потребляющими много продукта. Коэффи-
циенты Ь 2 и Ь 3 интерпретируют аналогично. Хотя в этом примере уровень ''много потребляю-
щие пользователи" выбран как контрольный, в принципе для этой дели подходит любой из
трех уровней [32].
ДИСПЕРСИОННЫЙ И КОВАРИАЦИОННЫЙ АНАЛИЗ
С ИСПОЛЬЗОВАНИЕМ РЕГРЕССИИ
Регрессия с фиктивными переменными служит основой для понимания дисперсионного и
ковариационного анализа. Покажем, что регрессия с фиктивными переменными равнозначна
672 Часть III, Сбор, подготовка и анализ данных
однофакторному дисперсионному анализу. В регрессии с фиктивными переменными теорети-
чески определенное значение У для каждого уровня категориальной переменной представляет
собой среднее значение Г для каждого уровня. Чтобы проиллюстрировать использование фик-
тивной переменной, обозначающей использование товара, приведем ниже вычисленные У и
средние значения для каждого уровня.
Уровни потребителей продукта Вычисленное значение Y Среднее значение Y
Не пользователь а + b? a + Ь,
Слабо потребляющие а + Ьг а + Ъ?
Средне потребляющие а + Ьз а+Ьз
Много потребляющие а а
Принимая во внимание данные равенства, легко проследить дальнейшую связь между
регрессией с фиктивными переменными и однофакторным дисперсионным анализом
AN OVA [33].
Регрессия с фиктивными переменными Однофакторный дисперсионный анализ
ж—ч / *. \~ — *J^,
= SS.
Я2
Общий F-критерий = F-критерий
Таким образом, мы видим, что регрессионный анализ, в котором единственная независи-
мая переменная с с-уровнями (категориями) может быть записана с — 1 фиктивными пере-
менными, эквивалентен однофакторному регрессионному анализу. Аналогично можно пока-
зать, как выполнить многофакторные дисперсионный и ковариационный анализ, используя
регрессию с фиктивными переменными.
Регрессионный анализ в разных формах широко используют на практике. Врезка 17.1
"Практика маркетинговых исследований" показывает его применение для международ-
ного маркетингового исследования, а врезка 17.2 "Практика маркетинговых исследова-
ний" показывает, как использовать регрессию при изучении этики в маркетинговых ис-
следованиях.
Врезка 17.1. Практика маркетинговых исследований
Что необходимо аввиапассажиру
Длительное время авиакомпании из Азии сталкивались с неопределенностью и жесткой
конкуренцией со стороны авиаперевозчиков из США. Азиатские авиалинии, страдавшие от
снижения числа пассажиров, осознали необходимость объединения усилий для зашиты
своих интересов.
Вторичные данные показали, что к важным факторам, влияющим на выбор пассажи-
рами авиакомпании, относятся: иена авиабилета, соблюдение расписания полетов, пункт
назначения, наличие билетов, обеспечение питанием, сервис во время полета и тому по-
добное. Азиатские авиакомпании, как и конкуренты, предлагали такого рода услуги. Ис-
следование показало, что сервисное обслуживание (включая обеспечение питанием), ве-
роятно, было даже лучше, чем у конкурентов. Так почему же эти компании испытывали
давление со стороны конкурентов? Результаты фокус-групп продемонстрировали, что
программа для часто летаюших пассажиров была решающим фактором для пассажиров в
целом и особенно для бизнес-сегмента. Для анализа данных опроса пассажиров на меж-
Глава 17. Корреляция и регрессия 673
дународных авиалиниях маркетологи применили множественный регрессионный анализ.
Вероятность полета и показатели выбора пассажирами авиакомпании служили зависимой
переменной, а набор сервисных факторов, включая программу для часто летающих пасса-
жиров, были независимыми переменными. В результате маркетологи обнаружили, что,
программа для часто летающих пассажиров влияла на выбор авиалинии. Исходя из этих
исследований, авиакомпании Cathay Pacific, Singapore International Airlines, Thai Airways
International и Malaysian Airline systems ввели совместную программу для часто летающих
пассажиров под названием Asia Plus, доступную для всех пассажиров. Впервые в рамках
этой программы азиатские авиакомпании предлагали бесплатный полет для пассажиров,
регулярно пользующихся их услугами. Для продвижения программы Asia Plus компании
начали крупномасштабную маркетинговую и рекламную кампанию, в которую были
вложены миллионы долларов. Таким образом, у авиалиний Азии значительно увеличи-
лось число клиентов [34).
Врезка 17.2. Практика маркетинговых исследований
Этика и регрессионный анализ
С маркетинговыми исследованиями связано ряд этических проблем. В частности,
маркетологов, проводящих исследования, часто обвиняют в обмане, конфликте интере-
сов, нарушении анонимности, вмешательстве в частную жизнь, фальсификации данных,
распространении ложных результатов исследования, а также в использовании его для
продажи товара. Было выдвинуто предположение, что когда исследователь решается на
неэтичный поступок, на это влияют разного рода организационные факторы, непосредст-
венно связанные с деятельностью его компании. Для их изучения было предпринято ис-
следование с применением множественного регрессионного анализа. В качестве незави-
симых выбраны шесть организационных переменных: наличие этических проблем внут-
ри организации; отношение к этим проблемам руководства компании; этический кодекс,
класс организации, категория отрасли и роль организации. Зависимой переменной слу-
жила оценка респондентами степени распространения неэтичной исследовательской
практики. В результате регрессионного анализа данных выявлено, что четыре из шести
переменных оказывали влияние на степень распространения неэтичной исследователь-
ской практикой. Этими переменными оказались: распространение этических проблем
внутри организации, отношение к этим проблемам руководства компании, роль органи-
зации и категория отрасли [35].
INTERNET И ИСПОЛЬЗОВАНИЕ КОМПЬЮТЕРА
Существует несколько компьютерных программ для выполнения корреляционного анали-
за. В программе SPSS можно использовать CORRELATIONS для вычисления коэффициента
корреляции Пирсона, PARTIAL CORR— для вычисления частных корреляций и NONPAR
CORR — для вычислений коэффициентов ранговой корреляции Спирмена р и Кендалла т.
В программе SAS можно использовать CORR для вычисления коэффициентов корреляций
Пирсона, Спирмена, Кендалла и коэффициентов частных корреляций. В BMDP с помощью
PSD вычисляют коэффициент корреляции Пирсона, с помощью P3S — коэффициенты корре-
ляции Спирмена и Кендалла, с помощью P6R — частные корреляции. В Minitab можно вычис-
лить корреляцию, используя функцию Stat>Basic>Corre]ation. С ее помощью вычисляют коэф-
фициент корреляции Пирсона.
В Excel для определения корреляции обращаются к функции Tools>Data analysis>Corre]ation.
Используйте функцию Correlation Worksheet Function, чтобы определить коэффициент корреля-
ции для двух рядов ячеек.
674 Часть III. Сбор, подготовка и анализ данных
Компьютерные программы для анализа корреляции и регрессии
SPSS
С помощью программы REGRESSION вычисляют уравнения парной и множественной
регрессий, соответствующие статистики и графики. Она также позволяет легко проверить
значения остаточных членов. Можно выполнить и ступенчатую регрессию, Регрессионные
статистики также можно вычислить с помощью программы PLOT, которая строит диаграм-
мы рассеяния и другие виды диаграмм.
SAS
Программа REG является общей процедурой для выполнения регрессионного анализа,
которая подходит для парных и множественных регрессионных моделей при использовании
метода наименьших квадратов. Она позволяет вычислить все соответствующие статистики и
построить график расположения остаточных членов. Могут быть реализованы ступенчатые
методы. Метод ORTHOREG рекомендуют для регрессии в случае некорректных данных,
Программа GLM использует метод наименьших квадратов для подгонки общих линейных
моделей, ее также можно использовать для регрессионного анализа. С помощью программы
NLIN вычисляют параметры нелинейных моделей, используя методы наименьших квадра-
тов или взвешенных наименьших квадратов.
BMDP
Программа P1R вычисляет парные и множественные линейные регрессии. Также можно
вычислить соответствующие статистики и построить диаграммы остаточных членов. P2R —
программа для вычисления ступенчатой регрессии с помощью разных подходов. Можно
предопределить порядок ввода или вывода переменных, определить ввод или вывод пере-
менных по частям, исходя из значения критерия. P9R выполняет все возможные подмноже-
ства регрессии. Эта программа идентифицирует "наилучшие" подмножества предикторов, ее
можно использовать для множественной регрессии без выбора подмножеств. Программа
P4R вычисляет регрессионный анализ по набору главных компонентов, полученных из не-
зависимых переменных.
Mini tab
Регрессионный анализ с помощью функции Stats>Regression может выполнять простой,
полиномиальный и множественный анализ. Результат включает линейное уравнение рег-
рессии, таблицу коэффициентов R 2, скорректированный Л2, таблицу ANOVA, таблицу соот-
ветствий и остатков, которые дали необычные наблюдения. Другие доступные характери-
стики включают: ступенчатую регрессию, наилучшие подмножества, график подогнанной
линии регрессии и диаграммы остатков.
Excel
Регрессию можно вычислить с помощью меню Tools>Data analysis. В зависимости от вы-
бранных характеристик можно получить таблицу выходных данных, включая таблицу
ANOVA, стандартной ошибки у, коэффициенты регрессии, стандартную ошибку коэффи-
циентов, значения Л-' и количество наблюдений. Также с помощью данной функции вы-
числяют таблицу выходных данных остаточных членов, строят график остатков, аппрокси-
мированную прямую линейной зависимости, график нормального распределения вероятно-
сти и таблицу выходных данных, состоящую из двух колонок значений вероятностей.
Как описано во "Вставке 17.1", компьютерные программы содержат несколько программ
для выполнения регрессионного анализа, вычисления соответствующих статистик, выпол-
нения проверок значимости и построения графиков остаточных членов. В SPSS главная про-
грамма— REGRESSION. В SAS наиболее часто используемая программа— REG. Также
доступны и другие специализированные программы, такие как RSREG, ORTHOREG, GLM
Глава 17. Корреляция и регрессия 675
и NLIN, но читателям, не знакомым со сложными аспектами регрессионного анализа, мы
советуем обращаться к программе REG только при использовании SAS. В BMDP основная
программа для выполнения двумерной и множественной регрессии — PI R, a P2R — для сту-
пенчатой регрессии. Программы P9R и P4R более специализированные. В Minibab с помо-
щью функции Stats>Regression можно выполнить дисперсионный анализ, как простой, так и
полиномиальный и множественный. В Excel регрессионный анализ можно выполнить с по-
мощью меню Tools>Data analysis [36].
В центре внимания Burke
Мы часто сталкиваемся с ситуацией, когда одновременно необходимо анализировать
фиктивные и интервальные переменные. Проиллюстрируем подобную ситуацию на приме-
ре маркетингового исследования, проведенного компанией Burke, но с упрощенным набо-
ром данных. Респондентам был задан вопрос, сколько они имели в своем распоряжении
кредитных карточек на момент интервью и попросили проранжировать "ценность кредита"
по отношению к их образу жизни (по шкале рангов, начинающейся с предметов, крайне не-
обходимых для поддержания их образа жизни, и до предметов, необязательных для поддер-
жания принятого ими образа жизни). Фиктивная переменная d, указывает место жительства
респондентов: 1 — в сельской местности, 0 -— в городе.
Число кредитных карточек
У
2
4
6
4
ь
6
2
3
4
5
6
Рейтинг ценности кредита
XI
'2
3
4
5
6
1
2
3
4
5
6
Место жительства респондента
Построена регрессионная модель и в качестве критерия для включения переменной вы-
бран 90%-ный доверительный уровень. Отдельные результаты множественного регрессион-
ного анализа приведены ниже.
Модели0
Статистики изменения
Модель R
Скоррек- Стандартная Измене- F-сгатис- Степени Степени Значимость
тирован- ошибка me ft2 тика изме- свободы свободы F-статистики
оценивания нения 1 2 изменения
0,872Э
0,915Ь
0,761
0,837
ныйй*
0,737
0,800
0,9131
07964,
0,761
0,075
31,876
4,146
I 10
9
0,000
0,072
3 Предикторы: (константа), ЦЕННОСТЬ КРЕДИТА
в Предикторы: (константа), ЦЕННОСТЬ КРЕДИТА, МЕСТО ЖИТЕЛЬСТВА
с Зависимая переменная: КАРТОЧКИ (количество кредитных карточек)
676 Часть III. Сбор, подготовка и анализ данных
Коэффициенты3
Недатированные Нормированные р?™*°£т. Корреляции
коэффициенты коэффициенты гервал для В
Модель В Стандартная ft t Значи Нижний Верхний Нулевого Част- Частич-
ошибка мость порядок ная пая
1.(Констанга) 1,533 0,601 2,551 0,029 0,194 2,873
ЦЕННОСТЬ 0,871 0,154 0,872 5,646 0,000 0,528 1,215 0,872 0,872 0,872
2.(КонСтанта) -1,208 1,445 -0,836 0,425 -4,477 2,060
ЦЕННОСТЬ 1,375 0,282 1,377 4,883 0,001 0,738 2,012 0,872 0,852 0,658
МЕСТО 1,958 0,962 0,574 2,036 0,072 -0,217 4,134 -0,635 0,562 0,274
ЖИТЕЛЬСТВА
а. Зависимая переменная: КАРТОЧКИ (количество кредитных карточек)
Исключенные переменные"
Модель Бега t Значимость Частная корреляция Коллинеарность
Допустимое отклонение статистик
1 МЕСТО 0,574а 2,036 0,072 0,562 0,229
ЖИТЕЛЬСТВА
а Предикторы в модели: (Константа]. ЦЕННОСТЬ (кредита)
b Зависимая переменная: КАРТОЧКИ (количество кредитных карточек)
В предыдущей модели мы определили следующее уравнение регрессии:
Y= - 1,2083 + 1,375 (X,) + 1,9583 (D,)
Вспомните, что D; — просто или нуль, или 1, причем если D[ = 0, то респонденты живут
в городе. Если D, = 1, то респонденты живут в сельской местности. Можно описать модель
как две модели. Для респондентов, живущих в городе, получим следующее уравнение рег-
рессии, в котором Кне зависит от фиктивной переменной — кода местности.
Городская модель Y= - 1,2083 + 1,375 (X,)
Для каждого респондента, живущего в сельской местности, вклад переменной — место
жительства в зависимую переменную Y(ненормированный коэффициент) равен 1,9583. По-
этому для таких респондентов это постоянное значение, и мы может добавить его к констан-
те общей модели (например, — 1,2083 + 1,9583 = 0,75). Теперь мы имеем отдельную регрес-
сионную модель для респондентов, живущих в сельской местности.
Сельская модель Y= 0,7500 + 1,375 (Xj)
Это единственный способ увидеть различие между этими двумя постоянными членами
(различие состоит, конечно, в коэффициенте регрессии для DJ), который отражает среднее
различие между городскими и сельскими респондентами при постоянном значении рей-
тинга ценности кредита.
Как все это применить на практике? Создавая модели с фиктивной переменной, как бы-
ло проиллюстрировано, мы допускали, что зависимость количества кредитных карточек от
рейтинга ценности кредита является постоянной, т.е. не зависит от того, живут респонденты
в городе или в сельской местности. Это можно проверить, установив связь между рейтингом
ценности кредита и количеством кредитных карточек в зависимости от типа респондента.
Затем можно проверить две модели с разными угловыми коэффициентами. Если угловые
коэффициенты не отличаются, то можно использовать одну общую модель:
Y - - 1,2083 + 1,375 (X,) + 1,9583 (D,)
Если угловые коэффициенты разные, то следует построить различные модели для рес-
пондентов из города и сельской местности.
Глава 17. Корреляция и регрессия 677
РЕЗЮМЕ
Парный коэффициент корреляции г является мерой линейной связи между двумя метри-
ческими (измеренными интервальной или относительной шкалой) переменными. Его квадрат
г 2 измеряет долю вариации одной из переменных, обусловленную вариацией другой. Частный
коэффициент корреляции — мера зависимости между двумя переменными после исключения
эффекта от влияния одной или нескольких дополнительных переменных. Порядок частной
корреляции указывает на количество переменных, на которые необходимо внести поправку
или которые следует исключить. Коэффициенты частной корреляции могут оказаться полез-
ными для выявления ложных связей.
С помощью парной регрессии устанавливается математическая зависимость (в виде урав-
нения) между метрической зависимой (критериальной) переменной и метрической независи-
мой переменной (предиктором). Уравнение описывает прямую линиию, и для его вывода ис-
пользуют метод наименьших квадратов. В случае построения регрессии с нормированными
данными отрезок, отсекаемый на оси OY, принимает значение, равное 0, и коэффициенты рег-
рессии называют взвешенными "бета"-коэффициентами. Силу тесноты связи измеряют ко-
эффициентом детерминации г, который получают, вычисляя отношение SS peefW к SS r Стан-
дартную ошибку уравнения регрессии используют для оценки точности предсказания, и ее
можно интерпретировать как род средней ошибки, сделанной при теоретическом предсказании
Y, исходя из уравнения регрессии.
Множественная регрессия включает одну зависимую и две (или больше) независимых пе-
ременных. Частный коэффициент регрессии Ь, представляет ожидаемое изменение Y, когда X,
меняется на одну единицу, а переменные от Х 2 до X k остаются постоянными. Силу тесноты
связи измеряют коэффициентом множественной детерминации R 2. Значимость общего урав-
нения регрессии проверяется общим F-критерием. Отдельные частные коэффициенты регрес-
сии можно проверить на значимость, используя F-критерий приращений. Диаграммы рассея-
ния остаточных членов, когда их значения представлены графически в зависимости от пред-
сказанных теоретических значений К; , времени или предикторов, полезны для проверки
соответствия основным допущениям и подобранной регрессионной модели.
При пошаговой регрессии предикторы вводят или выводят из уравнения регрессии один за
другим с целью выбора меньшего их числа, которые объясняют большую часть вариации кри-
териальной переменной. Мул ьти колли неарность или очень высокая взаимная корреляция ме-
жду предикторами может вызвать некоторые проблемы. Из-за того, что предикторы взаимо-
связаны (коррелируют), регрессионный анализ не обеспечивает однозначного свидетельства об
относительной важности предикторов. Перекрестная проверка может установить, верна ли рег-
рессионная модель для сопоставимых данных, не использованных при ее вычислении. Она яв-
ляется полезным методом при оценке регрессионной модели.
Можно использовать категориальные переменные как предикторы путем их кодирования
как фиктивных переменных. Множественная регрессия с фиктивными переменными предос-
тавляет общий метод для выполнения дисперсионного и ковариационного анализа.
ОСНОВНЫЕ ТЕРМИНЫ И ПОНЯТИЯ
• F-критерий (F-test) • коэффициент детерминации (coefficient of
• ^-статистика (/-statistic) determination)
• вычисленное, предсказанное, теоретиче- * коэффициент множественной детерми-
ское значение (estimated, predicted value) нации (coefficient of multiple determination)
• двойная перекрестная проверка (double * коэффициент регрессии (regression
cross-validation) coefficient)
• ковариация (covariance) * метод наименьших квадратов (leastsquares
procedure)
678 Часть III. Сбор, подготовка и анализ данных
множественная регрессия (multiple
regression)
модель множественной регрессии
(multiple regression model)
мудьтиколлинеарность(тиШсоШпеапЧу)
неметрическая корреляция (nonmetric
correlation)
нормированный коэффициент регрессии
(standardized regression coefficient)
остаточный член, остаток (residual)
парная регрессионная модель (bivariate
regression model)
парная регрессия (bivariate regression)
парный коэффициент корреляции г
(product moment correlation, r)
перекрестная проверка (cross-validation)
поле корреляции (scattergram)
пошаговая регрессия (stepwise regression)
регрессионный анализ (regression analysis)
скорректированный /^(adjusted R 2)
стандартная ошибка (standard error)
стандартная ошибка уравнения регрессии
(standard error of estimate)
сумма квадратов ошибок (sum of squared
errors)
частичный коэффициент корреляции
(part correlation coefficient)
частный F-критерий (partial f-test)
частный коэффициент корреляции
(partial correlation coefficient)
частный коэффициент регрессии (partial
regression coefficient)
УПРАЖНЕНИЯ
Вопросы
1. Что такое парный коэффициент корреляции? Указывает ли его значение, равное 0, что пе-
ременные не связаны между собой?
2. Что такое частный коэффициент корреляции?
3. В чем закглючается основное применение регрессионного анализа?
4. Что такое метод наименьших квадратов?
5. Объясните значение нормированных коэффициентов регрессии.
6. Как измеряют тесноту связи при парной регрессии? А при множественной?
7. Что означает точность предсказания?
8. Что такое стандартная ошибка уравнения регрессии?
9. Какие допущения лежат в основе парной регрессии?
10. Что такое множественная регрессия?
11. Объясните, что такое частный коэффициент регрессии. Почему он так назван?
12. Сформулируйте нулевую гипотезу при проверке значимости общего уравнения множест-
венной регрессии. Как проверяют данную нулевую гипотезу?
13. Для чего нужен анализ остаточных членов?
14. Объясните, что такое метод пошаговой регрессии. Какова его цель?
15. Что такое мультиколлинеарность? Какие проблемы могут возникнуть из-за мультиколли-
неарности?
16. Какие показатели используют для оценки относительной важности предикторов при мно-
жественной регрессии?
17. Опишите метод перекрестной проверки. Опишите метод двойной перекрестной проверки.
18. Продемонстрируйте эквивалентность регрессии с фиктивными переменными и однофак-
торного дисперсионного анализа (ANOVA).
Глава 17. Корреляция и регрессия 679
Задачи
1. Руководство сети универмагов хочет определить, как влияют расходы на продвижение това-
ров, на конкурентоспособность сети. Из 15 штатов получены данные о расходах на продви-
жение относительно главного конкурента (расходы конкурента приняли за 100) и об объеме
продаж относительно этого же конкурента (объем продаж конкурента принят за 100).
Перед вами поставлена задача — доложить руководству, существует ли какая-либо связь
между относительными затратами на продвижение и относительным объемом продаж.
a) Постройте график зависимости относительных объемов продаж (по оси Y) от относи-
тельных расходов на продвижение (ось X) и поясните полученный график.
b) Какой показатель использовать для установления связи между двумя переменными?
Почему?
c) Выполните парный регрессионный анализ объемов продаж от относительных расходов
на продвижение.
d) Поясните коэффициенты регрессии.
e) Значима ли регрессионная связь?
f) Если наша сеть имеет одинаковые расходы на продвижение со своим конкурентом (если
относительные расходы на продвижение составили 100), то какими должны быть у нее
объемы продаж?
g) Интерпретируйте полученное значение г 2.
Номер штата Относительные расходы на продвижение Относительные объемы продаж
1 95 98
2 92 94
3 103 110
4 115 125
5 77 82
6 79 84
7 105 112
8 94 99
3 85 93
10 101 107
И 106 114
12 120 132
13 118 129
14 75 79
15 99 105
2. Чтобы понять роль влияния качества и цены товаров на количество постоянных посетите-
лей магазинов, маркетологи собрали оценки 14 ведущих магазинов с точки зрения: пред-
почтения магазина, качества товара и приемлемости иен. Магазины оценивали по 11-
балльной шкале, — чем больше балл, тем выше оценка.
Номер магазина Предпочтение Качество Цена
1 6 5 3
2 9 6 11
3 8 6 4
3 2 1
680 Часть III. Сбор, подготовка и анализ данных
5 10 6 11
6 4 3 1
7 5 4 7
8 2 1 4
9 11 9 8
10 9 5 10
11 10 8 8
1 2 2 1 5
1 3 9 8 5
1 4 5 3 2
a) Выполните множественный регрессионный анализ, объясняющий предпочтения в от-
ношении магазинов с точки зрения качества товара и цены.
b) Объясните частные коэффициенты регрессии.
c) Определите значимость всей регрессии.
d) Определите значимость частных коэффициентов регрессии.
e) Как вы считаете, является ли мул ьтиколл и неарность проблемой в данном случае? По-
чему да или почему нет?
3. Вы прочли в журнале статью, в которой говорится, что между ежегодными затратами на го-
товые обеды (PD) и годовым доходом (1NC) существует следующая связь:
PD = 23,4 + 0,003 xINC
Коэффициент при переменной INC считается значимым.
a) Правдоподобна ли эта связь? Может ли коэффициент регрессии, небольшой по вели-
чине, быть значимым?
b) Можете ли вы, исходя из предоставленной информации, сказать, хорошо ли разработа-
на модель?
c) Чему равны ожидаемые затраты на готовые обеды для семьи, зарабатывающей 30 тысяч
долларов в год?
d) Если семья, зарабатывающая 40 тысяч долларов в год, тратит 130 долларов на готовые
обеды, то чему равен остаточный член?
e) В чем значение отрицательного остаточного члена?
УПРАЖНЕНИЯ С ИСПОЛЬЗОВАНИЕМ INTERNET
И КОМПЬЮТЕРА
1. Используйте соответствующие компьютерные программы (SPSS, SAS, BMDP, Minitab или
Excel) для анализа данных из;
a) задачи 1
b) задачи 2.
КОММЕНТАРИИ
1. Jennifer Zajac, "Avon's Finally Glowing Thanks to Global Sales— and New Lip-Shtic", Money,
September 1997, p. 60; Cyndee Miller, "Computer Modelling Rings the Right Bell for Avon",
Marketing News, May 9, 1988, p. 14.
Глава 17. Корреляция и регрессия 681
2. Lauren Freedman, "Brand Names Will Bring New Velocity to Qn-Line Sales", Discount Store News,
August 18, 1997, p, 12; Pradeep K. Korgaonkar, Allen E, Smith, "Shopping Orientation, Demographic
and Media Preference Correlates of Electronic Shopping'1, in Kenneth D. Bahn (ed.),
Development in Marketing Science, vol. 11 (Blacksburg, VA: Academy of Marketing Science, 1988),
p. 52-5.
3. N.R. Draper, H. Smith, Applied Regression Analysis, 3rd ed. (New York, NY: John Wiley, 1988);
Michael E. Doherty, James A. Sullivan, "rho = p". Organisational Behavior & Human Decision
Processes, February 1989, p. 136—144; W.S. Martin, "Effects of Scaling on the Correlation Coefficient:
Additional Considerations", Journal of Marketing Research, May 1978, p. 304—308; K.A. Bo]-
len, K.H. Barb, "Pearson's R and Coarsely Categorized Measures", American Sociological Review 46
(1981), p. 232-239.
4. Jacques Tacq, Multivariate Analysis Techniques in Social Science Research (Thousand Oaks, CA: Sage
Publications, 1997); John Neter, William Wasserman, Michael J. Kutner, Applied Linear Statistical
Methods, 3rded. (Burr Ridge, IL: Richard D. Irwin, 1990), p. 501-503.
5. Хотя эта тема здесь и не обсуждается, частные коэффициенты корреляции могут оказаться
полезными при размещении промежуточных переменных и разработке определенных ти-
пов каузальных статистических выводов.
6. "Bates Saatchi & Saatchi, Budapest: Accounting for Change", Accountancy, August 1995, p. 31; Ken
Kasriel, "Hungary's Million-Dollar Slap", Advertising Age, June 8, 1992.
7. Другим преимуществом т является то, что его можно обобщить до частного коэффициента
корреляции. См. работы Marjorie A. Pett, Nonparametric Statistics for Health Care Research
(Thousand Oaks, CA: Sage Publications, 1997); Sidney Siegel, N.J. Castellan, Nonparametric
Statistics, 2nded. (New York: McGraw-Hill, 1988).
8. В строгом смысле регрессионная модель требует, чтобы ошибки измерения были связаны
только с критериальной переменной и чтобы предикторы были измерены без ошибок. Что
касается сериально коррелированных ошибок, см. статью Eugene Canjels, Mark W. Watson,
"Estimating Deterministic Trends in the Presence of Serially Correlated Errors", Review of Economics
and Statistics, May 1997, p. 184-200.
9. См. любую книгу по регрессии, например, N.R. Draper, H. Smith, Applied Regression Analysis,
3rd ed. (New York, NY: Jonh Wiley, 1998); John Neter, William Wasserman, Michael H. Kutner,
Applied Linear Regression Models, 3rd ed. (Burr Ridge, IL: Richard D, Irwin, 1990).
10. Формально числитель равен b-{3 . Однако, поскольку выдвинута гипотеза, что fi =0,0,
его можно не включать в формулу.
П. Чем больше SEE , тем меньше подходит регрессия.
12. Допущение о фиксированных уровнях предикторов допускается в "классической" регрес-
сионной модели. Это возможно в случае соблюдения определенных условий, когда предик-
торы являются случайными переменными. Однако нельзя, чтобы их распределение зависе-
ло от параметров регрессионного уравнения. См. монографию N.R. Draper, H. Smith, Applied
Regression Analysis, 3rd. ed. (New York, NY: John Wiley, 1998).
13. Относительно метода обработки нарушений таких допущений см. работы Gary S. Dispensa,
"Use Logistic Regression with Customer Satisfaction Data", Marketing News, January 6, 1997, p. 13;
S.K. Reddy, Susan L. Holak, Subodh Bhat, "To Extend of Not to Extend: Success Determinants of
Line Extensions", Journal of Marketing Research, May 1994, p. 243-262.
14. Jon Rees, "Tight Ship Keeps Coke on Top of the World", Marketing Week, May 8, 1997, p. 28-29;
Nancy Giges, "Europeans Buy Outside Goods, but Like Local Ads", Advertising Age, April 27, 1992,
p. 11-126.
15. Относительно других применений множественной регрессии см. работы Abbie Griffin, "The
Effect of Project and Process Characteristics on Product Development Cycle Time", Journal of
Marketing Research, February 1997, p. 24-35; Hubert Gatignon, Jean-Mark Xuereb, "Strategic Ori-
662 Часть III. Сбор, подготовка и анализ данных
entationofthe Firm and New Product Performance71, Journal of Marketing Research, February 1997,
p. 77-90; Nirmalya Kumar, Lisa K. Scheer, Jan-Benedict E.M. Steenkamp, "The Effects of Supplier
Fairness on Vulnerable Resellers", Journal of Marketing Research, February 1995, p, 54—65.
16. Другой причиной применения скорректированного R 2 служит то, что благодаря оптимизи-
рующим свойствам метод наименьших квадратов максимален. Поэтому до некоторой сте-
пени R- всегда переоценивает величину связи. Относительно современного применения
скорректированного R 2 см. работы "Ethics and Target Marketing: The Role of Product Harm and
Consumer Vulnerability", Journal of Marketing, January 1997, p. 1-20; Morris A. Cohen, Jehoshua
Eliashberg, Teck H. Ho, "An Anatomy and Launching Line Extensions", Journal of Marketing
Research, February 1997, p. 117-129.
17. Если ЙЧыборт равен 0, то обычный R~ отражает только ошибку выборки и F коэффициент
будет стремиться к единице.
18. Другим подходом является иерархический метод, при котором переменные добавляют к
уравнению регрессии в порядке, установленном исследователем.
19. А.С. Atkinson, S.J. Koopman, N. Shepard, "Detecting Shocks: Outliers and Breaks in Time Series",
Journal of Econometrics, October 1997, p. 387—422; George C.S. Wang, Charles K. Akaby,
"Autocorrelation: Problems and Solutions in Regression Modelling", Journal of Business Forecasting
Methods & Systems, Winter 1994/1995, p. 18—26; David Balseley, Conditioning Diagnostics:
Collinearity and Weak Data in Regression (New York, NY: John Wiley, 1980); David Balseley, Edwin
Kuh, Roy E. Walsh, Regression Diagnostics (New York, NY: John Wiley, 1980).
20. Критерий Дурбина—Уотсона обсуждается практически в каждом учебнике по регрессии.
См., например, работы: Hiroyuki Hisamatsu, Koichi Maekawa, "The Distribution of the Durbin—
Watson Statistic in Integrated and Near-Integrated Models", Journal of Econometrics, April 1994,
p. 367—382; N.R. Draper, H. Smith, Applied Regression Analysis, 3rd ed. (New York, NY: John
Wiley, 1998).
21. Helen Berman, "Selling the Advertising Дгж1е Show Partnership", Folio: The Magazine for
Magazine Management (Special Sourcebook Issue for 1997 Supplement), p. 214-215; Lawrence
Sotey, R. Krishnan, "Does Advertising Subsidize Consumer Magazine Prices?", Journal of
Advertising, Spring 1987, p. 4-9.
22. John Fox, Applied Regression Analysis, Linear Models and Related Methods (Thousand Oaks, CA: Sage
Publications, 1997); Shelby H, Mclntyre, David B. Montgomery, V. Srinivasan, Barton A. Weitz,
"Evaluating the Statistical Significance of Models Developed by Stepwise Regression", Journal of
Marketing Research, February 1983, p. 1-11,
23. Относительно современного применения ступенчатой регрессии см. работы Christopher D.
Ittner, David F. Larcker, "Product Development Cycle Time and Organisational Performance",
Journal of Marketing Research, February 1997, p. 13-23; Michael Laroche, Robert Sadokierski,
"Role of Confidence in a Multi-Brand Model of Intentions for a High-Involvement Service", Journal
of Business Research, January 1994, p. 1-12.
24. Diane Crispell, "Hispanics at the Mall", American Demographics, October 1997, p, 35-36; Glen R.
Jarboe, Carl D. McDaniel, "A Profile of Browsers in Regional Shopping Malls", Journal of the
Academy of Marketing Science, Spring 1987, p. 46—53.
25. Edward Greenberg, Robert Parks, "A Predictive Approach to Model Selection and Multicollinearity",
Journal of Applied Econometrics, January-February 1997, p. 67—75; Chezy Ofir, Andre Khuri,
"Multicollinearity in Marketing Models: Diagnostics and Remedial Measures", International Journal
of Research in Marketing, March 1986, p. 181-205.
26. Возможные процедуры приведены в работах George C.S. Wang, "How to Handle MuHicollinearity
in Regression Modelling", Journal of Business Forecasting Methods & Systems, Spring 1996,
p. 23—27; Charlotte H. Mason, William D. Perreault, Jr., "Collinearity, Power, and Interpretation of
Multiple Regression Analysis", Journal of Marketing Research, August 1991, p. 268-280; R.R.
Глава 17, Корреляция и регрессия 683
Hocking, ''Developments in Linear Regression Methodology: 1959-1982", Technometrics, August
1983, p. 219-230; Ronald D. Snee, "Discussion", Technometrics, August 1983, p. 230-237.
27. R. James Holzworth, "Policy Capturing with Ridge Regression", Organizational Behavior and Human
Decision Processes, November 1996, p. 171—179; Albert R. Wildt, "Equity Estimation and Assessing
Market Response", Journal of Marketing Research, February 1994, p. 437—451; Subhash Sharma,
William L. James, "Latent Root Regression: An Alternative Procedure for Estimating Parameters in
the Presence of М\\\\\со\\теш\у'\ Journal of Marketing Research, May 1981, p. 154—161.
28. Можно определить только относительную важность, поскольку важность независимой пе-
ременной зависит от всех независимых переменных в регрессионной модели.
29. Robert Rugimbana, "Predicting Automated Teller Machine Usage: The Relative Importance of Perceptual
and Demographic Factors", International Journal of Bank Marketing, April 1995, p. 26—32;
Paul E. Green, J. Douglas Carroll, Wayne S, DeSarbo, ''A New Measure of Predictor Variable Importance
in Multiple Regression", Journal of Marketing Research, August 1978, p. 356—360; Barbara
Bund Jackson, "Comment on 'A New Measure of Predictor Variable Importance in Multiple Regression'",
Journal of Marketing Research, February 1980, p. 116—118.
30. При маловероятном событии, когда все предикторы не связаны, простые линейные корре-
ляции равны частным корреляциям, частичным корреляциям и коэффициенту "бета". По-
этому квадраты этих величин будут иметь тот же ранговый порядок относительной важно-
сти переменных.
31. Чтобы узнать больше о перекрестной проверке, см. работы Mark S. Litwin, How to Measure
Survey Reliability and Validity (Thousand Oaks, CA: Sage Publications 1997); X. Michael Song, Mark
E. Perry, "The Determinants of Japanese New Product Success", Journal of Marketing Research,
February 1997, p. 64—76; Bruce Cooil, Russell S. Winner, David L. Rados, "Cross-Validation for
Prediction", Journal of 'Marketing Research, August 1987, p. 271—279.
32. Относительно современного применения регрессии с фиктивными переменными см, рабо-
ты U. Yavas, "Demand Forecasting in a Service Setting", Journal of International Marketing and
Marketing Research, February 1996, p. 3—11; Jacob Cohen, Patricia Cohen, Applied Multiple
Regression Correlation Analysis for the Behavioural Sciences, 2nd ed. (Hikksdale, NJ: Lawrence Erlbaum
Associates, 1983), p, 181-222.
33. John Fox, Applied Regression Analysis, Linear Models, and Related Methods (Thousand Oaks, CA:
Sage Publication 1997). О применении регрессионного анализа для ковариационного анализа
см. статью Peter A. Dancin, Daniel С. Smith, "The Effect of Brand Portfolio Characteristics on
Consumer Evaluations of Brand Extensions", Journal of Marketing Research, May 1994, p. 229—241.
34. Jeoffrey I. Crouch, "Demand Elasticities in International Marketing: A Meta-Analytical Application
to Tourism", Journal of Business Research, June 1996, p. 117—136; Andrew Geddes, "Asian Airlines
Try Loyalty Offers", Advertising Age, December 14,1992, p. 10.
35. Lynne M. Andersson, Thomas S. Bateman, "Cynicism in the Workplace: Some Causes and Effects",
Journal of Organizational Behavior, September 1997, p. 449—469; I. Akaah, E.A. Riordan, "The Incidence
of Unethical Practices in Marketing Research: An Empirical Investigation", Journal of the
Academy of Marketing Science IS (1990), p. 143—152.
36. Eric L. Einspruch, An Introductory Guide to SPSS for Windows (Thousand Oaks, CA: Sage Publications,
1998); Paul E. Specto, SAS Programming for Researchers and Social Scientists (Thousand
Oaks, CA: Sage Publications, 1993); Mohamed Afzal Norat, "Software Reviews", Economic Journal:
The Journal of the Royal Economic Society, May 1997, p. 857-882; Seiter Charles, "The Statistical
Difference", Macworld, October 1993, p. 116-121.
?84 Часть III. Сбор, подготовка и анализ данных
Дата: 2019-02-25, просмотров: 433.