Лекция №2. Парная регрессия и корреляция
Поможем в ✍️ написании учебной работы
Поможем с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой

Лекция №2. Парная регрессия и корреляция

1. Корреляционный анализ. 1

1.1.Задачи корреляционно анализа. 2

1.2.Ковариация. 2

1.3.Дисперсия. 3

1.4.Коэффициент парной корреляции. 3

1.5.Качественная оценка коэффициента корреляции. 3

1.6.Оценка значимости коэффициента парной корреляции. 4

1.7.Парный коэффициент детерминации. 4

Пример. 4

2.Регрессионный анализ. 6

2.1.Задачи регрессионного анализа. 6

2.2.Линейная парная регрессия. 6

2.3.Коэффициент эластичности. 7

2.4.Формула определения бета - коэффициента. 7

Пример. 7

3.Проверка модели на адекватность. 9

3.1. Проверка значимости коэффициентов регрессии по t-критерию Стьюдента. 9

3.2.Определение доверительных интервалов. 9

3.3.Проверка значимости уравнения регрессии по F-критерию Фишера. 9

3.4.Проверка модели на наличия или отсутствия систематической ошибки. 9

3.4.1.Проверка на случайность ряда остатков. 9

3.4.2.Проверка на равенство нулю математического ожидания ряда остатков. 10

3.4.3.Проверка на постоянство дисперсии ряда остатков. 10

3.4.4.Проверка на независимость ряда остатков. 10

3.4.5.Проверка на распределение ряда остатков по нормальному закону. 10

3.5.Определение меры точности модели. 11

3.6.Точечный и интервальный прогноз. 11

Пример. 12

 

Корреляционный анализ

При изучении конкретных зависимостей социально экономических явлений одни признаки выступают в качестве факторов, обусловливающих изменение других признаков.

Прямая

 

Рассматривая зависимости между признаками, выделяют две категории зависимости: функциональные и корреляционные.

Функциональные связи характеризуются полным соответствием между изменением факторного признака и изменением результативной величины, и каждому значению фактора соответствуют вполне определенные значения результата. Функциональная зависимость может связывать результативный признак с одним или несколькими факторными признаками.

В корреляционных связях между изменением факторного и результативного признака нет полного соответствия, воздействие отдельных факторов проявляется лишь в среднем при массовом наблюдении фактических данных [аналогом среднему служит математическое ожидание].

Например, в семьях, где родители ниже ростом, дети в среднем выше, чем родители. Однако такого рода зависимости проявляются лишь при большом числе наблюдений.

Одновременное воздействие на изучаемый признак большо­го количества самых разнообразных факторов приводит к тому, что одному и тому же значению признака-фактора соответствует целое распределение значений результативного признака, поскольку в каждом конкретном случае прочие факторные признаки могут изменять силу и направленность своего воздействия.

При наличии функциональной зависимости между признаками можно, зная величину факторного признака, точно определить величину результативного признака.

При наличии же корреляционной зависимости устанавливается лишь тенденция изменения результативного признака при изменении величины факторного признака.

Корреляционный анализ - метод, применяемый тогда, когда данные наблюдений или эксперимента можно считать случайными и выбранными из совокупности, распределенной по многомерному нормальному закону.

Задачи корреляционно анализа

1. Установление численного значения корреляционной связи между изучаемыми признаками путем вычисления (парных, множественных и/или частных) коэффициентов корреляции

2. Измерение тесноты связи между признаками

3. Определение достоверности суждения о наличии связи (с помощью t-критерия Стьюдента)

4. Отбор факторов, оказывающих наибольшее влияние на результативный признак

5. Выявление ранее неизвестных причинных связей

Ковариация

Мерой взаимосвязи между двумя переменными является ковариация. Она построена на сумме отклонений индивидуальных значений признаков xi и yi от их средних значений.

Опр. При наличии n наблюдений двух переменных (x и y) ковариация между x и у задается формулой:

[1].

При наличии прямой связи ковариация будет положительной.

При наличии обратной связи ковариация будет отрицательной величиной.

При отсутствии связи ковариация будет близка к нулю.

Размер ковариации зависит от масштаба признаков x и y.

Дисперсия

Опр. Дисперсия это средний квадрат отклонений индивидуальных значений признака от их средней величины:

.

Она характеризующие степень разброса значений  ( ) вокруг своего среднего  ( , соответственно), или вариабельность (изменчивость) этих переменных на множестве наблюдений. Отсюда обозначение Var  [variance].

Впрочем, более естественным было бы измерение степени разброса значений переменных в тех же единицах, в которых измеряется и сама переменная. Эту задачу решает показатель, называемый стандартным отклонением [standard deviance - Std.Dev] переменной  (переменной ), определяемый соотношением:

.

Правила расчета дисперсии

Существует несколько простых и очень полезных правил для расчета дисперсии, являющихся аналогами правил для ковариации,. Эти правила в равной степени можно использовать как для выборочной, так и для теоретической дисперсии.

Правило дисперсии 1

Если у = v + w, то Var (у) = Var (v) + Var (w) + 2Cov (v,w).

Правило дисперсии 2

Если у = az, где а является постоянной, то Var(y) = a2Var(z).

Правило дисперсии 3

Если у=а, где а является постоянной, то Var (у) = 0.

Правило дисперсии 4

Если у = v + а, где а является постоянной, то Var (у) = Var (v).

Заметим, что дисперсия переменной х может рассматриваться как ковариация между двумя величинами х.

Поэтому .

Пример

По представленным данным о спросе и доходе населения за ряд текущих лет определить степень влияния дохода населения на его спрос. Оценить значимость коэффициента корреляции.

Год Доход, Х Спрос, Y

1 10 6

-5

-3,3

16,5

25

10,89

2 12 8

-3

-1,3

3,9

9

1,69

3 14 8

-1

-1,3

1,3

1

1,69

4 16 10,3

1

1

1

1

1

5 18 10,5

3

1,2

3,6

9

1,44

6 20 13

5

3,7

18,5

25

13,69

Итого

90

55,8

0

0

44,80

70,00

30,40

Среднее

15

9,3

0

0

7,47

11,67

5,07

Средние значения случайных величин Х и Y рассчитаем по формулам, соответственно:

.

Стандартные ошибки случайных величин Х и Y рассчитаем по формулам, соответственно:

 

Рассчитаем ковариацию:

.

Аналогичные расчеты можно получить, используя встроенные возможности электронных таблиц Excel: КОВАР(массив1; массив2), которая возвращает ковариацию, то есть среднее произведений отклонений для каждой пары точек данных.

Синтаксис функции:

Массив1 — это первый массив или интервал данных.

Массив2 — это второй массив или интервал данных.

Рассчитаем коэффициент парной корреляции:

.

Аналогичные расчеты также можно получить, используя встроенные возможности электронных таблиц Excel: КОРРЕЛ(массив1;массив2), которая возвращает коэффициент корреляции меду интервалами ячеек массив1 и массив2.

Синтаксис функции:

Массив1 — это ячейка интервала значений.

Массив2 — это второй интервал ячеек со значениями.

Оценим значимость коэффициента корреляции.

Для этого рассчитаем значение t – статистики:

Табличное значение критерия Стьюдента равно:

 

Воспользуемся встроенными возможности электронных таблиц Excel: функция СТЬЮДРАСПОБР(вероятность;степени_свободы) возвращает t-значение распределения Стьюдента как функцию вероятности и числа степеней свободы.

Синтаксис функции:

Вероятность - вероятность, соответствующая двустороннему распределению Стьюдента (α = 0,05 или 0,01).

Степени_свободы— число степеней свободы, характеризующее распределение (k = n -2).

Сравним числовые значения критериев:

  .

Полученное значение коэффициента корреляции значимо.

Вычислим парный коэффициент детерминации:

r2ху = 0,9432.

Таким образом, доход населения (Х) оказывает весьма высокое влияние на спрос (Y). На 94% спрос населения зависит от дохода. Оставшиеся 6% (100 – 94) - это влияние неучтённых факторов.



Регрессионный анализ

После установления наличия корреляционной зависимости между признаками, экономистов интересует установление аналитической формы этой зависимости. Это является основной задачей регрессионного анализа.

Линейная парная регрессия

Уравнение парной регрессии имеет вид:

Замечание

Не следует ожидать получения точного соотношения между исследуемыми экономическими показателями. В экономической теории это проблема решается путём аппроксимацией, а в статистическом анализе, данный факт неточности описывается включением в модель случайным остаточным членом:

где y - зависимая переменная, состоящая из двух составляющих

a + bx – объясняющая составляющая,

где a - постоянная величина (или свободный член уравнения), показывает значение результативного признака y при равенстве нулю факторного.

b - коэффициент регрессии, определяющий наклон линии, вдоль которой рассеяны данные наблюдений, показывает на какую величину в среднем изменится y, если переменную x увеличить на единицу измерения.

Если b >0 -  переменные Х и Y положительно коррелированные,

Если b< 0 – отрицательно коррелированны.

 - независимая случайная величина. Она отражает тот факт, что изменение Y будет неточно описываться изменением фактора Х, поскольку в реальной ситуации всегда будут присутствовать другие факторы, неучтенные в данной модели.

Для расчета неизвестных параметров a и b пользуется метод наименьших квадратов (МНК). Неизвестные параметры a и b выбираются таким образом, чтобы сумма квадратов отклонений эмпирических значений yi от значений , найденных по уравнению регрессии была минимальной:

.

На основании необходимого условия экстремума функции двух переменных Q(a,b) приравниваем к нулю ее частные производные:

  .

Последняя система является системой двух линейных уравнений с двумя неизвестными.

Разделив обе части уравнений на n и преобразовав их, получим:

или

.

Коэффициент эластичности

Наряду с коэффициентом регрессии в экономическом анализе часто используется показатель эластичности измерения результативного признака относительно факторного.

Коэффициент эластичности показывает, на сколько процентов изменяется в среднем результативный признак у при изменении факторного признака х на 1%.

Э =

2.4.Формула определения бета - коэффициента

Бета-коэффициент показывает, на какую часть своего среднего квадратического отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину среднего квадратического отклонения.

Пример

По представленным данным о спросе и доходе населения за ряд текущих лет построить уравнение регрессии.

Год Доход, Х Спрос, Y

1 10 6

-5

-3,3

16,5

25

2 12 8

-3

-1,3

3,9

9

3 14 8

-1

-1,3

1,3

1

4 16 10,3

1

1

1

1

5 18 10,5

3

1,2

3,6

9

6 20 13

5

3,7

18,5

25

Итого

90

55,8

0

0

44,80

70,00

Среднее

15

9,3

0

0

7,47

11,67

Уравнение парной регрессии имеет вид:

Параметры модели определим по формулам:

Коэффициент b показывает, что с увеличением дохода на 1 у.е., спрос возрастёт на 0,64 у.е.

Уравнение парной регрессии примет вид:

.

Построим на диаграмме зависимость Y от Х и добавим линию тренда, используя линейную модель для описания данных:



Пример

Оценить адекватность и точность модели парной регрессии по представленным данным о спросе и доходе населения за ряд текущих лет и сделать выводы.

Год Спрос, yi  

Точки поворота

1 6 6,1 -0,10

0,01

-

-

-

0,017

2 8 7,38 0,62

0,38

1

0,72

0,52

0,078

3 8 8,66 -0,66

0,44

1

-1,28

1,64

0,083

4 10,3 9,94 0,36

0,13

1

1,02

1,04

0,035

5 10,5 11,22 -0,72

0,52

1

-1,08

1,17

0,069

6 13 12,5 0,50

0,25

-

1,22

1,49

0,038

Итого

55,8 -

0,00

1,73

4

-

5,85

0,319

Уравнение парной регрессии имеет вид: .

Проверка адекватности модели осуществляется на основе анализа остатков .

Проверка значимости модели

Значимость параметров модели оценивается с помощью t – критерия Стьюдента:

; ,

где ;

,

 где .

;

, то параметр b значим;

, то параметр a не значим.

Для проверки значимости уравнения регрессии в целом используем F критерий Фишера:

.

Воспользуемся встроенными возможности электронных таблиц Excel: FРАСПОБР, которое возвращает обратное значение для F-распределения вероятностей.

Синтаксис функции:

FРАСПОБР(вероятность;степени_свободы1;степени_свободы2)

Вероятность — это вероятность, связанная с F-распределением.

Степени_свободы1 — это числитель степеней свободы.

Степени_свободы2 — это знаменатель степеней свободы.

Fтабл = FРАСПОБР(0,05;1;4) = 7,71

Поскольку: Fрасч > Fтабл, модель считается значимой.

Оценка точности модели

Средняя относительная ошибка аппроксимации:

%, а поскольку это больше 8 %, значит уровень точности можно признать приемлемым.


[1] Мы определяем Var и Cov, деля соответствующие суммы квадратов на n. Это имеет свое объяснение, которое пока выходит за рамки нашего обсуждения. Вместе с тем, в разных руководствах по эконометрике Var и Cov определяются по-разному. Деление на (n – 1) используется, например, в книгах Доугерти (1997), Айвазяна и Мхитаряна (1998), тогда как в книге Магнуса, Катышева и Пересецкого (1997) соответствующие суммы квадратов делятся, на n.

[2] квадратные скобки означают целую часть числа

[3] tтабл - определяется по таблице распределения Стьюдента

[4] квадратные скобки означают целую часть числа


Лекция №2. Парная регрессия и корреляция

1. Корреляционный анализ. 1

1.1.Задачи корреляционно анализа. 2

1.2.Ковариация. 2

1.3.Дисперсия. 3

1.4.Коэффициент парной корреляции. 3

1.5.Качественная оценка коэффициента корреляции. 3

1.6.Оценка значимости коэффициента парной корреляции. 4

1.7.Парный коэффициент детерминации. 4

Пример. 4

2.Регрессионный анализ. 6

2.1.Задачи регрессионного анализа. 6

2.2.Линейная парная регрессия. 6

2.3.Коэффициент эластичности. 7

2.4.Формула определения бета - коэффициента. 7

Пример. 7

3.Проверка модели на адекватность. 9

3.1. Проверка значимости коэффициентов регрессии по t-критерию Стьюдента. 9

3.2.Определение доверительных интервалов. 9

3.3.Проверка значимости уравнения регрессии по F-критерию Фишера. 9

3.4.Проверка модели на наличия или отсутствия систематической ошибки. 9

3.4.1.Проверка на случайность ряда остатков. 9

3.4.2.Проверка на равенство нулю математического ожидания ряда остатков. 10

3.4.3.Проверка на постоянство дисперсии ряда остатков. 10

3.4.4.Проверка на независимость ряда остатков. 10

3.4.5.Проверка на распределение ряда остатков по нормальному закону. 10

3.5.Определение меры точности модели. 11

3.6.Точечный и интервальный прогноз. 11

Пример. 12

 

Корреляционный анализ

При изучении конкретных зависимостей социально экономических явлений одни признаки выступают в качестве факторов, обусловливающих изменение других признаков.

Прямая

 

Рассматривая зависимости между признаками, выделяют две категории зависимости: функциональные и корреляционные.

Функциональные связи характеризуются полным соответствием между изменением факторного признака и изменением результативной величины, и каждому значению фактора соответствуют вполне определенные значения результата. Функциональная зависимость может связывать результативный признак с одним или несколькими факторными признаками.

В корреляционных связях между изменением факторного и результативного признака нет полного соответствия, воздействие отдельных факторов проявляется лишь в среднем при массовом наблюдении фактических данных [аналогом среднему служит математическое ожидание].

Например, в семьях, где родители ниже ростом, дети в среднем выше, чем родители. Однако такого рода зависимости проявляются лишь при большом числе наблюдений.

Одновременное воздействие на изучаемый признак большо­го количества самых разнообразных факторов приводит к тому, что одному и тому же значению признака-фактора соответствует целое распределение значений результативного признака, поскольку в каждом конкретном случае прочие факторные признаки могут изменять силу и направленность своего воздействия.

При наличии функциональной зависимости между признаками можно, зная величину факторного признака, точно определить величину результативного признака.

При наличии же корреляционной зависимости устанавливается лишь тенденция изменения результативного признака при изменении величины факторного признака.

Корреляционный анализ - метод, применяемый тогда, когда данные наблюдений или эксперимента можно считать случайными и выбранными из совокупности, распределенной по многомерному нормальному закону.

Дата: 2018-11-18, просмотров: 434.