Фиктивной или категорийной переменной называется переменная ,которые определяют наличие или отсутствие у объектов исследования определенного свойства. Такие переменные принимают два значения 1 если объект удовлетворяет свойству и 0 в противном случае. Пример жарко или холодно, пол мужской или женский и т.д.Если имеется несколько свойств , то вводятся несколько переменных, например для указания времени года можно ввести 3 переменных х1-лето, х2-весна, х3-осень, четвертая переменная зима=1, если все х1,х2,х3 равны нулю. Фиктивными могут быть как зависимая , так и независимые переменные.
Рассмотрим задачу. Цена на недвижимость определяется площадью и состоянием.
Переменная состояние может быть в трех значениях «плохое», «хорошее» и «среднее»
Площадь | цена в тыс. | состояние |
521 | 26 | плохое |
661 | 31 | плохое |
694 | 37,5 | среднее |
743 | 34,8 | среднее |
787 | 39 | среднее |
825 | 38 | среднее |
883 | 39,5 | среднее |
920 | 31 | плохое |
965 | 37 | среднее |
1011 | 38,5 | среднее |
1047 | 43,5 | среднее |
1060 | 44,8 | хорошее |
1080 | 40,6 | среднее |
1164 | 41,8 | хорошее |
1300 | 45,2 | хорошее |
Требуется провести анализ данных.
Вырежем столбец состояние и сместим его вправо на два столбца.
Площадь | цена в тыс. | плохое | среднее | состояние |
521 | 26 |
|
| плохое |
661 | 31 |
|
| плохое |
694 | 37,5 |
|
| среднее |
743 | 34,8 |
|
| среднее |
787 | 39 |
|
| среднее |
Проведем регрессионный анализ.
Первое построим модель регрессии по двум переменным Цена- Площадь.
Самостоятельно выполнить анализ и оценить модель График приведён ниже.
Заполним пустые два столбца в таблице данных.
Для этого введем формулу
ЕСЛИ(ссылка на ячейку столбца состояние=”плохое“ ;1 ;0) и скопируем ее вниз
Во второй столбец введем
ЕСЛИ(ссылка на ячейку столбца состояние=”среднее“ ;1 ;0) и скопируем ее вниз.
цена в тыс. | Площадь | хорошее | среднее | состояние |
26 | 521 | 0 | 0 | плохое |
31 | 661 | 0 | 0 | плохое |
37,5 | 694 | 0 | 1 | среднее |
34,8 | 743 | 0 | 1 | среднее |
39 | 787 | 0 | 1 | среднее |
38 | 825 | 0 | 1 | среднее |
39,5 | 883 | 0 | 1 | среднее |
31 | 920 | 0 | 0 | плохое |
37 | 965 | 0 | 1 | среднее |
38,5 | 1011 | 0 | 1 | среднее |
43,5 | 1047 | 0 | 1 | среднее |
44,8 | 1060 | 1 | 0 | хорошее |
40,6 | 1080 | 0 | 1 | среднее |
41,8 | 1164 | 1 | 0 | хорошее |
45,2 | 1300 | 1 | 0 | хорошее |
Построим модель регрессии. Переменные : У –цена , Х –хорошее и среднее
Обратите внимание, что качество модели в целом улучшилось.
Регрессионная статистика | |
Множественный R | 0,908404813 |
R-квадрат | 0,825199303 |
Нормированный R-квадрат | 0,796065854 |
Стандартная ошибка | 2,432800551 |
Наблюдения | 15 |
Модель имеет вид
Цена= 14,6»хорошее»- 14,4 «среднее» +29,33
Если состояние плохое, то переменная хорошее =0, среднее =0
Если хорошее ,то переменная хорошее =1, среднее =0
Если состояние среднее, то переменная хорошее =0, среднее =1
Самостоятельно ,заполните столбцы прогнозируемая цена и отклонение
цена в тыс. | Площадь | хорошее | среднее | состояние | прогнозируемая цена состояние | отклонение |
26 | 521 | 0 | 0 | плохое | 29,33333 | 3,3333 |
31 | 661 | 0 | 0 | плохое | 29,33333 | -1,6667 |
37,5 | 694 | 0 | 1 | среднее | 38,71111 | 1,2111 |
34,8 | 743 | 0 | 1 | среднее | 38,71111 | 3,9111 |
39 | 787 | 0 | 1 | среднее | 38,71111 | -0,2889 |
38 | 825 | 0 | 1 | среднее | 38,71111 | 0,7111 |
39,5 | 883 | 0 | 1 | среднее | 38,71111 | -0,7889 |
31 | 920 | 0 | 0 | плохое | 29,33333 | -1,6667 |
37 | 965 | 0 | 1 | среднее | 38,71111 | 1,7111 |
38,5 | 1011 | 0 | 1 | среднее | 38,71111 | 0,2111 |
43,5 | 1047 | 0 | 1 | среднее | 38,71111 | -4,7889 |
44,8 | 1060 | 1 | 0 | хорошее | 43,93333 | -0,8667 |
40,6 | 1080 | 0 | 1 | среднее | 38,71111 | -1,8889 |
41,8 | 1164 | 1 | 0 | хорошее | 43,93333 | 2,1333 |
45,2 | 1300 | 1 | 0 | хорошее | 43,93333 | -1,2667 |
Постройте гистограмму остатков.
Включим в состав независимых переменных , переменную площадь и еще раз построим модель регрессии. Качество модели еще раз улучшилось
Множественный R | 0,946 |
R-квадрат | 0,896 |
Нормированный R-квадрат | 0,867 |
Стандартная ошибка | 1,965 |
Наблюдения | 15,000 |
Самостоятельно ,заполните столбцы прогнозируемая цена и отклонение
Постройте гистограмму остатков.
цена в тыс. | Площадь | хорошее | среднее | состояние | прогнозируемая цена от состояния | отклонение |
26 | 521 | 0 | 0 | плохое | 27,47421 | 1,4742 |
31 | 661 | 0 | 0 | плохое | 28,92288 | -2,0771 |
37,5 | 694 | 0 | 1 | среднее | 36,65423 | -0,8458 |
34,8 | 743 | 0 | 1 | среднее | 37,16127 | 2,3613 |
39 | 787 | 0 | 1 | среднее | 37,61656 | -1,3834 |
38 | 825 | 0 | 1 | среднее | 38,00977 | 0,0098 |
39,5 | 883 | 0 | 1 | среднее | 38,60993 | -0,8901 |
31 | 920 | 0 | 0 | плохое | 31,60291 | 0,6029 |
37 | 965 | 0 | 1 | среднее | 39,45844 | 2,4584 |
38,5 | 1011 | 0 | 1 | среднее | 39,93443 | 1,4344 |
43,5 | 1047 | 0 | 1 | среднее | 40,30694 | -3,1931 |
44,8 | 1060 | 1 | 0 | хорошее | 42,74681 | -2,0532 |
40,6 | 1080 | 0 | 1 | среднее | 40,64842 | 0,0484 |
41,8 | 1164 | 1 | 0 | хорошее | 43,82296 | 2,0230 |
45,2 | 1300 | 1 | 0 | хорошее | 45,23024 | 0,0302 |
Дата: 2018-12-21, просмотров: 227.