Фиктивной или категорийной переменной называется переменная ,которые определяют наличие или отсутствие у объектов исследования определенного свойства. Такие переменные принимают два значения 1 если объект удовлетворяет свойству и 0 в противном случае. Пример жарко или холодно, пол мужской или женский и т.д.Если имеется несколько свойств , то вводятся несколько переменных, например для указания времени года можно ввести 3 переменных х1-лето, х2-весна, х3-осень, четвертая переменная зима=1, если все х1,х2,х3 равны нулю. Фиктивными могут быть как зависимая , так и независимые переменные.
Рассмотрим задачу. Цена на недвижимость определяется площадью и состоянием.
Переменная состояние может быть в трех значениях «плохое», «хорошее» и «среднее»
| Площадь | цена в тыс. | состояние |
| 521 | 26 | плохое |
| 661 | 31 | плохое |
| 694 | 37,5 | среднее |
| 743 | 34,8 | среднее |
| 787 | 39 | среднее |
| 825 | 38 | среднее |
| 883 | 39,5 | среднее |
| 920 | 31 | плохое |
| 965 | 37 | среднее |
| 1011 | 38,5 | среднее |
| 1047 | 43,5 | среднее |
| 1060 | 44,8 | хорошее |
| 1080 | 40,6 | среднее |
| 1164 | 41,8 | хорошее |
| 1300 | 45,2 | хорошее |
Требуется провести анализ данных.
Вырежем столбец состояние и сместим его вправо на два столбца.
| Площадь | цена в тыс. | плохое | среднее | состояние |
| 521 | 26 |
|
| плохое |
| 661 | 31 |
|
| плохое |
| 694 | 37,5 |
|
| среднее |
| 743 | 34,8 |
|
| среднее |
| 787 | 39 |
|
| среднее |
Проведем регрессионный анализ.
Первое построим модель регрессии по двум переменным Цена- Площадь.
Самостоятельно выполнить анализ и оценить модель График приведён ниже.

Заполним пустые два столбца в таблице данных.
Для этого введем формулу
ЕСЛИ(ссылка на ячейку столбца состояние=”плохое“ ;1 ;0) и скопируем ее вниз
Во второй столбец введем
ЕСЛИ(ссылка на ячейку столбца состояние=”среднее“ ;1 ;0) и скопируем ее вниз.
| цена в тыс. | Площадь | хорошее | среднее | состояние |
| 26 | 521 | 0 | 0 | плохое |
| 31 | 661 | 0 | 0 | плохое |
| 37,5 | 694 | 0 | 1 | среднее |
| 34,8 | 743 | 0 | 1 | среднее |
| 39 | 787 | 0 | 1 | среднее |
| 38 | 825 | 0 | 1 | среднее |
| 39,5 | 883 | 0 | 1 | среднее |
| 31 | 920 | 0 | 0 | плохое |
| 37 | 965 | 0 | 1 | среднее |
| 38,5 | 1011 | 0 | 1 | среднее |
| 43,5 | 1047 | 0 | 1 | среднее |
| 44,8 | 1060 | 1 | 0 | хорошее |
| 40,6 | 1080 | 0 | 1 | среднее |
| 41,8 | 1164 | 1 | 0 | хорошее |
| 45,2 | 1300 | 1 | 0 | хорошее |
Построим модель регрессии. Переменные : У –цена , Х –хорошее и среднее
Обратите внимание, что качество модели в целом улучшилось.
| Регрессионная статистика | |
| Множественный R | 0,908404813 |
| R-квадрат | 0,825199303 |
| Нормированный R-квадрат | 0,796065854 |
| Стандартная ошибка | 2,432800551 |
| Наблюдения | 15 |
Модель имеет вид
Цена= 14,6»хорошее»- 14,4 «среднее» +29,33
Если состояние плохое, то переменная хорошее =0, среднее =0
Если хорошее ,то переменная хорошее =1, среднее =0
Если состояние среднее, то переменная хорошее =0, среднее =1
Самостоятельно ,заполните столбцы прогнозируемая цена и отклонение
| цена в тыс. | Площадь | хорошее | среднее | состояние | прогнозируемая цена состояние | отклонение |
| 26 | 521 | 0 | 0 | плохое | 29,33333 | 3,3333 |
| 31 | 661 | 0 | 0 | плохое | 29,33333 | -1,6667 |
| 37,5 | 694 | 0 | 1 | среднее | 38,71111 | 1,2111 |
| 34,8 | 743 | 0 | 1 | среднее | 38,71111 | 3,9111 |
| 39 | 787 | 0 | 1 | среднее | 38,71111 | -0,2889 |
| 38 | 825 | 0 | 1 | среднее | 38,71111 | 0,7111 |
| 39,5 | 883 | 0 | 1 | среднее | 38,71111 | -0,7889 |
| 31 | 920 | 0 | 0 | плохое | 29,33333 | -1,6667 |
| 37 | 965 | 0 | 1 | среднее | 38,71111 | 1,7111 |
| 38,5 | 1011 | 0 | 1 | среднее | 38,71111 | 0,2111 |
| 43,5 | 1047 | 0 | 1 | среднее | 38,71111 | -4,7889 |
| 44,8 | 1060 | 1 | 0 | хорошее | 43,93333 | -0,8667 |
| 40,6 | 1080 | 0 | 1 | среднее | 38,71111 | -1,8889 |
| 41,8 | 1164 | 1 | 0 | хорошее | 43,93333 | 2,1333 |
| 45,2 | 1300 | 1 | 0 | хорошее | 43,93333 | -1,2667 |
Постройте гистограмму остатков.
Включим в состав независимых переменных , переменную площадь и еще раз построим модель регрессии. Качество модели еще раз улучшилось
| Множественный R | 0,946 |
| R-квадрат | 0,896 |
| Нормированный R-квадрат | 0,867 |
| Стандартная ошибка | 1,965 |
| Наблюдения | 15,000 |
Самостоятельно ,заполните столбцы прогнозируемая цена и отклонение
Постройте гистограмму остатков.
| цена в тыс. | Площадь | хорошее | среднее | состояние | прогнозируемая цена от состояния | отклонение |
| 26 | 521 | 0 | 0 | плохое | 27,47421 | 1,4742 |
| 31 | 661 | 0 | 0 | плохое | 28,92288 | -2,0771 |
| 37,5 | 694 | 0 | 1 | среднее | 36,65423 | -0,8458 |
| 34,8 | 743 | 0 | 1 | среднее | 37,16127 | 2,3613 |
| 39 | 787 | 0 | 1 | среднее | 37,61656 | -1,3834 |
| 38 | 825 | 0 | 1 | среднее | 38,00977 | 0,0098 |
| 39,5 | 883 | 0 | 1 | среднее | 38,60993 | -0,8901 |
| 31 | 920 | 0 | 0 | плохое | 31,60291 | 0,6029 |
| 37 | 965 | 0 | 1 | среднее | 39,45844 | 2,4584 |
| 38,5 | 1011 | 0 | 1 | среднее | 39,93443 | 1,4344 |
| 43,5 | 1047 | 0 | 1 | среднее | 40,30694 | -3,1931 |
| 44,8 | 1060 | 1 | 0 | хорошее | 42,74681 | -2,0532 |
| 40,6 | 1080 | 0 | 1 | среднее | 40,64842 | 0,0484 |
| 41,8 | 1164 | 1 | 0 | хорошее | 43,82296 | 2,0230 |
| 45,2 | 1300 | 1 | 0 | хорошее | 45,23024 | 0,0302 |
Дата: 2018-12-21, просмотров: 300.