Для отбора наиболее информационных факторов (признаков) проведем корреляционный анализ.
Коэффициент корреляции между двумя факторами (признаками)
определяется выражением:
,
где - оценка первых моментов
.
Если коэффициент линейной корреляции близок к 1, то корреляционная связь между переменными положительная и близкая к линейной. Если коэффициент линейной корреляции близок к -1, то корреляционная связь между переменными отрицательная, близкая также к линейной. Если коэффициент линейной корреляции близок к нулю, то между переменными имеется слабая корреляционная связь. Если факторы независимы, то коэффициент линейной корреляции равен нулю.
Результаты корреляционного анализа представлены в таблице 2.
Таблица 2. Коэффициенты взаимной корреляции. Начало.
| x1 | x2 | x3 | x4 | x5 | x6 | x7 | x8 | x9 | y |
x1 | 1,00 | -0,07 | -0,71 | -1,00 | -0,33 | 0,34 | 0,21 | -0,60 | -0,39 | 0,13 |
x2 | -0,07 | 1,00 | 0,57 | 0,05 | 0,88 | 0,48 | -0,19 | -0,01 | 0,08 | 0,52 |
x3 | -0,71 | 0,57 | 1,00 | 0,70 | 0,67 | 0,03 | -0,26 | 0,41 | 0,33 | 0,14 |
x4 | -1,00 | 0,05 | 0,70 | 1,00 | 0,32 | -0,35 | -0,21 | 0,60 | 0,39 | -0,13 |
x5 | -0,33 | 0,88 | 0,67 | 0,32 | 1,00 | 0,38 | -0,21 | 0,09 | 0,15 | 0,51 |
x6 | 0,34 | 0,48 | 0,03 | -0,35 | 0,38 | 1,00 | -0,43 | -0,25 | 0,12 | 0,69 |
x7 | 0,21 | -0,19 | -0,26 | -0,21 | -0,21 | -0,43 | 1,00 | -0,35 | -0,83 | -0,41 |
x8 | -0,60 | -0,01 | 0,41 | 0,60 | 0,09 | -0,25 | -0,35 | 1,00 | 0,66 | -0,19 |
x9 | -0,39 | 0,08 | 0,33 | 0,39 | 0,15 | 0,12 | -0,83 | 0,66 | 1,00 | 0,22 |
y | 0,13 | 0,52 | 0,14 | -0,13 | 0,51 | 0,69 | -0,41 | -0,19 | 0,22 | 1,00 |
По результатам корреляционного анализа выберем наименее информативные признаки: Х1, Х3 и X4.
Самыми информационными признаками являются: Х2, Х5, Х6.
Вывод: Наиболее информативными признаками являются: Х5, Х6, Х7, имеющие наибольшие значения коэффициента корреляции с результирующим показателем.
После удаления остальных менее информативных признаков, проверили выборку и обнаружили, что одинаковых строк нет.
Выборка представлена отсортированной по столбцам Х6 в таблице 2.3.2.
Таблица 2.3.2. Выборка. Начало.
№ | Х2 | Х3 | Х4 | Х6 | Х8 | Х9 | Y |
62 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
68 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
72 | 0 | 0 | 9 | 0 | 0 | 0 | 0 |
75 | 0 | 0 | 2 | 0 | 0 | 0 | 0 |
91 | 255 | 0,0039 | 88 | 0,0017 | 337 | 0,0044 | 0 |
53 | 278 | 0,0142 | 200 | 0,0021 | 106 | 0,0076 | 0 |
40 | 143 | 0,0281 | 235 | 0,0022 | 141 | 0,0246 | 1 |
73 | 143 | 0,0026 | 70 | 0,0022 | 355 | 0,0041 | 0 |
66 | 32 | 0,0022 | 151 | 0,0024 | 41 | 0,0025 | 0 |
100 | 232 | 0,0045 | 118 | 0,0025 | 232 | 0,0045 | 0 |
77 | 258 | 0,0031 | 48 | 0,0026 | 395 | 0,0039 | 0 |
64 | 186 | 0,0138 | 211 | 0,0028 | 114 | 0,0099 | 0 |
81 | 220 | 0,0036 | 91 | 0,0028 | 273 | 0,0041 | 0 |
83 | 105 | 0,0038 | 145 | 0,0029 | 213 | 0,0054 | 0 |
79 | 259 | 0,009 | 181 | 0,0029 | 184 | 0,0074 | 0 |
Таблица 2.3.2. Выборка. Продолжение.
№ | Х2 | Х3 | Х4 | Х6 | Х8 | Х9 | Y |
58 | 23 | 0,0175 | 243 | 0,003 | 6 | 0,0088 | 0 |
11 | 148 | 0,0042 | 138 | 0,0031 | 165 | 0,0044 | 1 |
6 | 33 | 0,0055 | 211 | 0,0032 | 104 | 0,0095 | 1 |
7 | 29 | 0,0176 | 241 | 0,0034 | 56 | 0,0233 | 1 |
31 | 335 | 0,0216 | 220 | 0,0034 | 282 | 0,0196 | 1 |
90 | 14 | 0,0026 | 195 | 0,0035 | 91 | 0,0065 | 0 |
59 | 161 | 0,0081 | 191 | 0,0036 | 164 | 0,0081 | 0 |
54 | 263 | 0,0076 | 167 | 0,0036 | 226 | 0,0069 | 0 |
80 | 151 | 0,0027 | 73 | 0,0039 | 256 | 0,0035 | 0 |
49 | 267 | 0,005 | 123 | 0,0039 | 145 | 0,0037 | 1 |
41 | 325 | 0,0045 | 93 | 0,0039 | 205 | 0,0036 | 1 |
4 | 490 | 0,0258 | 214 | 0,0039 | 341 | 0,0185 | 1 |
5 | 356 | 0,011 | 183 | 0,004 | 302 | 0,0098 | 1 |
60 | 471 | 0,018 | 201 | 0,004 | 290 | 0,0128 | 0 |
30 | 167 | 0,0051 | 151 | 0,0041 | 316 | 0,0069 | 1 |
18 | 27 | 0,0016 | 124 | 0,0042 | 112 | 0,0033 | 1 |
57 | 251 | 0,0045 | 112 | 0,0043 | 184 | 0,0038 | 0 |
74 | 252 | 0,005 | 127 | 0,0043 | 252 | 0,005 | 0 |
8 | 223 | 0,0142 | 208 | 0,0044 | 189 | 0,0121 | 1 |
21 | 212 | 0,008 | 178 | 0,0045 | 121 | 0,0058 | 1 |
65 | 13 | 0,0012 | 132 | 0,0046 | 43 | 0,0022 | 0 |
67 | 148 | 0,0036 | 118 | 0,0046 | 69 | 0,0025 | 0 |
70 | 12 | 0,001 | 110 | 0,0048 | 71 | 0,0024 | 0 |
84 | 278 | 0,0032 | 45 | 0,0048 | 294 | 0,0033 | 0 |
99 | 2 | 0,0003 | 90 | 0,0049 | 123 | 0,0027 | 0 |
19 | 14 | 0,001 | 108 | 0,0049 | 96 | 0,0027 | 1 |
76 | 58 | 0,0018 | 84 | 0,005 | 129 | 0,0027 | 0 |
88 | 281 | 0,0066 | 150 | 0,005 | 202 | 0,0055 | 0 |
95 | 381 | 0,0048 | 89 | 0,005 | 382 | 0,0047 | 0 |
35 | 362 | 0,0052 | 106 | 0,0051 | 240 | 0,0042 | 1 |
85 | 294 | 0,0043 | 93 | 0,0052 | 126 | 0,0028 | 0 |
97 | 347 | 0,0051 | 106 | 0,0052 | 267 | 0,0044 | 0 |
48 | 90 | 0,0031 | 130 | 0,0053 | 73 | 0,0028 | 1 |
82 | 147 | 0,0025 | 56 | 0,0053 | 214 | 0,003 | 0 |
96 | 224 | 0,0031 | 61 | 0,0053 | 320 | 0,0037 | 0 |
61 | 259 | 0,0046 | 112 | 0,0053 | 12 | 0,001 | 0 |
36 | 183 | 0,0028 | 60 | 0,0055 | 451 | 0,0044 | 1 |
98 | 283 | 0,003 | 27 | 0,0055 | 359 | 0,0033 | 0 |
86 | 285 | 0,0031 | 39 | 0,0055 | 285 | 0,0031 | 0 |
52 | 210 | 0,003 | 60 | 0,0056 | 241 | 0,0032 | 0 |
Таблица 2.3.2. Выборка. Продолжение.
№ | Х2 | Х3 | Х4 | Х6 | Х8 | Х9 | Y |
56 | 1402 | 0,0213 | 158 | 0,0056 | 550 | 0,0098 | 0 |
45 | 285 | 0,0046 | 103 | 0,0057 | 46 | 0,0018 | 1 |
89 | 343 | 0,0043 | 81 | 0,0057 | 71 | 0,002 | 0 |
69 | 393 | 0,0049 | 88 | 0,0057 | 103 | 0,0025 | 0 |
63 | 540 | 0,0095 | 147 | 0,0057 | 256 | 0,006 | 0 |
14 | 306 | 0,0063 | 141 | 0,0058 | 215 | 0,0052 | 1 |
87 | 300 | 0,0056 | 129 | 0,006 | 395 | 0,0064 | 0 |
16 | 213 | 0,0046 | 127 | 0,0061 | 236 | 0,0049 | 1 |
55 | 458 | 0,0081 | 147 | 0,0061 | 429 | 0,0078 | 0 |
47 | 283 | 0,0039 | 80 | 0,0062 | 181 | 0,0031 | 1 |
39 | 272 | 0,0042 | 96 | 0,0066 | 288 | 0,0043 | 1 |
32 | 406 | 0,0051 | 96 | 0,0066 | 198 | 0,0036 | 1 |
2 | 1237 | 0,0203 | 163 | 0,0066 | 538 | 0,0103 | 1 |
9 | 918 | 0,0163 | 176 | 0,0067 | 768 | 0,0142 | 1 |
10 | 1176 | 0,0206 | 181 | 0,0068 | 827 | 0,0158 | 1 |
51 | 715 | 0,0115 | 156 | 0,0069 | 470 | 0,0089 | 0 |
29 | 279 | 0,0031 | 37 | 0,0071 | 200 | 0,0026 | 1 |
78 | 659 | 0,0096 | 140 | 0,0072 | 539 | 0,0082 | 0 |
15 | 762 | 0,0101 | 141 | 0,0078 | 556 | 0,0084 | 1 |
33 | 326 | 0,0039 | 68 | 0,0081 | 158 | 0,0027 | 1 |
20 | 1442 | 0,0164 | 157 | 0,0081 | 1007 | 0,0131 | 1 |
37 | 208 | 0,003 | 61 | 0,0082 | 53 | 0,0015 | 1 |
46 | 315 | 0,0038 | 65 | 0,0097 | 309 | 0,0037 | 1 |
71 | 362 | 0,0033 | 24 | 0,0102 | 95 | 0,0017 | 0 |
92 | 96 | 0,0017 | 24 | 0,0103 | 96 | 0,0017 | 0 |
27 | 302 | 0,0032 | 38 | 0,0104 | 441 | 0,0039 | 1 |
38 | 409 | 0,0047 | 80 | 0,0107 | 509 | 0,0052 | 1 |
3 | 1839 | 0,0172 | 152 | 0,0108 | 1743 | 0,0164 | 1 |
93 | 221 | 0,0025 | 12 | 0,0111 | 262 | 0,0027 | 0 |
17 | 1649 | 0,013 | 127 | 0,0125 | 1426 | 0,012 | 1 |
23 | 542 | 0,0047 | 53 | 0,0131 | 241 | 0,0031 | 1 |
25 | 857 | 0,0064 | 70 | 0,0133 | 718 | 0,0058 | 1 |
34 | 603 | 0,0052 | 61 | 0,0136 | 339 | 0,0038 | 1 |
28 | 316 | 0,0031 | 23 | 0,0139 | 523 | 0,004 | 1 |
94 | 2105 | 0,0144 | 123 | 0,0147 | 2031 | 0,0138 | 0 |
50 | 739 | 0,0055 | 54 | 0,0179 | 759 | 0,0055 | 1 |
44 | 409 | 0,0038 | 40 | 0,0181 | 303 | 0,0033 | 1 |
1 | 3820 | 0,0193 | 113 | 0,0182 | 2859 | 0,0152 | 1 |
22 | 1964 | 0,0098 | 62 | 0,0203 | 1233 | 0,0073 | 1 |
42 | 1179 | 0,0069 | 55 | 0,0216 | 1034 | 0,0065 | 1 |
Таблица 2.3.2. Выборка. Окончание.
№ | Х2 | Х3 | Х4 | Х6 | Х8 | Х9 | Y |
24 | 184 | 0,0024 | 26 | 0,0219 | 223 | 0,0026 | 1 |
26 | 459 | 0,0037 | 25 | 0,0225 | 529 | 0,004 | 1 |
12 | 3863 | 0,0156 | 94 | 0,0261 | 4021 | 0,0159 | 1 |
43 | 65 | 0,0013 | 9 | 0,0319 | 65 | 0,0013 | 1 |
13 | 4321 | 0,0126 | 45 | 0,0578 | 4406 | 0,0128 | 1 |
Выводы: во второй главе был определен целевой показатель, определены факторы, построена выборка, были удалены признаки с неизвестными, постоянными значениями, устранены одинаковые элементы, восстановлены пропущенные данные, был проведен контроль значений признаков и восстановление ошибочных данных. Также было нормирование значений. Был проведен корреляционный анализ, в результате которого неинформативные признаки Х1, Х5 и Х7 были удалены. Наиболее информационными признаками являются: Х4, Х8, Х9.
Установление зависимости
Дата: 2018-12-28, просмотров: 417.