Объем кредитов,  выданных физическим лицам, объем кредитов, выданных физическим лицам на покупку жилья, объем выданных ипотечных жилищных кредитов физическим лицам
Поможем в ✍️ написании учебной работы
Поможем с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой

Ниже представлена проекция исследуемого множества на пространство трех ГК (рис.5).

рис.5 Проекция исследуемых объектов в пространство трех ГК

Из рис.5 видно,  что  исследуемая совокупность разделилась на три класса.

3) Определим значащие признаки в составе главных компонент по следующей формуле:

, где [wkj] – подмножество, участвующих в названии весовых коэффициентов j -й компоненты,

[wj] – все весовые коэффициенты j-й компоненты.

Ниже представлена таблица весовых коэффициентов первой ГК.

 

                                  

В соответствии с вышепредставленной формулой коэффициент информативности рассчитывается следующим образом:

= 0,8    

Ки1 принадлежит интервалу [0,75,0,95], что говорит об определении ГК1 влиянием следующих признаков:  объем выданных кредитов физическим лицам,  объем кредитов, выданных физическим лицам на покупку жилья, объем выданных ипотечных жилищных кредитов физическим лицам.

4) Правило классификации на основе анализа методом главных компонент выглядит следующим образом:

ГК1= объем выданных кредитов физическим лицам *0,49+ объем кредитов, выданных физическим лицам на покупку жилья *0,53+ объем выданных ипотечных жилищных кредитов физическим лицам *0,52

Если объем выданных кредитов физическим лицам = малое, объем кредитов, выданных физическим лицам на покупку жилья = малое, объем выданных ипотечных жилищных кредитов физическим лицам =малое, объем выданных кредитов индивидуальным предпринимателям = малое, то класс = 1

Если объем выданных кредитов физическим лицам = среднее, объем кредитов, выданных физическим лицам на покупку жилья = среднее, объем выданных ипотечных жилищных кредитов физическим лицам = среднее, объем выданных кредитов индивидуальным предпринимателям = среднее, то класс = 2

Если объем выданных кредитов физическим лицам = большое, объем кредитов, выданных физическим лицам на покупку жилья = большое, объем выданных ипотечных жилищных кредитов физическим лицам = большое, объем выданных кредитов индивидуальным предпринимателям = большое, то класс = 3

В первый класс вошли объекты под номерами: 1-9, 11-17,19-28, 30-37, 39-42, 48,50,53,56.

Во второй класс вошли объекты под номерами: 42, 47, 51,38,52,55,45

В третий класс вошел один объект под номером: 10,18,29,43,46,49,54

Кластерный анализ

 

Кластерный анализ предназначен для разбиения множества объектов на заранее неизвестное или в редких случаях заданное количество групп (кластеров) на основании некоторого математического критерия качества классификации кластеризации.

Введем исходные данные в электронную таблицу Statgraphics. Первый этап анализа – построение дендрограммы. Нажать на кнопку «Graphical options» меню окна «Cluster Analysis», выбрать отображение в виде дендрограммы (Dendrogram) и нажать ОК.

На дендрограмме видны три дерева. По вертикальной оси отложено расстояние для каждого шага работы агломеративного иерархического алгоритма кластеризации. На горизонтальной оси показаны наблюдения, скомбинированные в соответствии с проведенным анализом.

Поскольку на дендрограмме можно увидеть отчетливую картину трех группировок и имен наблюдений, вошедших в выделенные кластеры, то следовательно, для более подробного рассмотрения группировок следует задать их количество равным 3.

Введем исходные данные в электронную таблицу STATGRAPHICS (50*8). 

Первый шаг анализа - построение дендрограммы для трех кластеров (рис.6). При построении необходимо учитывать виды расстояний: между объектами – «City-Block», между кластерами «Ward’s Method».

рис.6 Трехкластерная дендрограмма

Второй шаг получение сводки кластерного анализа (рис.7).

 

рис.7 Сводка кластерного анализа

 

Данная сводка содержит информацию о числе кластеров, количестве объектов в каждом кластере и соответствующем проценте населенности.

По координатам центроидов можно судить о том, какие переменные играют наиболее важную роль в каждом кластере, а также составить правило классификации. В полученной сводке есть признаки, кластерные значения которых не составляют большую разницу между собой. К таким признакам относятся: средневзвешенный срок кредитования( col _3), средневзвешенная процентная ставка( col _4),  средневзвешенный срок   кредитования для ипотечных кредитов( col _6) и средневзвешенная процентная ставка для ипотечных кредитов( col _7).

Правило классификации для первого кластера:

Если объем выданных кредитов физическим лицам =большой, объем кредитов, выданных физическим лицам на покупку жилья = малое, объем выданных ипотечных жилищных кредитов физическим лицам = малое, объем выданных кредитов индивидуальным предпринимателям = малое, то класс = 1.

Правило классификации для второго кластера:

Если объем выданных кредитов физическим лицам = малый, объем кредитов, выданных физическим лицам на покупку жилья = среднее, объем выданных ипотечных жилищных кредитов физическим лицам = среднее, объем выданных кредитов индивидуальным предпринимателям = среднее, то класс = 2.

Правило классификации для третьего кластера:

Если объем выданных кредитов физическим лицам = средний, объем кредитов, выданных физическим лицам на покупку жилья = большой, объем выданных ипотечных жилищных кредитов физическим лицам =большой, объем выданных кредитов индивидуальным предпринимателям = большой, то класс = 3.

Дерево решений

Деревья решений – это способ представления правил в иерархической, последовательной структуре. В узле дерева осуществляется проверка значения некоторой независимой переменной. Если переменная, которая проверяется в узле, принимает категориальные значения, то каждому возможному значению соответствует ветвь, выходящая из узла дерева. Если значением переменной является число, то проверяется, больше или меньше это значение некоторой константы.

Листья деревьев соответствуют классам. Каждый лист дерева представляет собой один класс. Путь, ведущий от корня дерева к этому листу, соответствует правилу классификации. Отметим, что один и тот же класс может быть указан в нескольких листьях дерева. Однако, каждому пути к отдельному листу (правилу классификации) соответствует множество объектов, в котором элементы (объекты) не могут повторяться в разных листьях.

Построение ДР проводится с использованием пакета See5, позволяющим конструировать классификатор объектов в виде ДР, которому может быть поставлено в соответствие некоторое множество логических правил.

Перед вычислением дерева необходимо скопировать данные в блокнот word pad, после чего изменить формат файла на data. Исходные данные для вычисления дерева решения примут следующий вид (имя файла derevo):


1,1826363,189,15

2,917535,188,14

1,1482830,166,15

1,2474846,164,15

1,642738,167,15

2,1106109,190,14

1,462245,147,15

1,1105639,197,16

1,788815,189,15

3,7853229,156,14

1,451150,160,15

1,1420937,189,15

1,1266100,203,15

1,438172,192,15

2,1682123,184,14

1,1263580,184,15

1,1644670,172,15

3,14438366,112,14

2,1229661,175,13

1,4356096,183,15

1,1851976,177,15

1,230977,185,16

3,2383630,170,14

2,1374942,160,14

2,1359242,192,14

1,758176,179,15

1,944696,182,15

1,438416,197,15

3,8669422,172,14

1,211300,198,15

1,122290,89,18

1,32493,134,15

1,577318,204,15

1,136223,186,16

1,209524,217,16

1,787277,209,16

2,36251,171,14

3,4884241,190,14

2,3403749,195,15

1,1013384,188,15

2,2853828,202,15

3,4082560,171,15

3,10950662,172,14

1,921844,154,15

2,940159,189,14

3,7889566,165,14

3,5052323,167,14

2,3311362,199,14

3,6933937,180,14

2,2734210,192,14

3,6301381,187,15

2,3518255,191,13

2,1015552,188,14

3,8174605,176,14

2,2663564,190,14

1,1412219,178,15

 

После этого создаем файл под именем derevo формат names.

 Файл derevo . names выглядит следующим образом:

Class. |target attribute

Class: 1,2,3.

объем выданных кредитов физическим лицам: continuous. 

средневзвешенный срок кредитования: continuous.

средневзвешенная процентная ставка: continuous.  

Шаг 1.

Построение дерева решений.

 
  Decision tree:   средневзвешенная процентная ставка <= 14: :...объем выданных кредитов физ.лицам <= 4082560: 2 (14/1) : объем выданных кредитов физ.лицам > 4082560: 3 (9) средневзвешенная процентная ставка > 14: :...объем выданных кредитов физ.лицам <= 2663564: 1 (28) объем выданных кредитов физ.лицам > 2663564: :...объем выданных кредитов физ.лицам <= 3518255: 2 (2)    объем выданных кредитов физ.лицам > 3518255: 3 (3/1)  

 


В полученном дереве 5 ветвей. Первая ветвь: 2 класс, состоящий из 14-ти объектов, причем 1 классифицируется ошибочно.

Вторая ветвь: 3 класс, состоящий из 9-ти объектов. Третья ветвь: 1 класс – 28 объектов. Четвертая ветвь: 2 класс – 2 объекта. Пятая ветвь: 3 класс – 3 объекта, причем 1 объект классифицируется ошибочно.

Данное дерево решений содержит в себе следующую информацию:

Если средневзвешенная процентная ставка <= 14 и объем выданных кредитов физ. лицам<= 4082560, то класс 2 (14/1 объектов),

Если средневзвешенная процентная ставка <= 14 и объем выданных кредитов физ. лицам >4082560, то класс 3 (9 объектов),

Если средневзвешенная процентная ставка > 14 и объем выданных кредитов физ. лицам <= 2663564, то класс 1 (28 объектов),

Если  средневзвешенная процентная ставка > 14 и объем выданных кредитов физ. лицам на покупку жилья >2663564 и <=3518255 то класс 2 (2 объекта).

Если средневзвешенная процентная ставка > 14 и объем выданных кредитов физ. лицам на покупку жилья >2663564 и >3518255 то класс 3 (3/1 объекта).

Ниже представлены извлеченные правила.

 

Extracted rules:   Rule 1: (28, lift 1.9)    объем выданных кредитов физ.лицам <= 2663564    средневзвешанная процентная ставка > 14    -> class 1 [0.967]   Rule 2: (14/1, lift 3.3)    объем выданных кредитов физ.лицам <= 4082560    средневзвешанная процентная ставка <= 14    -> class 2 [0.875]   Rule 3: (5/3, lift 1.6)    объем выданных кредитов физ.лицам > 2663564    средневзвешанная процентная ставка > 14    -> class 2 [0.429]   Rule 4: (12/1, lift 4.0)    объем выданных кредитов физ.лицам > 3518255    -> class 3 [0.857]  

 


Каждое правило имеет следующую структуру:

- номер правила,

- в скобках – количество объектов обучающей выборки,

- запись условной части правила (часть «ЕСЛИ»),

- после знака импликации (->) – запись заключительной части правила (часть «ТО»), в которой указана принадлежность к классу,

- величина, принимающая значение от 0 до 1, которая выражает степень доверия к правилу.

 


            Decision Tree      Rules    

     ---------------- ----------------

     Size Errors No Errors

 

        5 2( 3.6%)  4 2( 3.6%) <<

 

      (a) (b) (c) <-classified as

     ---- ---- ----

       28      1 (a): class 1

             15     (b): class 2

              1 11 (c): class 3

 

A. Из 1 класса правильно классифицируются 28 объектов, 1 объект ошибочно относится к классу 3

B. Из 2 класса все 15 объектов классифицируются верно,

C. Из класса 3 верно классифицируются 11 объектов, один объект ошибочно относится к классу 2.

Количество сработавших правил равно 4, имеет место ошибка извлечения объектов (3.6 процента).







Дата: 2019-05-29, просмотров: 228.