При составлении модели важно учитывать, насколько используемые переменные коррелируют друг с другом, чтобы избежать мультиколлинеарности в финальной модели. Для всех 13 переменных была построена матрица корреляции в MS Excel. В ходе анализа получившихся коэффициентов корреляции нами была использована шкала Чеддока (табл. 2.6). Заметная корреляция была обнаружена между переменными NIA и ROA, OOA и MEQUITY, MCA и MEQUITY, OOA и MCA. Коэффициент корреляции между остальными переменными был либо умеренным, либо слабым. В нашей модели мы допускаем нахождение обеих переменных одновременно, если корреляция между ними равна 0,5 и ниже. Если корреляция является заметной, то из пары переменных выбирается одна. Матрица коэффициентов корреляции приведена в приложении 2.
Таблица 2.6 Шкала Чеддока
|
Коэффициент корреляции |
Характеристика связи |
|
|
0 - 0,3 |
Слабая |
|
|
0,3 - 0,5 |
Умеренная |
|
|
0,5 - 0,7 |
Заметная |
|
|
0,7 - 0,9 |
Высокая |
|
|
0,9 - 1 |
Весьма высокая |
2.5 Построение logit-модели
Среди плюсов logit-модели можно выделить то, что в данной модели не возникает проблем с интерпретацией результирующих показателей в аутпуте, а также отсутствие зон неопределенности: например, если вероятность больше 0,5, то предприятие классифицируется, как банкрот, а если меньше или равна 0,5, то как действующая компания.
В результате последовательного перебора переменных с помощью метода Forward selection по критерию Акаике, для итоговой logit-модели было отобрано четыре показателя: ROE (Рентабельность собственного капитала), RA (Выручка от реализации/Активы), DEBT (Выручка/Дебиторская задолженность), PREMNI (Объем премий/Чистая прибыль). Модель выглядит следующим образом:
STATUS = -3.2230 - 2.5144*ROE - 2.2316*RA+ 1.4822 *DEBT - 0.3898* PREMNI
На 1% уровне значимыми коэффициентами являются ROE и RA, на 10% - DEBT. Не значим коэффициент при переменной PREMNI. Аутпут приведен в таблице 2.7.
Таблица 2.7 Аутпут итоговой logit-модели
|
Estimate |
Std. Error |
z value |
Pr(>|z|) |
||
|
Intercept |
-3.2230 |
0.4006 |
-8.046 |
8.57e-16 *** |
|
|
ROE |
-2.5144 |
0.5125 |
-4.906 |
9.29e-07 *** |
|
|
RA |
-2.2316 |
0.4400 |
5.072 |
3.94e-07 *** |
|
|
DEBT |
1.4822 |
0.8806 |
1.683 |
0.0923 . |
|
|
PREMNI |
-0.3898 |
0.5330 |
-0.731 |
0.4645 |
Проверяем модель на мультиколлинеарность с помощью VIF теста (табл. 2.8):
Таблица 2.8 Аутпут VIF теста
|
ROE |
RA |
DEBT |
PREMNI |
|
|
1.056413 |
1.175380 |
1.130780 |
1.006387 |
Видим, что все значения VIF меньше пяти - мультиколлинеарность в модели отсутствует.
В модели имеет место гетероскедастичность согласно тесту Бройша-Пагана (табл. 2.9):
Таблица 2.9 Аутпут теста Бройша-Пагана
|
BP = 12.954 |
df = 4 |
p-value = 0.0115 |
Так как в модели присутствует гетероскедастичность, ее стандартные ошибки несостоятельны. Следовательно, необходимо использовать робастные ошибки (табл. 2.10):
Таблица 2.10 Аутпут регрессии с робастными ошибками
|
Estimate |
Std. Error |
z value |
Pr(>|z|) |
||
|
Intercept |
-3.2230 |
0.42446 |
-7.5932 |
3.121e-14 *** |
|
|
ROE |
-2.5144 |
0.74912 |
-3.3564 |
0.0007896 *** |
|
|
RA |
-2.2316 |
0.42816 |
5.2120 |
1.868e-07 *** |
|
|
DEBT |
1.4822 |
0.79740 |
1.8588 |
0.0630550 . |
|
|
PREMNI |
-0.3898 |
0.21276 |
-1.8323 |
0.0669067 . |
Для данной модели были посчитаны средние предельные эффекты по наблюдениям (табл. 2.11). Выбор был отдан именно этому виду предельного эффекта, так как распределение данных ненормально, в связи с чем рассматривать среднее наблюдение и вычислять предельный эффект для него представляется нецелесообразным.
Таблица 2.11 Предельные эффекты для logit-модели
|
effect |
||
|
ROE |
-0.2343 |
|
|
RA |
-0.2080 |
|
|
DEBT |
0.1381 |
|
|
PREMNI |
-0.0363 |
Таким образом, для среднестатистической страховой компании с увеличением ROE на 1 вероятность банкротства уменьшается на 23,4%, с увеличением RA на 1 вероятность банкротства уменьшается на 20,8%, с увеличением DEBT на 1 вероятность банкротства увеличивается на 13,8%, с увеличением PREMNI на 1 вероятность банкротства уменьшается на 3,6%.
На основе полученных данных были построены матрицы ошибок для обучающей и тестовой выборки (табл. 2.12 и табл. 2.13):
Таблица 2.12 Матрица ошибок logit-модели для обучающей выборки
|
N = 142 |
Реальность |
|||
|
Не банкрот |
Банкрот |
|||
|
Прогноз |
Не банкрот |
89% |
23% |
|
|
Банкрот |
11% |
77% |
С помощью логит-модели на обучающей выборке быловерно предсказано 89% действующих компаний и 77% компаний банкротов. Предсказательная сила модели составляет 83%.
Таблица 2.13 Матрица ошибок logit-модели для тестовой выборки
|
N = 44 |
Реальность |
|||
|
Не банкрот |
Банкрот |
|||
|
Прогноз |
Не банкрот |
84% |
50% |
|
|
Банкрот |
16% |
50% |
На тестовой выборке было верно предсказано 84% действующих компаний и 50% компаний банкротов. Предсказательная сила модели равняется 67%. Таким образом, общая точность logit-модели составляет 75%, что делает ее пригодной для прогнозирования банкротства страховых компаний.
2.6 Прогнозирование банкротства при помощи метода случайного леса
Основной идеей модели случайного леса является бэггинг. Происходит разделение данных на множество бустреп-выборок, в которых примерно 2/3 наблюдений - уникальные (переменные выбираются из исходной совокупности данных, некоторые переменные в получившейся выборке могут отсутствовать, а другие - повторяться). Далее на основе каждой выборки строятся деревья. При этом метод случайного леса борется с доминирующими переменными, снижая корреляцию между деревьями, что ведет к повышению уровня качества получаемых решений.
В результате применения алгоритма Random Forest строится 500 бинарных классификационных деревьев.
Применяем данный алгоритм для всех переменных, которые были отобраны в результате теста Вилкоксона. Мера важности регрессоров показывает, какие переменные повышают точность модели (рис. 2.1):
Рисунок 2.1 Показатель Mean decrease Gini для модели случайного леса
Более высокий показатель Mean decrease Gini указывает на большую значимость показателя для оценки зависимой переменной в модели. Можем сделать вывод, что показатели RA, PREMNI, ROE и LIQUIDITY обладают наибольшей прогнозной силой в модели случайного леса.
Для интерпретации модели также важно понимать, какие показатели являются важными относительно предсказания принадлежности к определенной группе фирм (табл. 2.14):
Таблица 2.14 Оценки степени важности переменных
|
Переменная |
Действующие компании |
Банкроты |
|
|
LIQUIDITY |
15.811272 |
10.0914592 |
|
|
ROA |
10.598106 |
8.4524408 |
|
|
ROE |
12.030076 |
9.7297378 |
|
|
DEBT |
9.806261 |
0.5908181 |
|
|
BCAPITA |
9.121151 |
1.6084011 |
|
|
RA |
12.065162 |
13.3385481 |
|
|
FINRISK |
10.105265 |
4.8392399 |
|
|
INTCOV |
10.942188 |
3.3320033 |
|
|
PREMNI |
6.751371 |
12.6446068 |
|
|
OOA |
7.246720 |
7.7577096 |
|
|
AGE |
5.661237 |
5.0983414 |
Важными предикторами для прогнозирования принадлежности фирмы к «Действующим» страховым компаниям являются LIQUIDITY, ROE и RA, а наиболее значимыми переменными для прогнозирования перехода фирмы в статус «Банкрот» - LIQUIDITY, RA и PREMNI.
Видим, что для модели случайного леса важными предикторами являются переменные RA и PREMNI, что еще раз доказывает необходимость использования данных коэффициентов для прогнозирования банкротства страховых компаний.
Также была построена матрица ошибок для модели случайного леса (табл. 2.15).
Таблица 2.15 Матрица ошибок для модели случайного леса для обучающей выборки
|
N = 142 |
Реальность |
|||
|
Не банкрот |
Банкрот |
|||
|
Прогноз |
Не банкрот |
100% |
0 |
|
|
Банкрот |
0 |
100% |
Таким образом, точность прогнозирования случайного леса составляет 100%.
В дополнение к построенным матрицам ошибок для анализа качества предсказательной силы модели нами были построены ROC-кривые, которые отражают отношение между действующими предприятиями (чувствительность) и банкротами (1 - специфичность) при различных значениях вероятности принадлежности к группе банкротов. Площадь под кривой для logit-регрессии равна 0,775, а для случайного леса - 1, что свидетельствует о большей предсказательной силе модели случайного леса (рис. 2.2). Однако, для обеих моделей площадь под ROC-кривой больше 0,5, вследствие чего мы можем сделать вывод, что в любом случае обе модели обладают хорошей предсказательной силой.
Рисунок 2.2 ROC кривые для logit-модели и модели случайного леса
2.7 Применение алгоритма бинарного классификационного дерева
Данный алгоритм предполагает пошаговое построение дерева, где каждый узел разбивается на два подузла, что происходит с помощью индекса Джини:
, где
n - количество страховых организаций в узле до разбиения на два подузла (l - левый подузел, r - правый подузел)
h - доля страховщиков-банкротов в подузле
В ходе анализа было получено классификационное дерево (рис. 2.3), урезанное до четырех терминальных узлов. В данном алгоритме переменная PREMNI является главным критерием отбора обанкротившихся страховщиков и действующих фирм, в качестве второго критерия для деления выступает RA.
Рисунок 2.3 Бинарное классификационное дерево
Видим, что если PREMNI больше либо равен -1,4, то с вероятностью 13% действующие фирмы будут спрогнозированы, как банкроты; если же показатель меньше -1,4, то с вероятностью 35% обанкротившимся фирмам будет приписан статус банкрота. Таким образом, в алгоритме наиболее важную роль играют два финансовых показателя, которые были также выбраны в качестве предикторов для логит-модели - это еще раз подтверждает эффективность и большую предсказательную способность данных переменных.
Далее был проведен анализ предсказательной силы бинарного дерева для обучающей и тестовой выборки (табл. 2.16 и табл. 2.17):
Таблица 2.16 Матрица ошибок для бинарного классификационного дерева для обучающей выборки
|
N = 142 |
Реальность |
|||
|
Не банкрот |
Банкрот |
|||
|
Прогноз |
Не банкрот |
87% |
27% |
|
|
Банкрот |
13% |
73% |
Таблица 2.17 Матрица ошибок для бинарного классификационного дерева для тестовой выборки
|
N = 44 |
Реальность |
|||
|
Не банкрот |
Банкрот |
|||
|
Прогноз |
Не банкрот |
90% |
31% |
|
|
Банкрот |
10% |
69% |
Таким образом, точность алгоритма бинарного классификационного дерева составляет 80%.
ЗАКЛЮЧЕНИЕ
В данной работе было проведено исследование, посвященное выявлению факторов, влияющих на финансовую стабильность страховых компаний в России и разработке модели, которая способна прогнозировать вероятность банкротства фирмы. Как известно, рынок страхования подвержен постоянным изменениям из-за слияний и поглощений между крупными компаниями, что порождает нестабильность для средних и малых предприятий вследствие увеличения конкуренции. Кроме того, благополучие сферы страхования тесно связано с общей экономической конъюнктурой в стране и уровнем платежеспособности населения. К сожалению, на данный момент наблюдается падение реальных доходов граждан и резкое ухудшение макроэкономической ситуации, что в свою очередь негативно повлияет на деятельность страховщиков. Усугубить подобное воздействие на компании может еще и недоверие населения к страховщикам из-за недостаточной прозрачности деятельности фирм. Было выдвинуто предположение, что модель прогнозирования банкротства может стать одним из инструментов для решения проблем, с которыми сталкивается страховая организация в России.