Случайный лес выживаемости
Одним из методов реализации анализа выживаемости является случайный лес выживаемости, который показывает вероятность наступления события, а также вероятностные характеристики времени до его наступления. Случайный лес выживаемости представляет собой ансамбль деревьев решений, как и случайный лес, однако для расщепления промежуточных узлов дерева применяется логранговый критерий. Среднее значение функции риска по всем деревьям является усредненным ответом по всему ансамблю деревьев. Тогда: P(t) = HB(t|x) - вероятность выхода в 15+ на 1-том месяце жизни договора,
Q(t) = P(t) * (l-- P(t))
- вероятность невыхода в 15+ в течение 1 месяцев, где HB(t|x) - ответ каждого отдельного дерева при заданных параметрах t и х, а В - число деревьев.
Рис. 1. Графики ROC-кривых для моделей логистической регрессии, модели Кокса, случайного леса выживаемости
На основе описанных методов расчета оценки риска применим методику расчета рентабельности собственного капитала на базе регионального розничного банка, для этого предварительно построим модели оценки PD. В качестве исходных данных для построения служат данные по кредитному портфелю по состоянию на последнее число месяца за период с 2012-01-01 по 31-10-2016 с учетом факта дожития кредита до каждого исследуемого среза. Построение модели производится на наиболее свежем срезе портфеля: состояние портфеля на срез 31-10-2016 и его последующей фактической оценкой по состоянию на 31-10-2017, то есть целевой функцией служила оценка выхода в дефолт 15+ в течение последующих 12 месяцев от даты среза. Для каждой даты среза был сформирован портфель действующих кредитов: открытых кредитов по состоянию на дату среза и с текущей оценкой бинарного признака дефолта по кредиту. Для указанной выборки на основе кредитной истории были рассчитаны переменные, а также произведено разделение выборки на обучающую и валидирующую в соответствии с [11]. Качество построенных моделей оценивалось с помощью расчета площади под ROC-кривой и коэффициента Gini. Графики ROC-кривых для построенных моделей следующие.
Соответствующие значения коэффициента Gini для обучающей выборки, валидирующей выборки и тестовой выборки представлены в табл. 1.
Таблица 1 Значения коэффициента Gini для моделей логистической регрессии, Кокса и случайного леса выживаемости
|
Gini на обучающей выборке |
Gini на валидирующей выборке |
Gini на тестовой выборке |
||
|
Логистическая регрессия |
0.6832 |
0.6883 |
0.6949 |
|
|
Модель Кокса |
0.4687 |
0.4399 |
0.4479 |
|
|
Случайный лес выживаемости |
0.7544 |
0.7538 |
0.7570 |
По графикам ROC-кривых и значениям коэффициентов Gini можно сделать вывод, что наиболее точной и в то же время стабильной является модель случайного леса выживаемости. При это модель Кокса дает наихудшую оценку, что связано с тем, что основным предположением модели Кокса является пропорциональность в изменении риска с течением времени, что оказалось не верным в случае оценки кредитного риска. Однако интерес представляет не только оценка качества самой модели, но и расчет рентабельности капитала с учетом риска.
Для каждого отдельного кредита і є N определим его индивидуальную рентабельность ROEt с учетом риска, расчеты произведем на наиболее свежем срезе портфеля: открытые кредиты на 31-10-2018. Всего в выборку попало N=39260 кредитов, которые были выданы с 01-01-2012 по 31-10-2018. По каждому договору кредитования имеются описанные ранее входные параметры модели, а также индивидуальные данные заемщика. В соответствие с целевой функцией сравним полученные оценки показателя ROE в зависимости от Р( 12), вероятности того, что произойдет выход в дефолт 15+ в течение следующего года, которая была оценена логистической моделью, моделью Кокса и моделью случайного леса выживаемости.
Наблюдается явная зависимость: при увеличении риска по кредиту увеличивается рентабельность собственного капитала. При оценке моделями Кокса и случайного леса выживаемости для высокорискованных кредитов ROE увеличивается вплоть до значений близких к единице, что действительно возможно за счет более высоких процентных ставок по кредиту, однако неверно с точки зрения оценки риска, так как данные кредиты, вероятнее всего, станут дефолтными или вовсе невозвратными. При этом по модели случайного леса выживаемости для высокорискованных кредитов рентабельность собственного капитала также растет, но менее быстрыми темпами и при этом положительна, что более объективно оценивает инвестиционную эффективность кредитного договора.
рентабельность капитал риск кредитный
Рис. 2. Графики зависимости ROE от оценки риска, рассчитанной моделью логистической регрессии, моделью Кокса, моделью случайного леса выживаемости
Таким образом, данный подход позволяет наглядно оценить размер рентабельности собственного капитала в зависимости от модели оценки риска, а в дополнении к критерию качества Gini обосновывает необходимость использования более сложных моделей машинного обучения для оценки кредитного риска и является дополнительным инструментом для выбора окончательной модели. Дальнейший интерес данного исследования заключается в оценке кредитных договоров с досрочным погашением и их влиянием на общую рентабельность капитала.
Список литературы
1. Приказ Минфина России от 27.06.2016 № 98н «О введении документов Международных стандартов финансовой отчетности в действие на территории Российской Федерации и о признании утратившими силу некоторых приказов Министерства финансов Российской Федерации» (Зарегистрировано в Минюсте России 15.07.2016 № 42869).
2. Энциклопедия финансового риск-менеджмента / под ред. канд. экон. наук А.А. Лобанова и А.В. Чугунова. М.: Альпина Паблишер, 2009. 932 с.
3. Кокс Д.Р., Оукс Д. Анализ данных типа времени жизни / пер. с англ. М.: Финансы и статистика, 1988. 191 с.
4. Man R. Survival analysis in credit scoring: A framework for PD estimation / Twente: University of Twente, 2014.
5. Лётчиков А.В., Матвеев Р.Ю., Широбокова М.А. Решение проблемы цензурированных данных при моделировании оценки индивидуального кредитного риска // Вестн. Удм. ун-та. Сер. Экономика и право. 2019. Т. 29, вып. 1. С. 34-41.
6. Алескеров Ф.Т., Белоусова В.Ю., Сердюк М.Ю., Солодков В.М. Стереотипы поведения российских банков // Банковское дело. 2008. №7. С. 44-50.
7. Алескеров Ф.Т., Андриевская И.К., Пеникас Г.И., Солодков В.М. Анализ математических моделей Базель II. 2-е изд., испр. М.: ФИЗМАТЛИТ. 2013. 295 с.
8. Воронцов К.В. Лекции по линейным алгоритмам классификации. Электрон. док., 2009.
9. Лётчиков А.В. Расчет индивидуального кредитного риска с применением модели геометрического распределения // Вестн. Удм. ун-та. Сер. Экономика и право. 2018. Т. 28, вып. 2. С. 208-213.
10. Широбокова М. А. Модель оценки риска дефолта на всем протяжении жизни кредита // Вестн. Удм. ун-та. Сер. Экономика и право. 2018. Т. 28, вып. 2. С. 228-233.
11. Ishwaran H. The effect of splitting on random forests / The Author(s), 2014.
12. Mogensen U.B., Ishwaran H., Gerds, T.A. Evaluating random forests for survival analysis using prediction error curves. University of Copenhagen, 2012.
13. Груздев А.В. Прогнозное моделирование в IBM SPSS Statistics, R и Python: метод деревьев решений и случайный лес. М.: ДМК Пресс, 2018. 642с.
14. Чистяков С.П. Случайные леса: обзор // Тр. Карельского науч. центра РАН / Ин-т прикладных матем. ис- след. Карельского науч. центра РАН. Петрозаводск, 2013. С. 125-126.