Рисунок 7. Распределение операционной рентабельности и отдачи от активов на (1) 20
Средние значения основных финансовых коэффициентов значительно разнятся в зависимости от отрасли. Так, наиболее закредитованными отраслями традиционно остаются финансы и энергетика, однако наибольшие трудности с покрытием долговой нагрузки испытывают производители товаров потребления.
Долгосрочный и низкомаржинальный характер инвестиций в здравоохранение оправдывает отрицательное среднее значение рентабельности активов.
Многие другие коэффициенты демонстрировали большой разброс и обилие выбросов (см. прил. А, табл. 17); было, однако, решено не исключать выбросы из выборки, так как зачастую очень высокие или очень низкие значения коэффициентов отражают экономическую природу феномена банкротства, как, например, очень низкий показатель собственного капитала или операционной прибыли.
Таблица 7. Средние значения основных финансовых переменных на выборке (1) 20
|
D/E |
CFFO/D |
EBITDA/IE |
CL/A |
QA/A |
EBIT/R |
NI/A |
||
|
Добыча |
0.57 |
0.20 |
3.19 |
0.14 |
0.17 |
0.03 |
0.01 |
|
|
Потреб. товары |
0.37 |
0.55 |
17.90 |
0.26 |
0.17 |
0.08 |
0.06 |
|
|
Финансы |
1.02 |
0.12 |
2.10 |
0.21 |
0.21 |
0.08 |
0.01 |
|
|
Здравоохранение |
0.20 |
0.09 |
2.99 |
0.23 |
0.30 |
0.10 |
-0.01 |
|
|
Пром. товары |
0.55 |
0.22 |
7.06 |
0.20 |
0.30 |
0.07 |
0.03 |
|
|
Услуги |
0.51 |
0.22 |
5.43 |
0.23 |
0.28 |
0.06 |
0.04 |
|
|
Технологии |
0.48 |
0.20 |
6.74 |
0.19 |
0.33 |
0.07 |
0.03 |
|
|
Инфраструктура |
0.87 |
0.17 |
4.47 |
0.11 |
0.14 |
0.21 |
0.03 |
Текстовые факторы
По практическим соображениям в исследовании были использованы не тексты новостей, как обычно делается(Heston & Sinha, 2016), а только их заголовки, что можно сравнить с анализом сообщений из Twitter(Nielsen, 2011). Все они были размещены в сервисе ThomsonReutersNews (RTRS/REUTES) в разделе Research, причем за каждым была закреплена ассоциация с одной или с несколькими компаниями из исследованной выборки.
Из более чем 23 тысяч заголовков было выбрано 4896 содержательных и непересекающихся, в которых упоминалось всего 209 компаний (в среднем 23.4 новости на компанию на протяжении 8 лет - см. прил. Б, табл. 21-23). Новости, относящиеся к компаниям-банкротам, были включены в выборку в том случае, если они были опубликованы не позднее чем за месяц от даты объявления банкротства.
Таблица 8. Средние числа новостей на компанию; слов и значимых слов на новость
|
2011 |
2012 |
2013 |
2014 |
2015 |
2016 |
2017 |
2018 |
||
|
Новостей |
10.13 |
6.96 |
5.56 |
7.00 |
5.29 |
3.53 |
2.83 |
11.74 |
|
|
Слов |
9.80 |
9.59 |
8.81 |
10.16 |
10.65 |
10.06 |
11.07 |
10.48 |
|
|
Значимых слов |
2.57 |
2.37 |
1.86 |
1.87 |
1.74 |
2.33 |
2.44 |
2.00 |
В большинстве случаев между тональностями наблюдалась осмысленная корреляция, однако ее, зачастую, не существовало между ними и объясняемой переменной (см. прил. Б, табл. 25-27). Словарь L&Mоказался наиболее осмысленным в этом отношении (см. прил. Б, табл. 26).: негативный и неопределенный характер новостных сообщений коррелировал с повышенной вероятностью банкротства, а положительный - со сниженной. Подозрений на избыточность переменных и наличие мультиколлинеарности не возникло. Более того, средняя спорная тональность (litigious - «спорный» в юридическом смысле) продемонстрировала высокую корреляцию с количеством банкротств в год.
Рисунок 8. Усредненные тональности и число банкротств по годам, L&M
В целом, переменные тональности продемонстрировали незначительный разброс, а их матрица оказалась достаточно разреженной: большинство новостей содержало всего 1-2 тональности, а алгоритм TF-IDFпозволил сгладить большую разницу между популярностью различных компаний в корпусе новостных сообщений.
Таблица 9. Описательные статистики переменных тональностей, L&M
|
Тональность |
Отриц. |
Полож. |
Неопр. |
Спорн. |
Огранич. |
Избыт. |
||
|
Банкроты |
Максимум |
2.75 |
1.13 |
0.79 |
1.54 |
0.34 |
0.00 |
|
|
Медиана |
1.39 |
0.00 |
0.00 |
0.00 |
0.00 |
0.00 |
||
|
Среднее |
1.36 |
0.20 |
0.16 |
0.20 |
0.03 |
0.00 |
||
|
Минимум |
0.00 |
0.00 |
0.00 |
0.00 |
0.00 |
0.00 |
||
|
Отклонение |
0.69 |
0.36 |
0.22 |
0.41 |
0.08 |
0.00 |
||
|
Аналоги |
Максимум |
3.16 |
2.14 |
1.41 |
1.52 |
1.00 |
1.00 |
|
|
Медиана |
1.00 |
0.00 |
0.00 |
0.00 |
0.00 |
0.00 |
||
|
Среднее |
0.86 |
0.30 |
0.10 |
0.29 |
0.02 |
0.02 |
||
|
Минимум |
0.00 |
0.00 |
0.00 |
0.00 |
0.00 |
0.00 |
||
|
Отклонение |
0.59 |
0.41 |
0.25 |
0.41 |
0.10 |
0.13 |
Анализ данных позволил заключить, что, во-первых, как финансовые, так и текстовые факторы несут некоторую информацию об объясняемой; во-вторых, в большинстве случаев взаимосвязь между ними соответствует экономическим процессам, сопряженным с феноменом банкротства; наконец,словарь L&M, в отличие от двух других, вполне годится для формирования переменных тональности, осмысленно связанных с объясняемой переменной.
6. Результаты исследования
В целом результаты удовлетворительны. Удалось добиться весьма высокой точности предсказания банкротства, аиз новостных заголовков удалось извлечь некоторую информацию.Ее полезность для еще большего увеличения прогнозной силыбанкротства, однако, неочевидна.
Выдвинутые гипотезы подтвердились лишь частично:
H1. Результаты неоднозначны: улучшение прогнозной силы произошло только для одной из четырех моделей и не превысило статистической погрешностив 1-2%;
H2. Гипотеза подтверждается с осторожностью для переменных словаря L&M, значимых согласно F-тесту: негативная и неопределенная тональности повышают вероятность банкротства, а позитивная - уменьшает;
H3. Результаты неоднозначны: среди словарей не удается выделить стабильно более результативный, хотя факторы словарей NRCи GI, в отличие от таковых у L&M,практически не поддаются интерпретации;
H4. Гипотеза отвергается: чаще всего метрики качества растут с увеличением горизонта, а не снижаются, однако разница между однолетними и трехлетними метриками весьма мала;
H5. Гипотеза отвергается: все фиктивные переменные отраслей оказались незначимыми.
6.1. Выбор нетекстовых факторов и словаря
После обработки собранных данных возникла необходимость уменьшить размерность матрицы объясняющих переменных, число которых изначально не более чем в 5-6 раз превышал количество наблюдений в наименьшей из выборок. Предполагалось, что это позволит улучшить интерпретируемость моделей и повысит устойчивость ее коэффициентов.
Сначала была устранены переменные, порождающие очевидную мультиколлинеарность. Всего в матрице регрессоров оказалось 8 пар переменных, корреляция между которыми превышала 0.9. В каждой из них выбиралась и удалялась та переменная, взаимная информация которой с объясняющей переменной была меньше.
Рисунок 9. Пары скоррелированных объясняющих переменных и выбор одной из них
|
Парная корреляция |
Факторы |
Взаимная информация с Y |
Корреляция с Y |
|
|
-0.970 |
ы L/A |
0.1178 |
0.233 |
|
|
ь CE/A |
0.1214 |
-0.231 |
||
|
1.000 |
ы A |
0.0330 |
-0.031 |
|
|
ь A/GNP |
0.0491 |
-0.032 |
||
|
0.936 |
ы CA/CL |
0.0368 |
-0.058 |
|
|
ь QA/CL |
0.0480 |
-0.051 |
||
|
0.992 |
ы WC/D |
0.0588 |
0.032 |
|
|
ь CA/D |
0.0592 |
0.028 |
||
|
0.938 |
ь NI/R |
0.1891 |
-0.086 |
|
|
ы EBIT/R |
0.1071 |
-0.105 |
||
|
0.902 |
ы CFFO/A |
0.1039 |
-0.017 |
|
|
ь CFFO/D |
0.1178 |
-0.006 |
||
|
-0.973 |
ы C/GP |
0.0565 |
-0.002 |
|
|
ь EBITDA/IE |
0.1593 |
-0.007 |
||
|
0.964 |
ь CA/D |
0.0592 |
0.028 |
|
|
ы GP/D |
0.0324 |
0.016 |
Былиудаленыпеременные: Liabilities/Assets, Assets, Current Assets/Current liabilities, Working Capital/Debt, EBIT/Revenue, Cash flow from operations/Assets, Cash and equivalents/Gross profit, Gross profit/Debt, послечегоосталось 28 финансовыхпеременных. Это число все еще очень велико: в среднем при прогнозировании банкротства используется всего 10 переменных (Bellovary et al., 2007). Особенно много оказалось переменных ликвидности (8), по своему смыслу зачастую однородных.
Далее был применен алгоритм последовательного исключения переменных (recursivefeatureelimination) на основе логит-моделис кросс-валидацией и PR-AUCв качестве целевой функции. Оказалось, что функция PR-AUCимеет локальные экстремумы при 8 и 15 факторах (см. прил. В, рис. 15). Было решено выбрать второе число, но отбирать не из всех факторов сразу, а из каждой категории отдельно. Это могло привести к менее качественной оценке, однако это не столь важно по сравнению с учетом всех возможных источников информации: набор наиболее качественно различных финансовых факторов в исследовании выступает в роли контрольных переменных.В каждой из пяти категорий было отобрано по три переменные с помощью того же алгоритма.
Таблица 10. Итоговый набор финансовых факторов
|
Категория |
Фактор |
Корреляция |
Взаимная информация |
F-статистика |
p-value |
|
|
Рычаг |
CL/E |
-0.031 |
0.094 |
8.851 |
0.003 |
|
|
D/A |
0.140 |
0.077 |
51.313 |
0.000 |
||
|
D/E |
-0.014 |
0.139 |
4.348 |
0.037 |
||
|
Покрытие |
CFFO/D |
-0.006 |
0.118 |
0.086 |
0.769 |
|
|
FCF/D |
-0.093 |
0.113 |
22.985 |
0.000 |
||
|
EBITDA/IE |
-0.007 |
0.159 |
17.688 |
0.000 |
||
|
Ликвидность |
CA/A |
-0.060 |
0.077 |
12.930 |
0.000 |
|
|
CL/A |
0.165 |
0.040 |
81.456 |
0.000 |
||
|
QA/A |
-0.068 |
0.039 |
17.496 |
0.000 |
||
|
Прибыльность |
EBIT/E |
-0.034 |
0.104 |
4.636 |
0.032 |
|
|
EBITDA/A |
-0.194 |
0.103 |
101.820 |
0.000 |
||
|
NI/A |
-0.144 |
0.185 |
34.366 |
0.000 |
||
|
Активность |
AP/R |
0.023 |
0.034 |
4.401 |
0.036 |
|
|
AR/L |
-0.063 |
0.013 |
8.500 |
0.004 |
||
|
INV/R |
0.061 |
0.017 |
10.689 |
0.001 |