Среди всех существующих словарей тональности были избраны три. Во-первых, словарьLoughran-McDonaldSentimentWordList(L&M)сталочевидным выбором благодаря вышеупомянутой практике успешного применения в финансах, своей специализированности на экономическом лексиконе и релевантности набора сентиментов для анализа риска и процедуры банкротства (наличие «неопределенной» и «юридически спорной» тональностей). Во-вторых, словарьNRCWord-EmotionAssociationLexicon(NRC)былвыбранкак наиболее крупный словарь как по количеству слов, так и по полноте пространства сентиментов, а также благодаря его универсальности - в предположении того, что лексикон новостных заголовков может отличаться от профессионального финансового дискурса. В-третьих, словарьHarvardGeneralInquirer (GI)в форме трех семантических измерений Осгода из категорий IV-4 был взят как наиболее популярный словарь в практике анализа тональности (Loughran&McDonald, 2011). Все словари также были подвержены стеммингу.
Таблица 5. Словари, сентименты и количество слов после стемминга
|
L&M |
NRC |
GI |
||||
|
Всего основ |
3917 |
Всего основ |
6468 |
Всего основ |
5136 |
|
|
Отрицательная |
2355 |
Злость |
1247 |
Положительная |
1596 |
|
|
Положительная |
354 |
Симпатия |
839 |
Отрицательная |
1938 |
|
|
Неопределенная |
297 |
Отвращение |
1058 |
Сильная |
1405 |
|
|
Спорная |
904 |
Страх |
1476 |
Слабая |
603 |
|
|
Ограничивающая |
184 |
Радость |
689 |
Активная |
1447 |
|
|
Избыточная |
56 |
Пессимизм |
3324 |
Пассивная |
631 |
|
|
Оптимизм |
2312 |
|||||
|
Грусть |
1191 |
|||||
|
Неожиданность |
534 |
|||||
|
Доверие |
1231 |
Словари DICTION, успешно применявшиеся для прогнозирования банкротства(Demers & Vega, 2010),не были использованы из-за отсутствия единого общедоступного списка слов и трудоемкости вычисления сентиментов.
В своей оригинальной трактовке метод мешка слов подразумевает подсчет числа включений каждой словарной основы в состав документа, после чего соотнесенные с тональностями числа тем или иным образом усредняются.Однако в данном случае чрезвычайно важно уравнять масштаб между наблюдениями «компания - год» с разным числом новостей, разрыв в котором в некоторых случаях может достигать двух порядков. Поэтому после получения вектора основ к нему был применен алгоритмtermfrequency-inversedocumentfrequency (TF-IDF), сгладивший различия как в информационном покрытии, так и в распространенности (а следовательно - значимости) отдельных слов.
После получения матрицы весов в координатах «документ - слово» результирующие факторы тональностей были получены путем перемножения этой матрицы с матрицами самих словарей в координатах «слово - тональность».
Вся работа с текстом была осуществлена с помощью библиотекиNaturalLanguageToolkit 3.4.1 (Bird, Klein, & Loper, 2009).
4.2. Моделирование
Основное предположение данной работы состоит в качественно эквивалентном потенциале стандартных инструментов бинарной классификации и наиболее продвинутых современных методов прогнозирования банкротства, таких как гибридные классификаторы, к извлечению информации из переменных тональности. Поэтому задача моделирования банкротства сводится к выбору ряда простых и эффективных, зарекомендовавших себя в вышеупомянутой литературе, уже существующих методов:
1. Логистическая регрессия - в качестве бенчмарк-модели, позволяющей быстро сравнивать различные спецификации и проверять знаки коэффициентов при переменных;
2. Многослойный персептрон - благодаря универсально высокой результативности и нечувствительности к характеру данных;
3. Метод опорных векторов - благодаря малому числу гиперпараметров, производительности и способности отыскивать глобальный оптимум;
4. Случайный лес - как, пожалуй, простейший в использовании ансамбль классификаторов, один из немногих легко интерпретируемых и визуализируемых методов машинного обучения.
При выборе спецификации моделей использовались стандартные методы, такие как корреляционный анализ, F-тест и метод последовательного исключения переменных.
Случайный лес подразумевал обучение модели стандартным образом, однако вместо моды ответов решающих деревьев было использовано среднее их оценок вероятности принадлежности к классу, благодаря чему такие модели можно анализировать с помощью PR- и ROC-кривых.В остальных случаях обучение происходило с помощью алгоритмаLBFGS и включало L2-регуляризацию, предпочтенную L1-регуляризации несмотря на большую размерность пространства регрессоров благодаря заранее осуществленному отбору факторов.
Также все модели были обучены посредством исчерпывающего поиска по сетке гиперпараметров с применением кросс-валидации по методу k-fold (k = 5), причем доля отложенных наблюдений составила 25%. Сетка для каждой модели задавалась путем подбора таким образом, чтобы на всех выборках оптимальные гиперпараметры попадали ближе к середине диапазона. Среди гиперпараметров разных моделей интерес представляет разве что конфигурация многослойного персептрона. Известно, что двухслойный персептрон способен решать задачи любого порядка нелинейности, а количество нейронов на каждом скрытом слое следует выбирать в диапазоне от 1/3 до 1/2 от суммы их количества на входном и выходном слое (Heaton, 2008). В данном случае этот диапазон примерно равен 16-4 на каждом из двух слоев с учетом разницы в спецификациях.
Так как прогнозирование финансовой нестабильности - это, в первую очередь, задача риск-менеджмента, основным требованием к прогнозной модели является минимизация ошибки второго рода (если обозначить банкротство как класс «1», а его отсутствие - как класс «0»).Недопустимость недооценки рискаделает естественным выбор чувствительности модели (recall), то есть доли верно предсказанных банкротств,в качестве основной метрики качества. Она, однако, должна быть уравновешена точностью (precision), то есть долей верных предсказаний банкротства. Поэтому при валидации моделей в качестве целевого показателя была выбрана площадь под кривой Precision-Recall. Кроме того, такие метрики, как достоверность (accuracy) и специфичность (specifity), то есть доля верных предсказаний и доля верных предсказаний отсутствия банкротства, были вычислены для справки.
Обучение моделей и нахождение метрик было осуществлено с помощью библиотекиscikit-learn 0.20.3 (Pedregosa et al., 2011)на языке Python 3.7.1 (Rossum, 1995). Существенные части исходного кода (см. прил. Д), а также параметризация моделей (см. прил. Г., табл. 36) предоставляются.
5. Описание данных
Основа исследования -база данных банкротств публичных крупных американских компаний Калифорнийского университета в Лос-Анджелесе. Из общего списка, содержащего около 1150 случаев банкротства, была составлена выборка размером в 173 наблюдения, которые отвечают следующим критериям:
1. Компания допустила один и только один дефолт в соответствии с главой 7 или главой 11 Кодекса США о банкротстве на протяжении 2011 - 2018 годов включительно;
2. Дефолт не был допущен по обязательствам, возникшим по решению суда вследствие признания за компанией правонарушения (tort);
3. Стоимость всех активов компании на момент банкротства находилась в диапазоне 107 - 1010;
4. Местом регистрации компании (incorporationstate) являлся один из штатов США. Фирмы и нетекстовые факторы
После первичной обработки данных и удаления наблюдений с большим количеством пропущенных значений, в конечную выборку вошло 137 компаний-банкротов (см. прил. Е, табл. 37).Данные по наблюдениям с несущественным количеством пропущенных значений были линейно интерполированы, экстраполированы или же дополнены на основе базовых правил составления финансовой отчетности.
Рисунок 2. Число банкротств в год за период наблюдения
Большую часть выборки составили компании из отраслейдобывающей промышленности и услуг. Несмотря на общепринятую практику отдельного рассмотрения финансовых компаний, было решено включить их в общую выборку из-за слишком большой цены удаления наблюдений.
Рисунок 3. Деление выборки банкротов по размеру активов и отраслям
Далее к каждой компании-банкроту были подобраны аналоги, принадлежащие тому же сектору экономики и имеющие тот же порядок размера активов, но при этом остававшиеся финансово стабильными на протяжении всего периода наблюдения.Аналоги случайно выбирались из листинга NYSEи NASDAQ при условии непрерывного нахождения в нем на протяжении всего периода наблюдения - всего 526 компаний (см. прил. Е, табл. 38-40).
Таблица 6. Номинальное и реальное количество наблюдений в выборках
|
(1) 20 |
(1) 25 |
(1) 33 |
(1) 50 |
(2) 20 |
(2) 25 |
(2) 33 |
(2) 50 |
(3) 20 |
(3) 25 |
(3) 33 |
(3) 50 |
||
|
Доля ном. |
0.200 |
0.250 |
0.330 |
0.500 |
0.200 |
0.250 |
0.330 |
0.500 |
0.200 |
0.250 |
0.330 |
0.500 |
|
|
Доля реал. |
0.207 |
0.251 |
0.335 |
0.502 |
0.206 |
0.252 |
0.336 |
0.503 |
0.208 |
0.255 |
0.339 |
0.507 |
|
|
Банкротов |
137 |
137 |
137 |
137 |
267 |
267 |
267 |
267 |
382 |
382 |
382 |
382 |
|
|
Аналогов |
526 |
408 |
272 |
136 |
1028 |
792 |
528 |
264 |
1454 |
1116 |
744 |
372 |
|
|
Всего |
663 |
545 |
409 |
273 |
1295 |
1059 |
795 |
531 |
1836 |
1498 |
1126 |
754 |
Всего было сформировано 12 выборок; если к той или иной компании-банкроту не находилось аналога, разница между номинальной и реальной долей банкротов компенсировалась за счет дублирования наблюдений. Сначала была случайно сформирована самая большая (20) выборка, затем из нее детерминировано удалялась часть наблюдений для формирования меньших выборок. Тестовая выборка всегда составляла одну четверть от полной и выбиралась из нее также случайно.
Изначальный набор подлежащих исследованию нетекстовых факторов (см. прил. А, табл. 16) включал в себя 42 количественные переменные (35 финансовых, 5 рыночных и 3 макроэкономических), а также категориальную переменную отрасли (всего 6 фиктивных переменных). Между некоторыми факторами обнаружилась существенная корреляция, а корреляция между факторами и объясняемой переменной в большинстве случаев соответствовала экономическому смыслу (см. прил. А, табл. 18-20).
Вид распределений основных финансовых коэффициентов позволил уже на данном этапе сделать некоторые выводы о взаимозависимости между ними и вероятностью банкротства компании. Так, компании-банкроты естественным образом имеют более высокий финансовый рычаг в среднем, однако выше и разброс этого показателя. Отрицательный финансовый рычаг - одна из характерных черт финансово нестабильных компаний с очень низкой отрицательной нераспределенной прибылью, сумма обязательств которых превышает сумму активов.
Рисунок 4. Распределение отношения заемного капитала к собственному на (1) 20
Платежеспособность компаний-банкротов, как и следовало ожидать, по всем показателям ниже, чем у аналогов. Операционная прибыль половины из них недостаточна для обслуживания долга общей стоимостью более 14%, а у 75% из них ее хватает на выплату процентов не более чем на 1.3 года.
Рисунок 5. Распределение коэфф. покрытия долга и процентных расходовна (1) 20
То же верно и в отношении ликвидности, хотя разрыв в коэффициенте быстрой ликвидности не столь велик: его медианное значение у нестабильных компаний находится чуть выше уровня 25%-й персентили такового у аналогов. Более того, значительно более весомую часть их обязательств составляют краткосрочные, и, значит, более дорогие обязательства.
Рисунок 6. Распределение коэфф. быстрой ликвидности и доли кратк. обяз. на (1) 20
Около половины компаний-банкротов имеют не только отрицательную чистую прибыль, но и отрицательную прибыль до налогообложения и уплаты процентов. Их операционная рентабельность и отдача от капитала, однако, сильно варьирует; у 25% дефолтеров эти показатели превышают 13% и 9%, соответственно.