Дипломная работа: Текстовый анализ новостей в применении к прогнозированию банкротства компаний

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Среди всех существующих словарей тональности были избраны три. Во-первых, словарьLoughran-McDonaldSentimentWordList(L&M)сталочевидным выбором благодаря вышеупомянутой практике успешного применения в финансах, своей специализированности на экономическом лексиконе и релевантности набора сентиментов для анализа риска и процедуры банкротства (наличие «неопределенной» и «юридически спорной» тональностей). Во-вторых, словарьNRCWord-EmotionAssociationLexicon(NRC)былвыбранкак наиболее крупный словарь как по количеству слов, так и по полноте пространства сентиментов, а также благодаря его универсальности - в предположении того, что лексикон новостных заголовков может отличаться от профессионального финансового дискурса. В-третьих, словарьHarvardGeneralInquirer (GI)в форме трех семантических измерений Осгода из категорий IV-4 был взят как наиболее популярный словарь в практике анализа тональности (Loughran&McDonald, 2011). Все словари также были подвержены стеммингу.

Таблица 5. Словари, сентименты и количество слов после стемминга

L&M

NRC

GI

Всего основ

3917

Всего основ

6468

Всего основ

5136

Отрицательная

2355

Злость

1247

Положительная

1596

Положительная

354

Симпатия

839

Отрицательная

1938

Неопределенная

297

Отвращение

1058

Сильная

1405

Спорная

904

Страх

1476

Слабая

603

Ограничивающая

184

Радость

689

Активная

1447

Избыточная

56

Пессимизм

3324

Пассивная

631

Оптимизм

2312

Грусть

1191

Неожиданность

534

Доверие

1231

Словари DICTION, успешно применявшиеся для прогнозирования банкротства(Demers & Vega, 2010),не были использованы из-за отсутствия единого общедоступного списка слов и трудоемкости вычисления сентиментов.

В своей оригинальной трактовке метод мешка слов подразумевает подсчет числа включений каждой словарной основы в состав документа, после чего соотнесенные с тональностями числа тем или иным образом усредняются.Однако в данном случае чрезвычайно важно уравнять масштаб между наблюдениями «компания - год» с разным числом новостей, разрыв в котором в некоторых случаях может достигать двух порядков. Поэтому после получения вектора основ к нему был применен алгоритмtermfrequency-inversedocumentfrequency (TF-IDF), сгладивший различия как в информационном покрытии, так и в распространенности (а следовательно - значимости) отдельных слов.

После получения матрицы весов в координатах «документ - слово» результирующие факторы тональностей были получены путем перемножения этой матрицы с матрицами самих словарей в координатах «слово - тональность».

Вся работа с текстом была осуществлена с помощью библиотекиNaturalLanguageToolkit 3.4.1 (Bird, Klein, & Loper, 2009).

4.2. Моделирование

Основное предположение данной работы состоит в качественно эквивалентном потенциале стандартных инструментов бинарной классификации и наиболее продвинутых современных методов прогнозирования банкротства, таких как гибридные классификаторы, к извлечению информации из переменных тональности. Поэтому задача моделирования банкротства сводится к выбору ряда простых и эффективных, зарекомендовавших себя в вышеупомянутой литературе, уже существующих методов:

1. Логистическая регрессия - в качестве бенчмарк-модели, позволяющей быстро сравнивать различные спецификации и проверять знаки коэффициентов при переменных;

2. Многослойный персептрон - благодаря универсально высокой результативности и нечувствительности к характеру данных;

3. Метод опорных векторов - благодаря малому числу гиперпараметров, производительности и способности отыскивать глобальный оптимум;

4. Случайный лес - как, пожалуй, простейший в использовании ансамбль классификаторов, один из немногих легко интерпретируемых и визуализируемых методов машинного обучения.

При выборе спецификации моделей использовались стандартные методы, такие как корреляционный анализ, F-тест и метод последовательного исключения переменных.

Случайный лес подразумевал обучение модели стандартным образом, однако вместо моды ответов решающих деревьев было использовано среднее их оценок вероятности принадлежности к классу, благодаря чему такие модели можно анализировать с помощью PR- и ROC-кривых.В остальных случаях обучение происходило с помощью алгоритмаLBFGS и включало L2-регуляризацию, предпочтенную L1-регуляризации несмотря на большую размерность пространства регрессоров благодаря заранее осуществленному отбору факторов.

Также все модели были обучены посредством исчерпывающего поиска по сетке гиперпараметров с применением кросс-валидации по методу k-fold (k = 5), причем доля отложенных наблюдений составила 25%. Сетка для каждой модели задавалась путем подбора таким образом, чтобы на всех выборках оптимальные гиперпараметры попадали ближе к середине диапазона. Среди гиперпараметров разных моделей интерес представляет разве что конфигурация многослойного персептрона. Известно, что двухслойный персептрон способен решать задачи любого порядка нелинейности, а количество нейронов на каждом скрытом слое следует выбирать в диапазоне от 1/3 до 1/2 от суммы их количества на входном и выходном слое (Heaton, 2008). В данном случае этот диапазон примерно равен 16-4 на каждом из двух слоев с учетом разницы в спецификациях.

Так как прогнозирование финансовой нестабильности - это, в первую очередь, задача риск-менеджмента, основным требованием к прогнозной модели является минимизация ошибки второго рода (если обозначить банкротство как класс «1», а его отсутствие - как класс «0»).Недопустимость недооценки рискаделает естественным выбор чувствительности модели (recall), то есть доли верно предсказанных банкротств,в качестве основной метрики качества. Она, однако, должна быть уравновешена точностью (precision), то есть долей верных предсказаний банкротства. Поэтому при валидации моделей в качестве целевого показателя была выбрана площадь под кривой Precision-Recall. Кроме того, такие метрики, как достоверность (accuracy) и специфичность (specifity), то есть доля верных предсказаний и доля верных предсказаний отсутствия банкротства, были вычислены для справки.

Обучение моделей и нахождение метрик было осуществлено с помощью библиотекиscikit-learn 0.20.3 (Pedregosa et al., 2011)на языке Python 3.7.1 (Rossum, 1995). Существенные части исходного кода (см. прил. Д), а также параметризация моделей (см. прил. Г., табл. 36) предоставляются.

5. Описание данных

Основа исследования -база данных банкротств публичных крупных американских компаний Калифорнийского университета в Лос-Анджелесе. Из общего списка, содержащего около 1150 случаев банкротства, была составлена выборка размером в 173 наблюдения, которые отвечают следующим критериям:

1. Компания допустила один и только один дефолт в соответствии с главой 7 или главой 11 Кодекса США о банкротстве на протяжении 2011 - 2018 годов включительно;

2. Дефолт не был допущен по обязательствам, возникшим по решению суда вследствие признания за компанией правонарушения (tort);

3. Стоимость всех активов компании на момент банкротства находилась в диапазоне 107 - 1010;

4. Местом регистрации компании (incorporationstate) являлся один из штатов США. Фирмы и нетекстовые факторы

После первичной обработки данных и удаления наблюдений с большим количеством пропущенных значений, в конечную выборку вошло 137 компаний-банкротов (см. прил. Е, табл. 37).Данные по наблюдениям с несущественным количеством пропущенных значений были линейно интерполированы, экстраполированы или же дополнены на основе базовых правил составления финансовой отчетности.

Рисунок 2. Число банкротств в год за период наблюдения

Большую часть выборки составили компании из отраслейдобывающей промышленности и услуг. Несмотря на общепринятую практику отдельного рассмотрения финансовых компаний, было решено включить их в общую выборку из-за слишком большой цены удаления наблюдений.

Рисунок 3. Деление выборки банкротов по размеру активов и отраслям

Далее к каждой компании-банкроту были подобраны аналоги, принадлежащие тому же сектору экономики и имеющие тот же порядок размера активов, но при этом остававшиеся финансово стабильными на протяжении всего периода наблюдения.Аналоги случайно выбирались из листинга NYSEи NASDAQ при условии непрерывного нахождения в нем на протяжении всего периода наблюдения - всего 526 компаний (см. прил. Е, табл. 38-40).

Таблица 6. Номинальное и реальное количество наблюдений в выборках

(1) 20

(1) 25

(1) 33

(1) 50

(2) 20

(2) 25

(2) 33

(2) 50

(3) 20

(3) 25

(3) 33

(3) 50

Доля ном.

0.200

0.250

0.330

0.500

0.200

0.250

0.330

0.500

0.200

0.250

0.330

0.500

Доля реал.

0.207

0.251

0.335

0.502

0.206

0.252

0.336

0.503

0.208

0.255

0.339

0.507

Банкротов

137

137

137

137

267

267

267

267

382

382

382

382

Аналогов

526

408

272

136

1028

792

528

264

1454

1116

744

372

Всего

663

545

409

273

1295

1059

795

531

1836

1498

1126

754

Всего было сформировано 12 выборок; если к той или иной компании-банкроту не находилось аналога, разница между номинальной и реальной долей банкротов компенсировалась за счет дублирования наблюдений. Сначала была случайно сформирована самая большая (20) выборка, затем из нее детерминировано удалялась часть наблюдений для формирования меньших выборок. Тестовая выборка всегда составляла одну четверть от полной и выбиралась из нее также случайно.

Изначальный набор подлежащих исследованию нетекстовых факторов (см. прил. А, табл. 16) включал в себя 42 количественные переменные (35 финансовых, 5 рыночных и 3 макроэкономических), а также категориальную переменную отрасли (всего 6 фиктивных переменных). Между некоторыми факторами обнаружилась существенная корреляция, а корреляция между факторами и объясняемой переменной в большинстве случаев соответствовала экономическому смыслу (см. прил. А, табл. 18-20).

Вид распределений основных финансовых коэффициентов позволил уже на данном этапе сделать некоторые выводы о взаимозависимости между ними и вероятностью банкротства компании. Так, компании-банкроты естественным образом имеют более высокий финансовый рычаг в среднем, однако выше и разброс этого показателя. Отрицательный финансовый рычаг - одна из характерных черт финансово нестабильных компаний с очень низкой отрицательной нераспределенной прибылью, сумма обязательств которых превышает сумму активов.

Рисунок 4. Распределение отношения заемного капитала к собственному на (1) 20

Платежеспособность компаний-банкротов, как и следовало ожидать, по всем показателям ниже, чем у аналогов. Операционная прибыль половины из них недостаточна для обслуживания долга общей стоимостью более 14%, а у 75% из них ее хватает на выплату процентов не более чем на 1.3 года.

Рисунок 5. Распределение коэфф. покрытия долга и процентных расходовна (1) 20

То же верно и в отношении ликвидности, хотя разрыв в коэффициенте быстрой ликвидности не столь велик: его медианное значение у нестабильных компаний находится чуть выше уровня 25%-й персентили такового у аналогов. Более того, значительно более весомую часть их обязательств составляют краткосрочные, и, значит, более дорогие обязательства.

Рисунок 6. Распределение коэфф. быстрой ликвидности и доли кратк. обяз. на (1) 20

Около половины компаний-банкротов имеют не только отрицательную чистую прибыль, но и отрицательную прибыль до налогообложения и уплаты процентов. Их операционная рентабельность и отдача от капитала, однако, сильно варьирует; у 25% дефолтеров эти показатели превышают 13% и 9%, соответственно.