Дипломная работа: Текстовый анализ новостей в применении к прогнозированию банкротства компаний

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Хотя взаимная информация переменных активности с объясняемой переменной невелика, все выбранные переменные, кроме одной - CFFO/D-оказались значимыми по результатам F-теста. По совокупности показателей наиболее важными факторами можно считать чистую рентабельность, операционную отдачу от активов, отношение краткосрочных обязательств к активам и отношение чистого денежного потока к долгу.

Таблица 11. Значимость отраслевых фиктивных переменных

Отрасль

Корреляция

Взаим. инф.

F-стат.

p-value

Добыча

-

-

-

-

Потреб. товары

-0.005

0.000

0.140

0.708

Финансы

-0.004

0.000

0.000

0.996

Здравоохранение

-0.003

0.007

2.317

0.128

Пром. товары

-0.006

0.000

0.044

0.834

Услуги

-0.013

0.000

0.788

0.375

Технологии

-0.003

0.000

0.000

0.991

Инфраструктура

0.012

0.003

1.976

0.160

Того же нельзя сказать о фиктивных отраслевых переменных.Все они оказались совершенно незначимыми, не несли почти никакой информации о зависимой переменной и имели очень низкую корреляцию с ней. Это позволяет отвергнуть гипотезу H5 о значимости отрасли. С другой стороны, это обстоятельство отчасти снимает вопрос о неблагоприятных следствиях отраслевой несбалансированности выборки и включения в нее финансовых компаний наряду с остальными.

Выбор словаря был также основан на логит-модели, не содержащей никаких иных регрессоров, кроме переменных тональности.Сами по себе они оказались неспособны произвести сколь-нибудь качественную оценку вероятности банкротства (см. прил. В, табл. 26), достигая в лучших случаях 56-58% достоверности и будучи чрезвычайно смещенными в сторону класса стабильных компаний: чувствительность модели не превысила 25%. Все три словаря показали схожие результаты; на разных выборках разные словари оказывались результативнее, однако никакой закономерности выявлено не было: скорее всего, эти относительные различия в метриках качества проистекают из неоднородности самих выборок безотносительно пропорции и горизонта предсказания.Было замечено, однако, что увеличение горизонта предсказания приводит к абсолютному росту PR-AUC-неожиданное обстоятельство ввиду того, что эмоциональное содержание информационного фона представляется более краткосрочным сигналом.

Рисунок 10. PR-AUCлогит-модели, построенной только на переменных тональности из разных словарей

Поэтому выбор словаря был связан с интерпретируемостью коэффициентов при переменных тональности в логит-модели, их значимостью и корреляцией с зависимой переменной. Так как тональности словаря NRCоказались малозначимыми и не имели осмысленной корреляции с зависимой переменной (см. прил. Б, табл. 24-26), а словаря GI- также не имели корреляции, был выбран словарь L&M, также демонстрирующий более усточивые на разных выборках метрики качества и большие по модулю коэффициенты.

Таблица 12. Коэффициенты при переменных тональности в логит-модели и соответствие их знаков предполагаемому экономическому смыслу

Тональность, L&M

Коэфф

Тональность, NRC

Коэфф

Тональность, GI

Коэфф

ь Отрицательная

0.223

ь Злость

0.088

ь Положительная

-0.086

ь Положительная

-0.014

? Симпатия

0.046

ь Отрицательная

0.138

ь Неопределенная

0.141

ь Отвращение

0.015

ь Сильная

-0.050

? Спорная

-0.141

ь Страх

0.030

ь Слабая

0.177

? Ограничивающая

-0.021

? Радость

0.028

ь Активная

-0.011

ь Избыточная

-0.099

ь Пессимизм

0.073

ь Пассивная

0.025

ь Оптимизм

-0.070

ь Грусть

0.045

? Неожиданность

-0.012

ь Доверие

-0.031

Отрицательная и неопределенная тональности естественным образом намекают на неустойчивое финансовое положениие компании. Странной предстает незначимость спорной тональности.

Таблица 13. Значимость переменных тональности, L&M

Тональность

Взаим. инф.

F-стат.

p-value

Отрицательная

0.009

32.634

0.000

Положительная

0.000

0.007

0.933

Неопределенная

0.022

23.635

0.000

Спорная

0.017

0.019

0.889

Ограничивающая

0.003

0.695

0.405

Избыточная

0.000

2.959

0.086

Таким образом, гипотеза H3 о превосходстве словаря L&M не может быть ни подтверждена, ни отвергнута. Подобные результаты уже были получены в литературе (L. Chen et al., 2014), однако в данном случаеза ними, скорее всего, стоит бедность лексикона новостных заголовков и распространенная невозможность понимания тональности новости по отношению к компании только по ее заголовку.

6.2. Обучение и тестирование моделей

Достигнутая точность предсказания оказалась весьма велика. В среднем по двум классам логит-модель дала 80-85% точности, метод опорных векторов - 85-90%, случайный лес и многослойный персептрон - до 95% (см. прил. Г, табл. 33-35). Это не является чем-то удивительным: для первых двух моделей подобная точность является вообще среднестатистической(Adnan Aziz & Dar, 2006), а превосходство глубоких нейросетей и ансамблей классификаторов подтверждалось во многих ранее упомянутых исследованиях. Персептрон и случайный лес показали также очень хорошую способность настраиваться на данные, в некоторых случаях достигая 100% точности на обучающей выборке, не опускаясь ниже 90% на тестовой (см. прил. Г. табл. 32); тем не менее, способность подгоняться под данные демонстрировали еще ранние МДА-модели (Scott, 1981).

Таблица 14. Метрики качества моделей на (1) 20

Логит

Персептрон

Опорные вектора

Случайный лес

Длинная

Короткая

Длинная

Короткая

Длинная

Короткая

Длинная

Короткая

Accuracy

0.856

0.875

0.962

0.943

0.894

0.913

0.935

0.939

Recall

0.855

0.893

0.977

0.954

0.947

0.977

0.939

0.954

Specifity

0.856

0.856

0.947

0.932

0.841

0.848

0.932

0.924

Precision

0.855

0.860

0.948

0.933

0.855

0.865

0.932

0.926

PR-AUC

0.924

0.909

0.957

0.952

0.936

0.934

0.972

0.979

С другой стороны, только многослойный персептрон позволил достичь стабильного роста всех метрик качества за счет включения переменных тональности, причем он не превышал 2-3%. На некоторых выборках прирост возникал и при обучении с помощью случайного леса, однако был еще меньше. Метод опорных векторов дал неопределенные результаты, а логистическая регрессия оказалась совершенно не способна извлекать информацию из сентиментов. В целом, нет оснований полностью принимать или отвергать гипотезу H1 о применимости переменных тональности: столь небольшой прирост точности, возникший только в одной модели, можно объяснить фактором случайности, неустранимым в машинном обучении.

Далее анализировались только длинные модели.

В первую очередь было обнаружено, что PR-AUC моделей не демонстрирует общей осмысленной закономерности в своей вариации по выборкам с разными пропорциями банкротов и горизонтами предсказания. Лишь логит-модель оказывается несколько хуже на более длинных горизонтах и более диспропорциональных выборках; отношения прогнозной силы разных моделей друг к другу, однако, почти не меняется.

Рисунок11. Precision-RecallAUCдлинныхмоделей в разрезе по пропорциям

Минимальное качество было достигнуто на 33% пропорции, что подтверждает отсутствие закономерности и подталкивает к выводу о том, что наблюдаемые различия обусловлены разницей в объяснимости конкретных случаев банкротства из разных выборок - так же, как и в случае со словарями.

Рисунок12. Precision-RecallAUCдлинныхмоделей в разрезе по горизонтам

Таким образом, гипотеза H4 о снижении предсказательной силы с ростом горизонта отвергается.

Таблица15. RecallиSpecifityразличных моделей в разрезе по пропорциям

Логит

Персептрон

Опорные вектора

Случайный лес

Длинная

Короткая

Длинная

Короткая

Длинная

Короткая

Длинная

Короткая

Recall

(1) 20

0.855

0.893

0.977

0.954

0.947

0.977

0.939

0.954

(1) 50

0.824

0.794

0.794

0.853

0.794

0.794

0.912

0.941

Specifity

(1) 20

0.856

0.856

0.902

0.932

0.841

0.848

0.932

0.924

(1) 50

0.829

0.829

0.886

0.886

0.743

0.829

0.857

0.829