Дипломная работа: Текстовый анализ новостей в применении к прогнозированию банкротства компаний

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Среди всех существующих словарей тональности были избраны три. Во-первых, словарьLoughran-McDonaldSentimentWordList(L&M)сталочевидным выбором благодаря вышеупомянутой практике успешного применения в финансах, своей специализированности на экономическом лексиконе и релевантности набора сентиментов для анализа риска и процедуры банкротства (наличие «неопределенной» и «юридически спорной» тональностей). Во-вторых, словарьNRCWord-EmotionAssociationLexicon(NRC)былвыбранкак наиболее крупный словарь как по количеству слов, так и по полноте пространства сентиментов, а также благодаря его универсальности - в предположении того, что лексикон новостных заголовков может отличаться от профессионального финансового дискурса. В-третьих, словарьHarvardGeneralInquirer (GI)в форме трех семантических измерений Осгода из категорий IV-4 был взят как наиболее популярный словарь в практике анализа тональности (Loughran&McDonald, 2011). Все словари также были подвержены стеммингу.

Таблица 5. Словари, сентименты и количество слов после стемминга

L&M	NRC	GI
Всего основ	3917	Всего основ	6468	Всего основ	5136
Отрицательная	2355	Злость	1247	Положительная	1596
Положительная	354	Симпатия	839	Отрицательная	1938
Неопределенная	297	Отвращение	1058	Сильная	1405
Спорная	904	Страх	1476	Слабая	603
Ограничивающая	184	Радость	689	Активная	1447
Избыточная	56	Пессимизм	3324	Пассивная	631
		Оптимизм	2312
		Грусть	1191
		Неожиданность	534
		Доверие	1231

Словари DICTION, успешно применявшиеся для прогнозирования банкротства(Demers & Vega, 2010),не были использованы из-за отсутствия единого общедоступного списка слов и трудоемкости вычисления сентиментов.

В своей оригинальной трактовке метод мешка слов подразумевает подсчет числа включений каждой словарной основы в состав документа, после чего соотнесенные с тональностями числа тем или иным образом усредняются.Однако в данном случае чрезвычайно важно уравнять масштаб между наблюдениями «компания - год» с разным числом новостей, разрыв в котором в некоторых случаях может достигать двух порядков. Поэтому после получения вектора основ к нему был применен алгоритмtermfrequency-inversedocumentfrequency (TF-IDF), сгладивший различия как в информационном покрытии, так и в распространенности (а следовательно - значимости) отдельных слов.

После получения матрицы весов в координатах «документ - слово» результирующие факторы тональностей были получены путем перемножения этой матрицы с матрицами самих словарей в координатах «слово - тональность».

Вся работа с текстом была осуществлена с помощью библиотекиNaturalLanguageToolkit 3.4.1 (Bird, Klein, & Loper, 2009).

4.2. Моделирование

Основное предположение данной работы состоит в качественно эквивалентном потенциале стандартных инструментов бинарной классификации и наиболее продвинутых современных методов прогнозирования банкротства, таких как гибридные классификаторы, к извлечению информации из переменных тональности. Поэтому задача моделирования банкротства сводится к выбору ряда простых и эффективных, зарекомендовавших себя в вышеупомянутой литературе, уже существующих методов:

1. Логистическая регрессия - в качестве бенчмарк-модели, позволяющей быстро сравнивать различные спецификации и проверять знаки коэффициентов при переменных;

2. Многослойный персептрон - благодаря универсально высокой результативности и нечувствительности к характеру данных;

3. Метод опорных векторов - благодаря малому числу гиперпараметров, производительности и способности отыскивать глобальный оптимум;

4. Случайный лес - как, пожалуй, простейший в использовании ансамбль классификаторов, один из немногих легко интерпретируемых и визуализируемых методов машинного обучения.

При выборе спецификации моделей использовались стандартные методы, такие как корреляционный анализ, F-тест и метод последовательного исключения переменных.

Случайный лес подразумевал обучение модели стандартным образом, однако вместо моды ответов решающих деревьев было использовано среднее их оценок вероятности принадлежности к классу, благодаря чему такие модели можно анализировать с помощью PR- и ROC-кривых.В остальных случаях обучение происходило с помощью алгоритмаLBFGS и включало L2-регуляризацию, предпочтенную L1-регуляризации несмотря на большую размерность пространства регрессоров благодаря заранее осуществленному отбору факторов.

Также все модели были обучены посредством исчерпывающего поиска по сетке гиперпараметров с применением кросс-валидации по методу k-fold (k = 5), причем доля отложенных наблюдений составила 25%. Сетка для каждой модели задавалась путем подбора таким образом, чтобы на всех выборках оптимальные гиперпараметры попадали ближе к середине диапазона. Среди гиперпараметров разных моделей интерес представляет разве что конфигурация многослойного персептрона. Известно, что двухслойный персептрон способен решать задачи любого порядка нелинейности, а количество нейронов на каждом скрытом слое следует выбирать в диапазоне от 1/3 до 1/2 от суммы их количества на входном и выходном слое (Heaton, 2008). В данном случае этот диапазон примерно равен 16-4 на каждом из двух слоев с учетом разницы в спецификациях.

Так как прогнозирование финансовой нестабильности - это, в первую очередь, задача риск-менеджмента, основным требованием к прогнозной модели является минимизация ошибки второго рода (если обозначить банкротство как класс «1», а его отсутствие - как класс «0»).Недопустимость недооценки рискаделает естественным выбор чувствительности модели (recall), то есть доли верно предсказанных банкротств,в качестве основной метрики качества. Она, однако, должна быть уравновешена точностью (precision), то есть долей верных предсказаний банкротства. Поэтому при валидации моделей в качестве целевого показателя была выбрана площадь под кривой Precision-Recall. Кроме того, такие метрики, как достоверность (accuracy) и специфичность (specifity), то есть доля верных предсказаний и доля верных предсказаний отсутствия банкротства, были вычислены для справки.

Обучение моделей и нахождение метрик было осуществлено с помощью библиотекиscikit-learn 0.20.3 (Pedregosa et al., 2011)на языке Python 3.7.1 (Rossum, 1995). Существенные части исходного кода (см. прил. Д), а также параметризация моделей (см. прил. Г., табл. 36) предоставляются.

5. Описание данных

Основа исследования -база данных банкротств публичных крупных американских компаний Калифорнийского университета в Лос-Анджелесе. Из общего списка, содержащего около 1150 случаев банкротства, была составлена выборка размером в 173 наблюдения, которые отвечают следующим критериям:

1. Компания допустила один и только один дефолт в соответствии с главой 7 или главой 11 Кодекса США о банкротстве на протяжении 2011 - 2018 годов включительно;

2. Дефолт не был допущен по обязательствам, возникшим по решению суда вследствие признания за компанией правонарушения (tort);

3. Стоимость всех активов компании на момент банкротства находилась в диапазоне 10⁷ - 10¹⁰;

4. Местом регистрации компании (incorporationstate) являлся один из штатов США. Фирмы и нетекстовые факторы

После первичной обработки данных и удаления наблюдений с большим количеством пропущенных значений, в конечную выборку вошло 137 компаний-банкротов (см. прил. Е, табл. 37).Данные по наблюдениям с несущественным количеством пропущенных значений были линейно интерполированы, экстраполированы или же дополнены на основе базовых правил составления финансовой отчетности.

Рисунок 2. Число банкротств в год за период наблюдения

Большую часть выборки составили компании из отраслейдобывающей промышленности и услуг. Несмотря на общепринятую практику отдельного рассмотрения финансовых компаний, было решено включить их в общую выборку из-за слишком большой цены удаления наблюдений.

Рисунок 3. Деление выборки банкротов по размеру активов и отраслям

Далее к каждой компании-банкроту были подобраны аналоги, принадлежащие тому же сектору экономики и имеющие тот же порядок размера активов, но при этом остававшиеся финансово стабильными на протяжении всего периода наблюдения.Аналоги случайно выбирались из листинга NYSEи NASDAQ при условии непрерывного нахождения в нем на протяжении всего периода наблюдения - всего 526 компаний (см. прил. Е, табл. 38-40).

Таблица 6. Номинальное и реальное количество наблюдений в выборках

	(1) 20	(1) 25	(1) 33	(1) 50	(2) 20	(2) 25	(2) 33	(2) 50	(3) 20	(3) 25	(3) 33	(3) 50
Доля ном.	0.200	0.250	0.330	0.500	0.200	0.250	0.330	0.500	0.200	0.250	0.330	0.500
Доля реал.	0.207	0.251	0.335	0.502	0.206	0.252	0.336	0.503	0.208	0.255	0.339	0.507
Банкротов	137	137	137	137	267	267	267	267	382	382	382	382
Аналогов	526	408	272	136	1028	792	528	264	1454	1116	744	372
Всего	663	545	409	273	1295	1059	795	531	1836	1498	1126	754

Всего было сформировано 12 выборок; если к той или иной компании-банкроту не находилось аналога, разница между номинальной и реальной долей банкротов компенсировалась за счет дублирования наблюдений. Сначала была случайно сформирована самая большая (20) выборка, затем из нее детерминировано удалялась часть наблюдений для формирования меньших выборок. Тестовая выборка всегда составляла одну четверть от полной и выбиралась из нее также случайно.

Изначальный набор подлежащих исследованию нетекстовых факторов (см. прил. А, табл. 16) включал в себя 42 количественные переменные (35 финансовых, 5 рыночных и 3 макроэкономических), а также категориальную переменную отрасли (всего 6 фиктивных переменных). Между некоторыми факторами обнаружилась существенная корреляция, а корреляция между факторами и объясняемой переменной в большинстве случаев соответствовала экономическому смыслу (см. прил. А, табл. 18-20).

Вид распределений основных финансовых коэффициентов позволил уже на данном этапе сделать некоторые выводы о взаимозависимости между ними и вероятностью банкротства компании. Так, компании-банкроты естественным образом имеют более высокий финансовый рычаг в среднем, однако выше и разброс этого показателя. Отрицательный финансовый рычаг - одна из характерных черт финансово нестабильных компаний с очень низкой отрицательной нераспределенной прибылью, сумма обязательств которых превышает сумму активов.

Рисунок 4. Распределение отношения заемного капитала к собственному на (1) 20

Платежеспособность компаний-банкротов, как и следовало ожидать, по всем показателям ниже, чем у аналогов. Операционная прибыль половины из них недостаточна для обслуживания долга общей стоимостью более 14%, а у 75% из них ее хватает на выплату процентов не более чем на 1.3 года.

Рисунок 5. Распределение коэфф. покрытия долга и процентных расходовна (1) 20

То же верно и в отношении ликвидности, хотя разрыв в коэффициенте быстрой ликвидности не столь велик: его медианное значение у нестабильных компаний находится чуть выше уровня 25%-й персентили такового у аналогов. Более того, значительно более весомую часть их обязательств составляют краткосрочные, и, значит, более дорогие обязательства.

Рисунок 6. Распределение коэфф. быстрой ликвидности и доли кратк. обяз. на (1) 20

Около половины компаний-банкротов имеют не только отрицательную чистую прибыль, но и отрицательную прибыль до налогообложения и уплаты процентов. Их операционная рентабельность и отдача от капитала, однако, сильно варьирует; у 25% дефолтеров эти показатели превышают 13% и 9%, соответственно.

Смотрите также:


«ДОХОДЫ, РАСХОДЫ И ПРИБЫЛЬ КОММЕРЧЕСКОГО БАНКА.»
«ДОХОДЫ, РАСХОДЫ И ПРИБЫЛЬ КОММЕРЧЕСКОГО БАНКА.»
Значение, сущность и содержание социально — педагогической деятельности в организации для детей-сирот и детей, оставшихся без попечения родителей
Проактивные методы PR-деятельности российских авиационных компаний «Россия», «Азимут»
__RGR2
__RGR2
_10_Эмиль Золя для эл версии
_11_А. Франс для эл версии
_2 тема-Дефекты (тезисы)