3
1
ПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ
«НАУЧНО-ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ
«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»
ФАКУЛЬТЕТ ЭКОНОМИЧЕСКИХ НАУК
Образовательная программа «Экономика»
ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА
По направлению подготовки 38.03.01 «Экономика»
На тему:
ТЕКСТОВЫЙ АНАЛИЗ НОВОСТЕЙ В ПРИМЕНЕНИИ К ПРОГНОЗИРОВАНИЮ БАНКРОТСТВА КОМПАНИЙ
Выполнил:
Студент 4 курса бакалавриата группы БЭК151
Ишутин Сергей Александрович
Рецензент: Доцент, к.э.н.
Степанова Анастасия Николаевна
Научный руководитель: Профессор, д.э.н.
Федорова Елена Анатольевна
Москва 2019
Данная работа охватывает четыре модели прогнозирования банкротства компаний: логистическая регрессия, многослойный персептрон, метод опорных векторов и случайный лес. Основной ее целью является проверка применимости текстового анализа новостей к повышению точности моделей предсказания банкротства. В конечную спецификацию моделей вошло 17 финансовых,4 рыночных и 3 макроэкономических фактора, а также несколько наборов переменных тональности, извлеченных с помощью метода мешка слов из корпуса заголовков новостей, предоставленного Thomson Reuters. При этом были использован гарвардский словарь тональности, словарь NRC и финансовый словарь Loughran&McDonald. Все четыре модели сравниваются друг с другом с учетом и без учета переменных тональности на разных горизонтах предсказания. Выборка фирм-банкротов, предоставленная UCLA-LoPucki BRD, состоит из 137 крупных публичных американских фирм, объявивших себя банкротами между 2011 и 2018 годами включительно, к которым были подобраны их финансово стабильные аналоги, случайно выбранные из листингов NYSE и NASDAQ. Выдвинутые гипотезы подтвердились частично. Лучшим словарем тональности оказался словарь L&M, а лучшей моделью - многослойный персептрон. Достигнутую точность предсказания в90-95% на однолетнем горизонте удалось повысить за счет переменных тональности лишь незначительно и не во всех случаях.
Ключевые слова: прогнозирование банкротства, текстовый анализ, анализ тональности, логит, нейронная сеть, опорные вектора, случайный лес
This study encompasses four models of corporate default prediction: logit regression, multilayer perceptron, support-vector machine, and random forest.Its main purpose is to determine whether textual analysis of news can be successfully applied to bankruptcy prediction models so as to improve their accuracy. The predictor set consisted of 17 financial, 4 market, and 3 macroeconomic variables. In addition, a number of sets of sentiment variables derived from news headliners database provided by Thomson Reuters was introduced.Word lists of Harvard GI, NRC, and Loughran & McDonald's were used. All four models are tested against each other, with and without textual factors, on different prediction horizons. The sample of bankrupt firms was provided by UCLA-LoPucki BRD. It consists of 137large-sized public US firms that filed bankruptcy between 2011 and 2018 inclusively, to which financially stable counterparts randomly drawn from NYSE and NASDAQ listings were added. Study resultsconfirmed the raised hypotheses only partially. L&M dictionary was found to be the most effective, while the most accurate model of prediction was the MLP. The accuracy scores of 90-95% achieved on one-year horizon were only slightly and occasionally improved after introduction of sentiment variables.
Keywords: bankruptcy prediction, textual analysis, sentiment analysis, logit, neural network, support-vector machine, random forest
логистическая регрессия персептрон новости банкротство
Содержание
1. Введение
В современной экономике, развивающейся в условиях финансовой глобализации и возрастающего влияния финансового сектора, трудно отыскать отрасль или характер взаимодействий между агентами, где не существует кредитного риска в том или ином его виде. Даже если некоторый агент не вступает ни в какие долговые отношения, ассоциированные с ним денежные потоки все равно так или иначе интегрированы в экономику страны и мира - а ее благосостояние напрямую зависит от платежеспособности системообразующих игроков, особенно в банковской сфере, не говоря уже о государстве как таковом. Понимание причин, ведущих к потере агентом финансовой стабильности и невозможности для него исполнить свои обязательства, позволяет снизить неопределенность и сделать кредитный риск квантифицируемым и управляемым. Это особенно важно во время рецессии или экономической нестабильности, когда запрос на средства снижения неопределенности особенно велик (Martin, 1977).
Действительно, по крайней мере с 60-х годов исследователи стремились отыскать наиболее точную и надежную модель предсказания финансовой нестабильности фирмы, которая позволила бы улучшить корпоративный риск-менеджмент, разработать эффективные нормы регулирования финансового и банковского сектора, предоставить возможности для более разумных инвестиционных решений(Altman, 1993). Как правило, целью исследований в данной области является либо экономический или статистический анализ взаимоотношений между вероятностью банкротства фирмы и некоторыми объясняющими переменными, и тогда их значимость является в первую очередь научной, либо разработка моделей раннего предупреждения (earlywarningmodel), которые позволили бы риск-менеджерам компаний на практике оценить их финансовую стабильность и понять, с какими показателями следует работать ради ее повышения. На данный момент толькоосновных типов моделей предсказания банкротства существует около десятка, причем многие из них могут демонстрировать точность, превышающую 80-90% (Adnan Aziz & Dar, 2006), однако разные модели показывают лучшие результаты в разных условиях и вопрос нахождения оптимальной универсальной модели еще не закрыт.
Основным трендом развития данной области исследований является нахождение и использование новых источников информации с целью повышения предсказательной силы моделей: от финансовых коэффициентов, содержащихся в отчетности компаний, до рыночных факторов, извлекаемых из динамики цен акций, и макроэкономических показателей. На данный момент одним из наиболее перспективных и не исчерпанных источников информации можно назвать текстовые данные, полученные из материалов раскрытия корпоративной информации, потоков новостей и даже сообщений в социальных сетях (Guo, Shi, & Tu, 2017). Анализ тональности новостей успешно применяется для предсказания финансовых показателейи(Hajek, Olej, & Myskova, 2014) динамики цен акций(Mai, Tian, Lee, & Ma, 2018), однако на момент написания данного исследования было опубликовано очень небольшое число статей, прилагающих его к предсказанию банкротства.
Основной целью данной работы, проистекающей из вышеприведенных соображений, является проверка предположения о том, что добавление объясняющих переменных тональности, полученных путем текстового анализа новостных сообщений, в спецификацию существующих моделей предсказания вероятности банкротства компании может повысить их предсказательную силу. Соответственно, объектом данной работы является феномен корпоративного дефолта, а предметом - методы предсказания его вероятности с использованием информации, полученной посредством анализа текстовых данных. Задачи исследования подробно описываются в разделе методологии.
Методологической основой данной работы являются три описанных в литературе метода машинного обучения и две модели бинарного выбора, которые используются в качестве бенчмарков.Для извлечения переменных тональности из текста используется метод мешок слов(Loughran & McDonald, 2016), который нуждается в заранее заданном словаре тональностей. Общепринятым в финансовых исследованиях является словарь Loughran &McDonald, однако в силу того, что характер данных не является чисто финансовым, оправдано использование некоторых других популярных словарей: гарвардского словаря GI и словаря NRC. С помощью бенчмарк-модели среди них выбирается лучший словарь и далее исключительно используется во всех других моделях.
Научная значимость данной работы обусловлена, с одной стороны, предоставлением новой и перспективной точки приложения текстового анализа и введением в методологию предсказания банкротства нового источника информации. Действительно, хотя анализ новостей уже был успешно применен в финансах, например, в работе (Heston & Sinha, 2016), его использование для предсказания банкротства - новая и актуальная идея, в то время как иные источники текстовой информации уже исследованы(Mai et al., 2018). Практическая значимость исследования заключаетсяв нахождении модели предсказания финансовой нестабильности, обладающей наибольшей предсказательной силой среди выбранных моделей на данной выборке.
Основная часть данной работы состоит из пяти разделов. Во втором разделе осуществляется постановка проблематики банкротства, изучается экономический смысл взаимосвязей между вероятностью банкротства и внешними и внутренними факторами по их категориям, а также приводятся и обосновываются гипотезы исследования. В третьем разделе приводится обзор литературы по эмпирическим исследованиям и классификация различных подходов и моделей предсказания банкротства. В четвертом разделе ставятся задачи исследования и описывается его методология. В пятом разделе приводится описание использованной выборки компаний и объясняющих переменных. Шестой раздел содержит результаты исследования по анализу данных и обработке текста, нахождению лучшего словаря, обучению и сравнению всех моделей.
2. Проблематика прогнозирования банкротства
Банкротство компании - в общем случае, ее неспособность выполнить свои финансовые обязательства перед кредиторами. По поводу конкретного определения данного явления, однако, консенсуса среди исследователей не существует.Можно выделить, по крайней мере, три варианта:
(1) Технический дефолт - еще в статье (Beaver, 1966)было замечено, что невыполнение фирмой любого своего обязательства, будь то перед кредиторами, держателям облигаций или привилегированными акционерами, может считаться банкротством вне зависимости от юридических последствий.
(2) Легальное банкротство - банкротство как состояние, в котором пребывает фирма во время и после соответствующей юридической процедуры, причем в некоторых случаях она может считаться банкротом сразу после ее начала, а в некоторых других - только после ее завершения(Shumway, 2001).
(3) Финансовая нестабильность - экономическое состояние фирмы, выражающееся, как правило, в падении некоторых финансовых коэффициентов ниже заданного исследователем порога, вследствие чего, как предполагается, неизбежен запуск процедуры банкротства в ближайшем будущем(Nick Wilson & Hernandez, 2013).
Различия между этими явлениями, впрочем, не так часто осмыслялись в литературе, существенно не влияя на практическую ценность полученных результатов(Martin, 1977). В данном исследовании, в соответствии с наиболее распространенным подходом(Altman, 1993), банкротство, дефолт и финансовая нестабильность (bankruptcy, defaultи financialdistress, соответственно), понимаются как одно и то же явление, а именно объявление компанией банкротства согласно 7-й или 11-й главе соответствующего Кодекса США с последующей ликвидацией или реструктуризацией фирмы. Из этого также следует, что выбытие фирмы из генеральной совокупности по иным причинам в нем никак не затрагивается, хотя успешные попытки предсказать вероятность событий такого рода с помощью того же инструментария имеют место(Duan, Sun, & Wang, 2012). Все такие фирмы, выбывшие за период исследования, в выборку не вошли.
Так или иначе, прогнозирование банкротства - это либо оценка его вероятности для некоторой компании или выборки компаний в течение определенного периода времени(Duan et al., 2012), либо решение задачи о разделении выборки компаний на класс банкротов и класс небанкротов(Salchenberger, Cinar, & Lash, 1992), либо, в случае более ранних исследований, качественная оценка шансов банкротства компании (Altman, 1968) с использованием некоторой шкалы. Для выполнения этих задач в литературе применяются разнообразные алгоритмы, которые можно разбить на две основные группы:
(1) Теоретические (априорные) методы - те, что подразумевают выведение явным образом вероятности банкротства или некой ее прокси-переменной из строгой экономической модели, основанной на некоторых предпосылках. Такие модели, как правило, не требуют обучения и имеют заранее известную спецификацию. Следует упомянутьтри группы таких методов: