Дипломная работа: Текстовый анализ новостей в применении к прогнозированию банкротства компаний

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Действительно, несостоятельность западных моделей может быть связана не с особенностями российской экономики как таковой, а со спецификой ее состояния в 90-х - начале 2000-х годов. Также была разработана еще одна модель на основе логит-регрессии и корреляционного анализа всех факторов, входящих в исследованные спецификации, точность которой достигла 80-90%. С другой стороны, еще до этого в статье(Lugovskaya, 2010) было исследовано 25 классических финансовых факторов МДА-моделей, после чего с применением метода главных компонент и корреляционного анализа было отобрано 11 факторов. Построенный на их основе аналог Z-модели позволил достичь точности около 80%.

Логистическая регрессия применялась и в некоторых других исследованиях. Например,(Жданов & Афанасьева, 2011) подтвердило превосходство логит-модели по сравнению с МДА-аналогами той же спецификации. Похожие результаты были получены в статьях(Богданова, 2008, 2011), в которых также был предложен оригинальный алгоритм классификации на основании интегрирования показателей нескольких классических моделей предсказания банкротства. Наконец, в статье(Федорова, Лазарев, & Федин, 2016) была разработана логит-модель высокой прогнозной силы (85-90%) для строительной отрасли на оригинальном наборе финансовых переменных.

3.2. Нелинейные подходы

Ближе к началу XXIвека, научно-технический прогресс в области вычислительной техники позволил применять в академических исследованиях более ресурсоемкие методы поиска статистических взаимосвязей. Машинноеобучение, тоестьрешениезадачобученияна примерах численными методами, в контексте предсказания вероятности банкротства компаний обладает рядом особенностей:

Таблица 3. Машинное обучение в сравнении с регрессионным анализом

Достоинства

Недостатки

(1) Способность учитывать нелинейные зависимости между объясняющими и объясняемой переменной, что особенно существенно для многопериодных моделей и ввиду наличия неочевидных связей между финансовыми показателями

(1) Отсутствие возможности теоретической интерпретации и трудоемкость понимания зависимостей между переменными на основе результатов работы моделей - и, как следствие, практическая невозможность использования этих результатов для разработки конкретных мер антикризисного менеджмента, в то время как классические методы способны служить в качестве инструментов раннего предупреждения для менеджеров

(2) Нетребовательность к входным данным: отсутствие, например, предпосылок о характере распределении анализируемых величин и об их ковариационных матрицах, свойственных теоретическим моделям

(2) Практически неограниченная сложность как в плане технической реализации, так и в плане методологии, что серьезно ограничивает практическую применимость моделей, особенно в таких консервативных отраслях, как государственное регулирование и риск-менеджмент в банковской сфере

(3) Хорошая результативность на очень больших выборках и на пространствах высоких размерностей - в том числе, большое число способов введения регуляризации, предотвращения переобучения и отделения незначимых факторов

Среди первопроходцев оказалась статья(Odom & Sharda, 1990), непосредственно сравнивающая предсказательную силу Z-модели Альтмана и однослойного персептрона, построенного на тех же самых пяти факторах. В соответствии с методологией Альтмана, была отобрана небольшая (64х2) выборка из пар аналогичных компаний-банкротов и небанкротов. Результаты оказались неоднозначными, однако нейросеть продемонстрировала более высокую предсказательную силу на более реалистичных пропорциях банкротов и небанкротов (85% при 80/20). Таким образом было подтверждено, что из одной и той же спецификации, даже в корне устаревшей, нелинейный алгоритм извлекает больше информации.В работах(Coats & Fant, 1993) и(R. L. Wilson & Sharda, 1994) были приведены оригинальные алгоритм построения однослойной нейросети, который оказался уже более предпочтителен МДА-аналогу, оказавшись более устойчивым во времени. Далее была опубликована статья(Salchenberger et al., 1992), в которой удалось добиться значительно лучших результатов: при прогнозировании банкротства финансовых компаний нейросеть оказалась эффективнее логит-модели. Был приложен алгоритм BPNN (backpropagationneuralnetwork), который далее получил большую популярность в литературе.

Среди более современных работ по нейросетям следует упомянуть(Wu, Liang, & Yang, 2008), в которой был разработан более продвинутый алгоритм - PNN (probabilisticneuralnetwork) и применен с использованием собственной спецификации финансовых и макроэкономических факторов.Техника LSM (learningsubspace), представляющая собой некоторый род вводимой в функцию потерь регуляризации, позволила нейросети автоматически отбирать значимые факторы. Оказалось, что PNNобладает большей прогнозной силой, нежели BPNN, и достигает точности в 85% на горизонте в один год.Также в работе(McNelis, 2005) представлен обширный обзор методологии и результативности применения нейронных сетей в финансах вообще. Существует и ряд специальных исследований с применением нейросетей, как, например, (Tobback, Bellotti, Moeyersoms, Stankova, & Martens, 2017), в котором используются методы интеллектуального анализа данных для построения графов связей между аффилированными компаниями, свойства которых затем используются в качестве входных данных для предсказания банкротства с помощью нейросети.

Благодаря своей эффективности на больших выборках, искусственные нейронные сети часто использовались для предсказания банкротства компаний малого и среднего бизнеса. Например, в статье(Ciampi & Gordini, 2012) удалось добиться точности около 70% на разнородной и крупной выборке (около 7 тысяч фирм), причем тестирование на поделенных по размеру подвыборках показало, что нейросеть показывает лучшие результаты, чем МДА и логит-регрессия, для самых маленьких фирм. Возможно, одной из причин являлось большое количество пропусков в данных по малым фирмам, собирать которые гораздо сложнее, нежели в случае с публичными фирмами: уже было показано, что нейросеть лучше, чем обыкновенная регрессия, справляется с пропусками в данных. При этом авторы отмечают, что все три метода на подвыборках работают лучше.

Другим базовым методом машинного обучения являются решающие деревья, позволяющие классифицировать выборку за некоторое число шагов.Решающие деревья и их комбинации - случайный лес - часто используются в составе гибридных классификаторов, производя переменные, которые далее используются в других алгоритмах. Следует упомянуть крупное исследование(Chandra, Ravi, & Bose, 2009), предложившее интеллектуальную систему предсказания банкротства, основанную на агрегировании показаний нескольких моделей - в том числе, глубокой нейросети, случайного леса и логистической регрессии. Кроме того, в работе(M. Y. Chen, 2011) был представлен классификатор, основанный на трех алгоритмах решающих деревьев (C5.0, CHAIDи CART) и логит-регрессии. Было показано, что все три алгоритма почти во всех случаях превосходят ее в предсказательной силе, достигая точности в 85-95%; использованная выборка, однако, содержала только 25 пар компаний-аналогов.

Несмотря на все их достоинства, применение решающих деревьев осложнено их потребностью в большой обучающей выборке и склонностью застревать в локальных минимумах, как указано, например, в статье(Mselmi et al., 2017). Среди непараметрических методов, не подверженных этим недостаткам, следует выделить метод опорных векторов, общая методология которого была описана в статье(Cortes & Vapnik, 1995). Их приложение к предсказанию банкротства было рассмотрено, например, в исследовании(K.-S. Shin, Lee, & Kim, 2005), где обосновывались достоинства опорных векторов по сравнению с BPNN на малых выборках и была получена точность в 60-70%. Продвинутый метод гладких опорных векторов (smoothsupport-vectormachine) был предложен в работе(Hдrdle, Lee, Schдfer, & Yeh, 2009) вместе с техникой, позволяющей несколько раз учитывать наименьший класс в выборке (oversampling), что позволило SSVMпродемонстрировать значительно большую предсказательную силу, чем таковая у логит-регрессии, на несбалансированных выборках. Далее эта тема была развита в статье(Dong, Xiao, & Xiao, 2014), где был представлен другой схожий алгоритм и сравнивалась результативность Опорные вектора, нейросети и логит-регрессии. Проблематика выбора спецификации модели, существенная для предсказательной силы Опорные вектора, была рассмотрена в статье(Zhou, Lai, & Yen, 2012).

Другими относительно популярными в литературе методами машинного обучения являются генетические алгоритмы, наивные байесовские классификаторы и kближайших соседей (k-NN), однако обычно они не превосходят в своей предсказательной силе различные алгоритмы нейросетей или опорных векторов.

Можно привести статью(Back, Laitinen, Sere, & Wezel, 1996), в которой генетический алгоритм сравнивался с нейросетью, однако однозначных результатов получено не было: оба метода давали точность около 90%. К аналогичным выводам привело исследование(K. S. Shin&Lee, 2002). Генетические алгоритмы, однако, иногда используются для отбора факторовв составе гибридных классификаторов, как, например, в исследовании(Zhou et al., 2012), где они были использованы как основа для метода опорных векторов.

Гибридные классификаторы, начиная с середины 2010-х годов, стали применять многие исследователи, тем или иным комбинируя результаты нескольких статистических методов и методов машинного обучения. Примером может послужить статья(Mselmi et al., 2017), в которой сравнивается предсказательная сила логит-регрессии, нейросети, методе опорных векторов и некоторых других специфических подходов. Оказывается, что точность всех моделей выше на горизонте в два года, чем на горизонте в один год, а наилучшей из них является метод опорных векторов. Также в статье(Fedorova, Gilenko, & Dovzhenko, 2013) используется нейросеть, логистическая регрессия, МДА и решающие деревья для построения комбинированного классификатора в два этапа: сначала согласно показаниям некоторых моделей отбираются значимые переменные, а потом они используются по назначению другой моделью. Оказалось, что нейросеть, построенная на отобранных с помощью логит-регрессии и решающих деревьев факторах, показывает наибольшую точность (около 95%).

В России вплоть до 2010-х годов методы машинного обучения практически не использовались для прогнозирования банкротства. Одной из первых работ в этой области стала статья(Макеева & Бакурова, 2012), однако в ней исследовались европейские нефтегазовые компании; предсказательная сила нейронной сети - многослойного персептрона значительно превзошла таковую у логистической регрессии (до 95%). Далее в работе(Демешев & Тихонова, 2014a) был успешно применен алгоритм случайного леса на финансовых и нефинансовых факторах, прогнозная сила которого оказалась выше, чем у логистической регрессии (ROC = 0.75); важно, что, в отличие от большинства других российских исследований, выборка состояла из компаний малого и среднего бизнеса и была весьма большой (около 3 млн. наблюдений на протяжении 8 лет).

Кроме того, в статье(Демешев & Тихонова, 2014b) аналогичное исследование было проведено в разрезе по отраслям с использованием ряда методов, включая классификатор на основе решающих деревьев и случайный лес, в результате которого случайный лес был снова признан наилучшим методом вне зависимости от отрасли. Наконец, превосходство в предсказательной силе решающих деревьев над логит-регрессией было подтверждено в работе (Макушина & Шихлярова, 2018).

Общие выводы российских исследователей ничем не отличаются от таковых у зарубежных: методы машинного обучения, более пригодные к обработке больших и гетерогенных объемов данных и спецификаций и позволяющие отыскивать нелинейные зависимости, дают более качественные результаты при прогнозировании банкротства.

3.3. Текстовый анализ

Текстовый анализ как таковой - явление не новое. Разбор текста с целью выявления его лексических, синтаксических и стилевых особенностей использовался для проверки тех или иных гипотез касательно него задолго до зарождения статистики как науки. Его ранняя история рассматривается, например, в статье(Loughran & McDonald, 2016), которая, кроме того, является одним из наиболее актуальных на момент написания данной работы обобщений использования текстового анализа в финансах.

Следует упомянуть обзор литературы(F. Li, 2011), в котором обсуждаются работы по извлечению текстовой информации из финансовой отчетности и ее применение для анализа финансовых показателей компании - приложение текстового анализа, ставшее наиболее популярным. Было показано, что тональность отчетности фирмы может иметь осмысленную корреляцию с ее финансовыми результатамии динамикой цены акции, а также что текстовый анализ может быть использован для исследования и улучшения качества корпоративного управления. Более того, в данной статье, возможно, впервые ставится вопрос о применимости текстовой информации к предсказанию банкротства.

Так как врассматриваемой области текстовые данные используются для извлечения качественной информации, применение, в основном, находит анализ тональности или сентиментов (sentimentanalysis) - совокупность методов различения текстов, несущих разную эмоциональную нагрузку. Так, в обзоре (Kearney & Liu, 2014)приводится описание различных эмпирических методов извлечения эмоций из текста, а также способы агрегации тональности слов в тональность текста и, в свою очередь, тональности корпуса текстов - в тональность объекта исследования, такого как конкретная фирма. Кроме того, обсуждается методология предсказания динамики некоторого показателя в зависимости от изменения тональности текстовых сообщений во времени. Согласно приведенным статьям, текстовый анализ вполне применим к моделированию временных рядов, например, цены акции или индекса.

На данный момент релевантен ряд методов анализа тональности(Kearney & Liu, 2014; Loughran & McDonald, 2016; Федорова et al., 2019):

Рисунок 1. Методы анализа тональности