Дипломная работа: Текстовый анализ новостей в применении к прогнозированию банкротства компаний

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

H5. Категориальная переменная отрасли экономики является значимой в логит-модели. Это подтверждается во многих исследованиях по многим странам, например, в(Hajek et al., 2014) по США, (Z. Li, Crook, & Andreeva, 2014)по Китаю,(Демешев & Тихонова, 2014a) по России. Устранение отраслевых различий является актуальной проблемой с самого начала исследований банкротства(Beaver, 1966). Тем не менее, большое число исследований не содержит эту переменную ни напрямую, ни косвенно- за счет формирования индустриально однородных выборок.

Эти предположения не следует понимать как строгие статистические гипотезы. В силу того, что методы машинного обучении яобладают чисто эмпирической природой, во многих случаях единственным способом оценки истинности гипотез является непосредственное сравнение предсказательной силы разных моделей.

3. Обзор моделей прогнозирования банкротства

Общеэкономическая значимость явления корпоративного дефолта, переоценить которую сложно, объясняет традиционно высокий и до сих пор не ослабевающий интерес к теме объяснения и предсказания банкротства в академической литературе.

Существует немало обзорной литературы, обобщающей результаты предыдущих исследований. Одной из первых подобных работ стала статья(Scott, 1981), в которой сравнивались теоретический и эмпирический подходы к предсказанию банкротства и была обоснована как практическая применимость первых, так и соответствие вторых экономической теории. Более поздние обзорыбыли сосредоточены, в основном, на компиляции численных результатов опубликованных моделей и обобщении их спецификаций. Отдельно от них стоит обширная работа(Altman, 1993), описывающая не только несколько сотен исследований в 10 странах, но и предоставляющая исчерпывающий теоретический базис и рекомендации к практическому применению. В работе(Dimitras et al., 1996) рассматривается 154 исследования в 12 странах и описывается, среди прочего, общая среди их видов методология. В статье (Adnan Aziz & Dar, 2006)приводится усредненная информация о результативности и предсказательной силе, полученной в 89 исследованиях, сгруппированных в 10 видов в зависимости от методологии, а также подробная классификация моделей предсказания банкротства. В свою очередь,(Ravi Kumar & Ravi, 2007)предоставляет обзор более десятка применяемых в литературе методов машинного обучения. Наконец, обзор (Gissel, Giacomino, & Akers, 2007)обобщает практические результаты 165 исследований и предоставляет статистику использования различных факторов и методик прогнозирования.

Существующие эмпирические работы могут быть поделены на три категории согласно их методологии:

(1) Статистические исследования, отыскивающие линейную зависимость между вероятностью банкротства и неким набором финансовых и нефинансовых факторов;

(2) Исследования, применяющие различные методы машинного обучения с учителем и без него для осуществления бинарной классификации выборки на банкротов и небанкротов;

(3) Гибридные исследования, объединяющие несколько методов предсказания, агрегируя их выводы с помощью алгоритма, подобного экспертной системе.

Далее будет предоставлена информация по первым двум категориям, а также отдельно рассмотрено применение текстового анализа в финансах.

3.1. Линейные подходы

Хотя первые формальные методы оценки финансовой стабильности компании на основе ее финансовых показателей были разработаны только в 60-х годах прошлого века, внимание к данной проблематике имело место в литературе, как минимум, еще за тридцать лет до этого. Вработе(Fitzpatrick, 1932)был, скорее всего, впервые озвучен важнейший принцип, который далее лег в основу всех исследований банкротства: если, как показывает практика, финансовые коэффициенты фирм коррелированы с их финансовой стабильностью, то они могут быть использованы для предсказания вероятности банкротства отдельной фирмы. Впервую очередь речь шла о коэффициентах ликвидности, таких как currentratioи quickratio: приведенная выборка из 19 пар компаний-банкротов и их финансово стабильных аналогов демонстрировала однозначную связь между высокими коэффициентами ликвидности и финансовой нестабильностью. Подобная практика сравнения пар аналогичных по размеру и роду деятельности компаний легла в основу традиционного метода предсказания банкротства - дискриминантного анализа.

Дискриминантныйанализпредполагаетчисленное оценивание финансовой стабильности компании путем вычисления линейной комбинации некоторых факторов с некоторыми коэффициентами. Полученное число затем сравнивается с некой шкалой, разделенной на несколько зон, ассоциированных с разной вероятностью банкротства; в простейшем случае - на две, и тогда процедуру сравнения можно назвать дихотомическим тестом: фирма должна либо обанкротиться в течение заданного периода, или нет. Такой тест был применен в классической работе(Beaver, 1966) и подразумевал вычисление отдельных оценок на основании каждого из использованных факторов, то есть представлял собой одномерный дискриминантный анализ. Несмотря на всю примитивность и неформальность метода, доля верно классифицированных фирм на горизонте в один год достигла, в некоторых случаях, 87%. Охват использованных факторов был с некоторым успехом расширен за счет добавления доходности акций (Beaver, 1968).

Дальнейшие исследования были связаны с объединением информации, содержащейся во всех факторах, с целью получения более однозначной и строгой оценки. Многомерный (multivariate) дискриминантный анализ ранее применялся как за пределами финансов(Fisher, 1936), так и внутри их - например, для анализа EPSкомпаний(Walter, 1959); в области предсказания банкротства он был впервые задействован во влиятельной работе(Altman, 1968). В ней была разработана так называемая Z-модель Альтмана, вычисляющая оценку на основании комбинации пяти факторов, коэффициенты при которых были получены путем ручной подгонки под исследованную выборку. Каждый из факторов, тем не менее, получил некоторое теоретическое обоснование. Результативность на «обучающей» выборке оказалась крайне высокой: уже 95% фирм были правильно классифицированы. Недостатком такого подхода стала привязка коэффициентов к этой выборке, в некотором смысле неизбежно порождавшая сильное переобучение: на «тестовой» выборке ошибка второго рода составила уже 27%, а первого рода - 6%.

Модель Альтмана породила множество аналогов, построенных на других, предположительно, более репрезентативных выборках с использованием более или менее отличающихся наборов факторов, однако имеющих схожую результативность.

В упомянутой обзорной литературе, как правило, в качестве классических МДА-моделей приводятся следующие:

Таблица 2. Классические модели МДА

Источник

Название

Факторы

(Altman, 1968)

Altman Z-score

Working capital/Assets, Retained earnings/Assets, EBIT/Total assets, Capitalization/Debt, Revenue/Assets

(Altman, Haldeman, & Narayanan, 1977)

ZETA

EBIT/Assets, Stability of earnings, EBIT/Interest expense, Retained earnings/Assets, Working capital/Assets, Current ratio, Common equity/Capital, Assets

(Taffler & Tisshaw, 1977)

Taffler Z-score

EBIT/Current liabilities, Current assets/Assets, Current liabilities/Current assets, Revenue/Assets

(Springate, 1978)

Springate score

Working capital/Assets, EBIT/Assets, EBT/Short-term debt, Revenue/Assets

(Ohlson, 1980)

Ohlson O-score

Assets/GNP deflator, Liabilities/Assets, Working capital/Assets, Current liabilities/Current assets, Net income/Total assets, CFFO/Liabilities, Increase in net income

(Fulmer, 1984)

Fulmer H-factor

Retained earnings/Assets, Revenue/Assets, EBIT/Equity, CFFO/Debt, Debt/Equity, Current liabilities/Assets,Tangible assets, Working capital/Debt, EBIT/Interest expense

(Zmijewski, 1984)

Zmijewski score

Net income/Assets, Liabilities/Assets, Current assets/Current liabilities

Многие из этих моделей имели шкалу, состоящую из несколько зон - диапазонов для оценки финансовой нестабильности, например, greenzone, yellowzoneи redzone. Если оценка попадала в среднюю зону, то она считалась нейтральной, из-за чего формально высокая точность предсказания могла быть скомпрометирована наличием неопределенных наблюдений, исключаемых из выборки при подсчете точности.

Главным недостатком МДА является невозможность получения оценок коэффициентов математически строгим образом: так как поставленная задача предполагает двоичную классификацию, необходима модель бинарного выбора. Кроме того, вызывает проблемы предположение о нормальности факторов и одинаковости корреляционных матриц для обеих групп наблюдений, как указывается, например, в (Ohlson, 1980).

Несмотря на долгую историю и повсеместное применение в статистике логистической функции, лишь в работе(Martin, 1977) было предложено ее применение к линейной комбинации факторов, традиционных для МДА, для получения оценки вероятности банкротства вместо абстрактного числа, сравниваемого с выбранной наугад шкалой. Эта же работа была одной из первых (по крайней мере, среди значимых), четко определивших практическое приложение исследований банкротства: разработка «модели раннего предупреждения», которая позволила бы фирме заранее и с высокой точностью определять грядущую финансовую нестабильность у себя самой, своих контрагентов или у эмитентов активов, содержащихся в ее портфеле. Используя набор факторов, описывающих рискованность активов, ликвидность, платежеспособность и прибыльность компании, на широкой выборке американских банков с долей банкротов около 1%, однозначных результатов получить не удалось. Предсказательная сила была невелика как для логит-, так и для МДА-модели: реалистичная доля банкротов и репрезентативность выборки, в отличие от построения искусственных пар аналогов при дискриминантном анализе, породили очень высокую ошибку второго рода, достигающую 40% в некоторых случаях. Эта проблема была адресована, например, в статьях(Zmijewski, 1984), (Chawla, Bowyer, Hall, & Kegelmeyer, 2002)и (Sanchez, Barandela, Rangel, & Garcia, 2003). Она должна разрешаться путем многократного учета наблюдений из меньшего класса тем или иным образом при нахождении оценок коэффициентов с помощью метода максимального правдоподобия.

Более явные результаты, оправдывающие практическое использование логистической регрессии, были получены в работе(Ohlson, 1980).Подлежащая линейная комбинация была так называемой O-моделью, девять факторов которой укладывалось в стандартную классификацию факторов МДА. Ошибка второго рода уже была меньше 30% для лучших отсечений, а сравнение логистической регрессии с МДА выявили устойчивое, хоть и небольшое, превышение предсказательной силы первой. Среди прочих исследований, использующих логит-модели, следует упомянуть(Foreman, 2003), получившее высокие результаты на выборке из телеком-компаний, и(Youn & Gu, 2010), в котором доказывалось, что в некоторых случаях логистическая регрессия может быть предпочтительнее методов машинного обучения. Также в статье (Altman & Sabato, 2007) был предложен логистический аналог модели Альтмана на выборке компаний малого и среднего бизнеса. Несмотря на размер выборки, состоящей из более чем 2000 компаний, причем только 6% из них были банкротами, достигнутая точность предсказания на тестовой выборке составила 87% для логит-модели и 67% для МДА-модели. Таким образом, результаты, полученные в 60-х годах для искусственно сбалансированных выборок с нереалистичными предположениями и отсутствием формального метода нахождения коэффициентов, был повторен без всех этих и многих других недостатков, что стало возможно благодаря моделям бинарного выбора.

Популярный в статистике аналог логистической функции, вероятностная или пробит-функция, для предсказания банкротства использовалась для предсказания банкротства довольно редко. В качестве примера можно привести книгу(Rees & Maddala, 1985), в которой также исследуется применение некоторых качественных переменных, и статью (Zmijewski, 1984).

Поворотным моментом стала публикация статьи(Shumway, 2001). Она содержала в себе критику методологии предыдущих моделей предсказания банкротства, которые учитывали информацию только за один период. Построенная в статье hazardmodelоказалась эквивалентна обыкновенной логит-регрессии с учетом лагов всех факторов за определенный промежуток времени, но была более устойчива и показывала более высокую предсказательную силу.В дальнейшем эта тема была развита во многих методологических исследованиях - например, в(Nick Wilson & Hernandez, 2013) и(Tian & Yu, 2017). Далее в статье(Duan et al., 2012), которая опиралась на работу(Duffie, Leandro, & Wang, 2007), описавшую расстояние до дефолта, было доказано превосходство многопериодной интенсивной модели предсказания банкротства.

Помимо МДА и бинарных регрессий существуют и большое количество более специальных методов предсказания банкротства. Среди них следует упомянуть, по крайней мере, анализ среды функционирования, описанный вработе (Charnes, Cooper, Lewin, & Seiford, 1997) и эффективно примененный в(Z. Li et al., 2014); метод распознавания признаков, описанный, например, в статье(Kolari, Caputo, & Wagner, 1996); а также большую группу методов, основанных на построении экспертных систем, обзор которых дается, например, в (Adnan Aziz & Dar, 2006).

Для российского читателя особый интерес представляют отечественные исследования в области прогнозирования банкротства. Значительная их доля посвящена простейшим МДА-моделям и особенностям их применения на российских выборках, что может исходить из того, что Z-модель Альтмана до сих пор применяется в регулировании российской банковской сферы(Федорова & Тимофеев, 2015a). Среди ранних исследований следует упомянуть (Зайцева, 1998), в котором одномерный и многомерный дискриминантный анализ рассматривался как один из инструментов антикризисного менеджмента.Также существует набор исследований, подробно рассматривающих конкретные кейсы - как, например, (Воронина, 2007), в котором предсказания моделей Альтмана, Таффлера и Спрингейта сопоставлялись с реальностью на примере четырех предприятий и давалось обоснование их удовлетворительным результатам.

В России был разработан ряд моделей, учитывающих особенности отечественных компаний и имеющие более высокую предсказательную силу, чем классические МДА-модели. Так, в статье(Давыдова, 1999), однако, критиковалась применимость модели Альтмана на российском рынке - или, скорее, несоответствие предложенных авторами коэффициентов и сравнительной шкалы современным российским реалиям: на 1992 год 84% российских предприятий, согласно их Z-счету, должны были обанкротиться, однако этого не произошло и к 1998 году. С другой стороны, еще более простая четырехфакторная МДА-модель («модель ИГЭА»), разработанная авторами специально для российских компаний (все ее коэффициенты, в отличие от большинства классических моделей, были равны единице после масштабирования переменных), имела точность около 70-80%. Однако анализ классических МДА-моделей и модели ИГЭА в разрезе по двум секторам, представленный в статье(Федорова & Тимофеев, 2015b), не подтвердил выводы Зайцевой на более крупной (и более поздней) выборке: классические модели были вполне состоятельны с точностью 60-70%, а в некоторых случаях превышали по точности модель ИГЭА.