Мешок слов(Loughran & McDonald, 2011)-метод, подразумевающий составление списка содержащихся в тексте семантически релевантных и эмоционально окрашенных слов без внимания к их синтаксическим взаимоотношениям и с приведением всей словоизменительной парадигмы каждой лексемы к одной словоформе - то есть, токенизацию и лемматизацию текста - методики, описанные в(Feldman, 1998).После этого подсчитывается количество уникальных слов, и уже эти числа используются в качестве входных параметров классификаторов или напрямую для измерения тональности текста.
Методы глубокого обучения- это методы, учитывающие грамматику и синтаксическую структуру текста(Mai et al., 2018). Они призваны исправить недостатки мешка слов, в первую очередь - неспособность различить объект, на которой направлена эмоция.
Словарный подход подразумевает использование словарей тональности - списков значимых слов, каждому из которых присвоен ряд сентиментальных признаков, обычно - в форме отсутствия или присутствия некоторой эмоции, в числе от двух до шести. Каждому слову из текста, входящего в словарь, с его помощью приписывается тональность, и затем агрегированная тональность текста далее служит в качестве объясняющей переменной (количественной) непосредственно для анализа интересующего исследователя явления.
Статистический подход подразумевает, чтоколичество уникальных значимых слов подается на вход некоего классификатора - алгоритма машинного обучения, разделяющего тексты на классы по преобладающей в них эмоции. Этоможет происходить с учителем и без: в первом случае текстам из обучающей выборки заранее присваивается тональность на основании экспертного заключения или с использованием словарей тональности; во втором случае этого не требуется. Далее объясняющей переменной (качественной) становится принадлежность текста к определенному классу тональности.
Таким образом, анализ сентиментов предполагают либо классификацию текста на основе его содержания (обычно - бинарную: положительная и отрицательная тональность), либо присваивание тексту ряда количественных показателей, отражающих содержащиеся в нем эмоции. Затем на основе этой информации создаются переменные, с помощью которых можно объяснить ту или иную характеристику объекта, на которого направлены найденные в тексте эмоции. Как правило, для этого используются различные алгоритмы суммирования информации, полученной из крупной выборки текстов, ассоциированных с одним объектом(L. Chen et al., 2014). В контексте предсказания банкротства посты, статьи, новости или отчеты, в которых упоминается некая компания, могут быть использованы для измерения ассоциированного с ней эмоционального фона и, в конце концов, ожиданий агентов относительно ее финансовой устойчивости.
Среди других аспектов текстового анализа следует упомянуть, по крайней мере, анализ читаемости текста и поиск ключевых фраз. Так, в статье(F. Li, 2008) различные меры читаемости, примененные к годовым отчетам публичных компаний, оказываются значимыми при предсказании дивидендной доходности: отчетность успешных фирм читать легче, чем отчетность аутсайдеров. В свою очередь, в работе(You & Zhang, 2009) предоставляются подтверждения того, что поведение рынка учитывает не только количественную раскрытую информацию, но и качественную: сложность отчетов 10-К оказывается существенной при анализе объемов торгов акции соответствующей компании.
Исследования по анализу тональности в финансах, в основном, сосредоточены на трех моментах: во-первых, разработка методологии, позволяющей извлекать релевантную для вероятности банкротства компании информацию из текста; во-вторых, составление подходящего словаря тональностей, позволяющего наиболее эффективно использовать метод мешка слов; в-третьих, поиск источников текстовой информации (Kearney & Liu, 2014).
Благодаря своей простоте мешок слов остается наиболее популярным методом текстового анализа в финансах. Среди первых исследований на эту тему следует упомянуть статью(Tetlock, Tsechansky, & Macskassy, 2007), в которой обнаруживается корреляция между тональностью (положительной или отрицательной) текстовых сообщений о фирме и динамикой цены ее акции, что обосновывается способностью инвесторов учитывать такую качественную информацию при принятии решений. Проблематика относительного или абсолютного учета тональности текстов в составе корпуса была рассмотрена в статье(Loughran & McDonald, 2011), где была предложена методика TF-IDF (termfrequency-inversedocumentfrequency), а также представлена методика составления словаря тональностей.
При использовании статистического подхода могут применяться разнообразные алгоритмы классификации текстов, дающие высокую точность предсказания. Гибридный классификатор на основе ряда специальных методов был разработан в статье(Das & Chen, 2007), посвященной изучению динамики цены акции в зависимости от сентиментов, выраженных в сообщениях на финансовых форумах и сайтах. Это позволило достичь точности, превышающей точность байесовского классификатора (60-70%). В исследовании (Guo et al., 2017) дается обзор таких методов, как наивный байесовский классификатор, BPNN и метод опорных векторов; на основании изученных работ делается вывод о превосходстве нейронной сети в предсказательной силе.
Изначально в финансах использовался ряд неспециализированных словарей тональности, таких как гарвардский общий словарь (HarvardGeneralInquirer) - наиболее популярный из всех(Loughran & McDonald, 2016). Этот словарь содержит около 100 различных сентиментов; в исследованиях, однако, они группируются во всего несколько, в простейшем случае - два, положительный и отрицательный. В дальнейшем был разработан ряд других словарей, так или иначе приспособленных под финансовый дискурс или же расширяющих или актуализирующих список слов и состав пространства сентиментов(Федорова et al., 2019):
Таблица 4. Некоторые словари тональностей
|
Источник |
Словарь |
Число слов |
Сентименты |
|
|
(Henry, 2008) |
Henry |
190 |
Позитивный, негативный |
|
|
(Mohammad & Turney, 2010) |
NRC |
6468 |
Злость, симпатия, отвращение, страх, радость, грусть, удивление, доверие |
|
|
(Demers & Vega, 2010) |
DICTION |
Не применимо |
Чистый оптимизм (оптимизм минус пессимизм), уверенность |
|
|
(Nielsen, 2011) |
AFINN |
2477 |
Пространство «позитивный-негативный» |
|
|
(Loughran & McDonald, 2011) |
Loughran & McDonald |
3916 |
Позитивный, негативный, спорный, ограничивающий, избыточный |
С помощью словаря Henry, несмотря на его кажущуюся примитивность, удалось составить значимые для предсказания абнормальной доходности акций переменные тональности. Существует множество аналогичных небольших словарей, которые, как правило, не используются кем-то помимо их авторов с тем или иным успехом(F. Li, 2011).Словарь NRC напрямую не связан с финансами, однако далее был успешно использован в некоторых исследованиях(Федорова et al., 2019). Под DICTIONимеется в виду группа словарей, составленная с помощью одноименной программы анализа текста. В статье (Demers&Vega, 2010) доказывается превосходство одного из них, указанного в таблице, по отношению к гарвардскому словарю при предсказании доходности.
Финансовый словарьLoughran&McDonald - возможно, самый успешный и пригодный для использования в финансах(Loughran & McDonald, 2016). В этих двух статьях была приведена подробная критика, обосновывающая малопригодность неспециализированных словарей. С помощью этого словаря удалось достичь точности около 60-70%, в то время как общие словари на той же самой репрезентативной выборке вообще оказывались несостоятельными, показывая точность около 50%. По мнению авторов, причина заключалась в множественных различиях тональностей многих слов в обычной речи и в финансовой отчетности.
В качестве источника текстовых данных, как правило, благодаря своей гомогенности и общедоступности, избиралась форма K-10 -обязательная для всех публичных компаний США форма отчетности, содержащая информацию о ее финансовом состоянии.Помимо этого, периодически используются и другие источники текстовых данных. Так, одно из самых ранних исследований (Antweiler & Frank, 2004)было проведено на сообщениях в социальных сетях, и было показано, что их тональность действительно может иметь воздействие на динамику цен акций. В работе(Huang, Zang, & Zheng, 2014) исследовались статьи финансовых аналитиков - возможно, наиболее естественный источник текстовой информации, релевантной для принятия инвестиционных решений - для предсказания движений рынка с помощью наивного байесовского классификатора.
В контексте данной же работы наиболее интересна проблематика извлечения тональности из новостных сообщений. Так, в работе(L. Chen et al., 2014) было показано, что при предсказании доходности акций в зависимости от тональности ассоциированных с компанией новостей словарный подход работает лучше, причем существенного различия между гарвардским словарем и словарем Loughran&McDonaldвыявлено не было. Кроме того, в статье (Heston & Sinha, 2016) новости, переведенные в сентименты с помощью словаря Loughran&McDonald, были успешно использованы для предсказания краткосрочной динамики акций с применением нейросети.
Существует не так много исследований, прилагающих текстовый анализ к прогнозированию корпоративного дефолта. Следует упомянуть исследование (Hajek et al., 2014), в котором в качестве прокси-переменной для финансовой результативности компании используется ее Z-счет из МДА-моделей предсказания банкротства.Путем комбинирования словаря Loughran&McDonaldи DICTIONотчеты по форме K-10 были переведены в пространство из 11 сентиментов, которое затем было использовано на входе логистической регрессии и нескольких методов машинного обучения: нейросети, опорных векторов и решающих деревьев. Было показано, что текстовая информация может быть использована для определения попадания компании в одну из зон модели Альтмана с достаточной точностью (около 70%). Вероятно, наиболее актуальной на момент написания данного исследования работой по текстовому анализу в применении к прогнозированию банкротства компаний является статья(Mai et al., 2018). Она же описывает применение глубокой нейросети для классификации тональности текстов.
4. Методология исследования
Цель данной работы достигается путем обучения всех четырех моделей предсказания банкротства с использованием переменных тональности и без них, после чего сравнивается предсказательная сила в том и в другом случае. Чтобы это осуществить, необходимо было выполнить следующие задачи исследования:
(1) Собрать данные и подготовить методологическую базу:
a. Проанализировав литературу, выбрать ряд подходящих для исследования моделей предсказания банкротства, методологию анализа сентиментов и ряд словарей тональностей;
b. Составить выборку фирм-банкротов, разработать и применить алгоритм ее дополнения за счет финансово стабильных аналогов;
c. На основе существующих исследований составить набор объясняющих переменных, охватив необходимые их категории, и найти их значения для составленной выборки за период исследования;
d. Агрегировать новости за период исследования, ассоциированные с фирмами из составленной выборки;
(2) Обработать данные, переведя их в форму панельных данных, готовых к использованию в моделях:
a. Осуществить токенизацию и лемматизацию корпуса новостей;
b. Провести корреляционный анализ факторов, удалив некоторые из них ради устранения мультиколлинеарности и повышения интерпретируемости модели;
(3) Провести обучение модели:
a. Используя только переменные тональности,найти словарь тональности, предоставляющий наибольшую прогнозную силу;
b. Составить и обучить модель предсказания банкротства с помощью ранее отобранных методов без переменных тональности на трех горизонтах предсказания (1, 2 и 3 года) и пяти пропорциях (20%, 25%, 33% и 50% банкротов в выборке);
c. Сделать то же самое, включив в модели переменные тональности;
(4) Получить и интерпретировать результаты:
a. Вычислить и сравнить метрики качества у разных моделей;
b. Сравнить прогнозную силу разных моделей на разных горизонтах предсказания и пропорциях, сделать выводы о различиях в применимости четырех моделей;
c. Основываясь на метриках качества, проверить истинность поставленных гипотез;
d. Сделать выводы об экономическом смысле полученных результатов, их научной и практической ценности.
Были достигнуты все задачи исследования, кроме агрегации текстов новостей. В силу недоступности достаточно обширной базы данных текстов, были извлечены только новостные заголовки в ограниченном количестве. Тем не менее, они послужили удовлетворительным источником информации.
4.1. Работа с текстом
Для упрощения работы с текстовыми данными все собранные заголовки новостей были распределены по ячейкам матрицы «компания - год», и каждое множество подходящих документов далее интерпретировалось как один. Далее после удаления незначимых символов была произведена токенизация каждого документа, то есть разделение документа на вектор отдельных слов с удалением «стоп-слов» - незначимых слов служебных частей речи и некоторых других, не несущих информации. Вместо лемматизации, обычно использующейся в таком случае (Hajek et al., 2014), был осуществлен стемминг-удаление суффиксов слов с использованием универсального алгоритма, не требующего словаря(Porter, 1980), что дало качественно тот же результат с меньшими усилиями.