Дипломная работа: Текстовый анализ новостей в применении к прогнозированию банкротства компаний

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

С другой стороны, в отдельности чувствительность и специфичность моделей, особенно коротких, были ощутимо меньше на несбалансированной выборке. При этом алгоритм избыточного сэмплирования оказался чрезвычайно полезен для уменьшения этого разрыва, в некоторых случаях позволяя более чем удвоить чувствительность модели.

Рисунок 13. Recallполной логит-модели с применением SMOTEи без него

Так как переменные тональности показали лучшую способность к идентификации финансово стабильных компаний, нежели банкротов, вид PR-кривых длинных моделей обнадеживает: у них наблюдаются проблемы именно с точностью, а не с чувствительностью, особенно на несбалансированных выборках. Вполне вероятно, что извлечение более качественных сентиментов из текстов новостей зулучшит их объясняющую способность в этом плане и увеличит общую результативность моделей прогнозирования дефолта.

Рисунок14. Precision-Recallкривыедлинныхмоделей

Наконец, гипотеза H2 об интерпретируемости знаков коэффициентов при переменных тональности может быть принята с осторожностью. Их анализ после построения длинных моделей качественно не отличался от такового при выборе словаря: негативная и неопределенная тональности действительно ассоциированы с большей вероятностью банкротства, а остальные тональности оказываются незначимыми.

Случайный лес - пожалуй, один из немногих методов машинного обучения, подлежащий какой-либо теоретической интерпретации в контексте прогнозирования корпоративного дефолта. Каждый лист в его составе можно понимать как случай применения одномерного дискриминантного анализа, использующего тот или иной финансовый коэффициент для наиболее достоверного линейного разделения выборки на два класса. Тогда решающее дерево - это алгоритм многомерного дискриминантного анализа, в котором различные факторы учитываются не одновременно, в виде линейной комбинации, а последовательно (см. прил. Г, рис. 23). Наконец, композицию решающих деревьев можно представлять как одновременное использование нескольких МДА-моделей, подогнанных под разные выборки, и выбор наиболее представленного ответа среди них.

7. Заключение

Предсказание вероятности банкротства компаний - широкая и популярная область исследований, и достигнутые в ней результаты находит применение в государственном управлении, инвестиционном анализе, риск-менеджменте, оценке кредитного риска и других отраслях экономики и финансов.Во многих исследованиях последних лет было доказано, что текстовый анализ в виде анализа тональности может быть использован для дальнейшего повышения предсказательной силы некоторых таких моделей. Анализ тональности весьма универсален: текстовые данные могут быть извлечены из многих источников, более или менее формальных, более или менее связанных с финансами. Большинство работ по предсказанию банкротства, однако, используют в их качестве лишь публичную отчетность компаний. Данная работа нацелена на заполнение этого пропуска в академической литературе.Несмотря на то, что анализировалась лишь небольшая выборка новостных заголовков, некоторых удовлетворительных результатов достичь удалось.

На основной выборке была достигнута точность предсказания до 97% класса банкротов и 94% класса стабильных компаний. Улучшение вследствие введения текстовых переменных различных метрик качества составило до 2,5% в случае многослойного персептрона, колебалось возле нуля для случайного леса и было отрицательным для более простых моделей - логит-регрессии и метода опорных векторов, для которых тональности, скорее всего, оказались не более чем шумом. Почти на всех выборках многослойный персептрон и случайный лес показали схожие результаты; поPR-AUCвпереди оказался второй метод, по большинству других метрик - первый. Только словарь Loughran&McDonaldоказался способен произвести экономически осмысленные переменные тональности.

Таким образом, если и существует иначе необъяснимая взаимосвязь между переменными тональности и вероятностью банкротства, то, по всей видимости, она обладает сложным нелинейным характером и может быть обнаружена только специальными методами, такими как глубокие нейронные сети и ансамбли решающих деревьев. Полученные результаты могут быть использованы для углубления понимания феномена корпоративного дефолта и его взаимосвязи с эмоциональным наполнением медиапространства; сам факт их достижения на на столь скудных данных оправдывает дальнейшие исследования, которые должны сосредоточиться на следующих направлениях:

(1) Более всего - анализ текстов новостей вместо заголовков;

(2) Исследование более крупных выборок фирм, в особенности таких, что включают в себя непубличные и малые компании, охватывают более длинный временной период и рассматривают иные страны;

(3) Включение текстового анализа в более продвинутые методы предсказания банкротства, в том числе гибридные методы машинного обучения;

(4) Нахождение или конструирование словаря тональностей, оптимального для анализа именно новостей;

(5) Применение других, более сложных методов текстового анализа, учитывающих синтаксис и семантику текста.

Существуют и иные ограничения. Из-за сложностей в сборе данных исследованная выборка оказалась составлена лишь из тех компаний, которые обладают достаточным медиапокрытием, что может вносить некоторую смещенность. Кроме того, извлечение переменных тональности из текстов полагалось на существующие словари тональности, которые могут быть субоптимальными для анализа новостей. Выбор моделей предсказания банкротства и других факторов, использованных при их обучении - финансовых, рыночных и макроэкономических - основан на их популярности в существующей литературе, а не согласно каким-либо объективным критериям, и потому также может являться не самым лучшим. Кроме того, следует подчеркнуть, что большинство гипотез не тестировалось статистически и было проверено лишь посредством сравнения предсказательной силы разных моделей и их спецификаций.

8. Список литературы

[1] Adnan Aziz, M., & Dar, H. A. (2006). Predicting Corporate Bankruptcy: Where We Stand? Corporate Governance: The International Journal of Business in Society, 6, 18-33.

[2] Altman, E. I. (1968). Financial Ratios, Discriminant Analysis and the Prediction of Corporate Bankruptcy. The Journal of Finance (Vol. 23).

[3] Altman, E. I. (1993). Corporate Financial Distress and Bankruptcy: a Complete Guide. J. Wiley & Sons, Cop.

[4] Altman, E. I., Haldeman, R. G., & Narayanan, P. (1977). ZETA Analysis: a New Model to Identify Bankruptcy Risk of Corporations. Journal of Banking & Finance, 1, 29-54.

[5] Altman, E. I., & Sabato, G. (2007). Modelling credit risk for SMEs: Evidence from the U.S. market. Abacus.

[6] Altman, E. I., Sabato, G., & Wilson, N. (2010). The Value of Non-Financial Information in SME Risk Management. Journal of Credit Risk.

[7] Antweiler, W., & Frank, M. Z. (2004). Is All That Talk Just Noise? The Journal of Finance, 59(3), 1259-1294.

[8] Aziz, A., & Lawson, G. H. (1989). Cash Flow Reporting and Financial Distress Models: Testing of Hypotheses. Financial Management, 18(1), 55.

[9] Back, B., Laitinen, T., Sere, K., & Wezel, van M. (1996). Choosing Bankruptcy Predictors Using Discriminant Analysis , Logit Analysis , and Genetic Algorithms. Proceedings of the Ist International Meeting on Artificial Intelligence in Accounting, Finance and Tax, 40.

[10] Beaver, W. H. (1966). Financial Ratios As Predictors of Failure. Journal of Accounting Research, 4, 71.

[11] Beaver, W. H. (1968). Market Prices, Financial Ratios, and the Prediction of Failure. Journal of Accounting Research, 6, 179.

[12] Bellovary, J. L., Giacomino, D. E., & Akers, M. D. (2007). A Review of Going Concern Prediction Studies: 1976 to Present. Journal of Business & Economics Research, 5.

[13] Bird, S., Klein, E., & Loper, E. (2009). Natural language processing with Python: analyzing text with the natural language toolkit. O'Reilly Media.

[14] Campbell, J. Y., Hilscher, J., & Szilagyu, J. (2008). In Search of Distress Risk. The Journal of Finance, 63, 2899-2939.

[15] Chandra, D. K., Ravi, V., & Bose, I. (2009). Failure prediction of dotcom companies using hybrid intelligent techniques. Expert Systems with Applications.

[16] Charnes, A., Cooper, W., Lewin, A. Y., & Seiford, L. M. (1997). Data Envelopment Analysis Theory, Methodology and Applications. The Journal of the Operational Research Society, 48(3), 332.

[17] Chawla, N. V, Bowyer, K. W., Hall, L. O., & Kegelmeyer, P. W. (2002). SMOTE: Synthetic Minority Over-sampling Technique.Journal of Artificial Intelligence Research, 16.

[18] Chen, L., Wang, J., Deng, X., Xie, H., & Li, X. (2014). News impact on stock price return via sentiment analysis. Knowledge-Based Systems, 69, 14-23.

[19] Chen, M. Y. (2011). Predicting corporate financial distress based on integration of decision tree classification and logistic regression. Expert Systems with Applications, 38(9).

[20] Ciampi, F., & Gordini, N. (2012). Small Enterprise Default Prediction Modeling through Artificial Neural Networks: an Empirical Analysis of Italian Small Enterprises. Journal of Small Business Management, 51, 23-45.

[21] Coats, P. K., & Fant, L. F. (1993). Recognizing Financial Distress Patterns Using a Neural Network Tool. Financial Management, 22(3), 142.

[22] Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine Learning, 20(3), 273-297.

[23] Das, S. R., & Chen, M. Y. (2007). Yahoo! for Amazon: Sentiment Extraction from Small Talk on the Web. Management Science, 53(9), 1375-1388.

[24] Demers, E. A., & Vega, C. (2010). Soft Information in Earnings Announcements: News or Noise? International Finance Discussion Papers.

[25] Dimitras, A. I., Zanakis, S. H., & Zopounidis, C. (1996). A survey of business failures with an emphasis on prediction methods and industrial applications. European Journal of Operational Research, 90(3), 487-513.

[26] Dong, Y. X., Xiao, Z., & Xiao, X. (2014). Default prediction for real estate companies with imbalanced dataset. Journal of Information Processing Systems.

[27] Duan, J.-C., Sun, J., & Wang, T. (2012). Multiperiod Corporate Default Prediction: A Forward Intensity Approach. Journal of Econometrics.

[28] Duffie, D., Leandro, S., & Wang, K. (2007). Multi-Period Corporate Failure Prediction with Stochastic Covariates. Journal of Financial Economics.

[29] Fedorova, E. A., Gilenko, E. V., & Dovzhenko, S. E. (2013). Models for bankruptcy forecasting: Case study of Russian enterprises. Studies on Russian Economic Development, 24(2), 159-164.

[30] Feldman, R. (1998). Text Mining at the Term Level. Communications Session 3. Association Rules and Text Mining (pp. 65-73).

[31] Feller, W. (1970). An Introduction to Probability Theory and Its Applications (Vol. 14).

[32] Fisher, R. A. (1936). The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics, 7, 179-188.

[33] Fitzpatrick, P. J. (1932). A Comparison of the Ratios of Successful Industrial Enterprises With Those of Failed Companies. The Certified Public Accountant.

[34] Foreman, R. D. (2003). A logistic analysis of bankruptcy within the US local telecommunications industry. Journal of Economics and Business, 55(2), 135-166.

[35] Fulmer, J. G. (1984). A Bankruptcy Classification Model For Small Firms. Journal of Commercial Bank Lending.

[36] Gissel, J. L., Giacomino, D., & Akers, M. D. (2007). A Review of Bankruptcy Prediction Studies: 1930-Present. Journal of Financial Education (Vol. 33). Publisher Link.

[37] Guo, L., Shi, F., & Tu, J. (2017). Textual analysis and machine leaning: Crack unstructured data in finance and accounting. The Journal of Finance and Data Science, 2(3), 153-170.

[38] Hajek, P., Olej, V., & Myskova, R. (2014). Forecasting Corporate Financial Performance Using Sentiment in Annual Reports for Stakeholders' Decision-Making. Technological and Economic Development of Economy, 20, 721-738.

[39] Hдrdle, W., Lee, Y.-J., Schдfer, D., & Yeh, Y.-R. (2009). Variable Selection and Oversampling in the Use of Smooth-support Vector Machines for Predicting the Default Risk of Companies. Journal of Forecasting, 28, 512-534.

[40] Heaton, J. (2008). Introduction to Neural Networks for Java. Heaton Research, Inc.

[41] Henry, E. (2008). Are investors influenced by how earnings press releases are written? Journal of Business Communication, 45(4), 363-407.

[42] Heston, S. L., & Sinha, N. R. (2016). News versus Sentiment: Predicting Stock Returns from News Stories. Finance and Economics Discussion Series, 2016, 1-35.

[43] Huang, A. H., Zang, A., & Zheng, R. (2014). Evidence on the information content of text in analyst reports. Accounting Review, 89(6), 2151-2180.

[44] Kearney, C., & Liu, S. (2014). Textual Sentiment Analysis in Finance: A Survey of Methods and Models. International Review of Financial Analysis.

[45] Kolari, J. W., Caputo, M., & Wagner, D. (1996). Trait Recognition: An Alternative Approach to Early Warning Systems in Commercial Banking. Journal of Business Finance & Accounting, 23(November 1995).

[46] Li, F. (2008). Annual report readability, current earnings, and earnings persistence. Journal of Accounting and Economics, 45(2-3), 221-247.

[47] Li, F. (2011). Textual Analysis of Corporate Disclosures: A Survey of the Literature. Journal of Accounting Literature, 1-60.

[48] Li, Z., Crook, J., & Andreeva, G. (2014). Chinese Companies Distress Prediction: an Application of Data Envelopment Analysis. Journal of the Operational Research Society, 65, 466-479.

[49] Loughran, T., & McDonald, B. (2011). When Is a Liability Not a Liability? Textual Analysis, Dictionaries, and 10-Ks. The Journal of Finance, 66, 35-65.

[50] Loughran, T., & McDonald, B. (2016). Textual Analysis in Accounting and Finance: A Survey. Journal of Accounting Research, 54, 1187-1230.

[51] Lugovskaya, L. (2010). Predicting Default of Russian SMEs on the Basis of Financial and Non-Financial Variables. Journal of Financial Services Marketing, 14, 301-313.

[52] Mai, F., Tian, S., Lee, C., & Ma, L. (2018). Deep Learning Models for Bankruptcy Prediction Using Textual Disclosures. European Journal of Operational Research, 274, 743-758.

[53] Martin, D. (1977). Early warning of bank failure. Journal of Banking & Finance, 1(3).

[54] McNelis, P. D. (2005). Neural Networks in Finance: Gaining Predictive Edge in the Market. Elsevier.

[55] Merton, R. C. (1974). On the Pricing of Corporate Debt: the Risk Structure of Interest Rates. The Journal of Finance, 29, 449-470.

[56] Mohammad, S., & Turney, P. (2010). Emotions Evoked by Common Words and Phrases: Using Mechanical Turk to Create an Emotion Lexicon.

[57] Mselmi, N., Lahiani, A., & Hamza, T. (2017). Financial Distress Prediction: The Case of French Small and Medium-Sized Firms. International Review of Financial Analysis, 50, 67-80.

[58] Nielsen, F. Е. (2011). A new ANEW: Evaluation of a word list for sentiment analysis in microblogs.

[59] Odom, M. D., & Sharda, R. (1990). A neural network model for bankruptcy prediction (pp. 163-168 vol.2).

[60] Ohlson, J. A. (1980). Financial Ratios and the Probabilistic Prediction of Bankruptcy. Journal of Accounting Research, 18, 109.

[61] Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., … Duchesnay, Й. (2011). Scikit-learn: Machine Learning in Python. JMLR, 12, 2825-2830.

[62] Porter, M. F. (1980). An algorithm for suffix stripping. Program, 14(3).

[63] Ravi Kumar, P., & Ravi, V. (2007). Bankruptcy Prediction in Banks and Firms via Statistical and Intelligent Techniques. European Journal of Operational Research, 180.

[64] Rees, H., & Maddala, G. S. (1985). Limited-Dependent and Qualitative Variables in Econometrics. The Economic Journal, 95, 493.

[65] Rossum, G. van. (1995). Python tutorial. Technical Report CS-R9526, Centrum voor Wiskunde en Informatica (CWI), Amsterdam.

[66] Salchenberger, L. M., Cinar, E. M., & Lash, N. A. (1992). Neural Networks: a New Tool for Predicting Thrift Failures. Decision Sciences, 23, 899-916.

[67] Sanchez, J. S., Barandela, R., Rangel, E., & Garcia, V. (2003). Strategies for learning in class imbalance problems. Pattern Recognition, 36(3), 849-851.

[68] Scott, J. H. (1976). A Theory of Optimal Capital Structure. The Bell Journal of Economics, 7(1), 33-54.

[69] Scott, J. H. (1981). The probability of bankruptcy. A comparison of empirical predictions and theoretical models. Journal of Banking and Finance, 5(3), 317-344.

[70] Shin, K.-S., Lee, T. S., & Kim, H. (2005). Application of Support Vector Machines in Bankruptcy Prediction Model. Expert Systems with Applications, 28(1), 127-135.

[71] Shin, K. S., & Lee, Y. J. (2002). A genetic algorithm application in bankruptcy prediction modeling. Expert Systems with Applications.

[72] Shumway, T. (2001). Forecasting Bankruptcy More Accurately: A Simple Hazard Model. Journal of Business.

[73] Springate, G. L. (1978). Predicting the possibility of failure in a Canadian ?rm. Unpublished MBA project. Simon Fraser University.

[74] Taffler, R. J., & Tisshaw, H. (1977). Going, Going, Gone: Four Factors Which Predict. Accountancy, 88, 50-54.

[75] Tetlock, P. C., Tsechansky, S. T., & Macskassy, S. (2007). More than words: Quantifying language to measure firms' fundamentals. The Journal of Finance, 63(3), 1437-1467.

[76] Tian, S., & Yu, Y. (2017). Financial ratios and bankruptcy predictions: An international evidence. International Review of Economics and Finance.

[77] Tobback, E., Bellotti, T., Moeyersoms, J., Stankova, M., & Martens, D. (2017). Bankruptcy Prediction for SMEs Using Relational Data. Decision Support Systems, 102, 69-81.

[78] Walter, J. E. (1959). A Discriminant Function for Earnings-Price Ratios of Large Industrial Corporations. The Review of Economics and Statistics, 41, 44.

[79] Wilson, N., & Altanlar, A. (2014). Company failure prediction with limited information: Newly incorporated companies. Journal of the Operational Research Society, 65(2).

[80] Wilson, N., & Hernandez, M. (2013). Financial Distress and Bankruptcy Prediction among Listed Companies Using Accounting, Market and Macroeconomic Variables. International Review of Financial Analysis, 30, 394-419.

[81] Wilson, R. L., & Sharda, R. (1994). Bankruptcy Prediction Using Neural Networks. Decision Support Systems, 11, 545-557.

[82] Wu, D., Liang, L., & Yang, Z. (2008). Analyzing the financial distress of Chinese public companies using probabilistic neural networks and multivariate discriminate analysis, Socio-Economic Planning. Socio-Economic Planning Sciences, 42, 206-220.

[83] You, H., & Zhang, X. jun. (2009). Financial reporting complexity and investor underreaction to 10-k information.

[84] Youn, H., & Gu, Z. (2010). Predict US Restaurant Firm Failures: the Artificial Neural Network Model versus Logistic Regression Model. Tourism and Hospitality Research, 10, 171-187.