Дипломная работа: Текстовый анализ новостей в применении к прогнозированию банкротства компаний

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Таблица 20. Корреляция нетекстовых факторов (3/3)

CA/D

CL/A

IA/A

QA/CL

QA/A

WC/A

WC/D

A

CFFO/A

CA/REV

EBIT/E

EBIT/R

EBITDA/A

NI/A

NI/E

NI/R

RE/A

E/M

A/GNP

CA/D

1.00

CL/A

0.01

1.00

IA/A

0.00

-0.03

1.00

QA/CL

0.03

-0.28

-0.05

1.00

QA/A

0.03

0.30

-0.07

0.38

1.00

WC/A

0.03

0.78

-0.11

0.00

0.70

1.00

WC/D

0.99

0.02

0.00

0.01

0.02

0.03

1.00

A

-0.05

-0.11

-0.01

-0.12

-0.28

-0.30

-0.04

1.00

CFFO/A

0.00

-0.02

0.00

0.01

-0.01

-0.02

0.00

-0.02

1.00

CA/REV

0.01

0.00

-0.12

0.24

0.11

0.04

0.00

0.08

-0.02

1.00

EBIT/E

0.00

0.02

0.01

-0.01

0.01

0.02

0.00

0.01

0.01

-0.01

1.00

EBIT/R

-0.02

-0.08

0.07

-0.06

-0.03

-0.05

-0.01

0.07

0.03

-0.62

0.03

1.00

EBITDA/A

-0.02

-0.16

0.06

0.02

0.05

-0.04

-0.02

-0.03

0.09

-0.13

0.07

0.45

1.00

NI/A

-0.01

-0.23

0.05

0.09

0.07

-0.07

-0.02

0.01

0.06

-0.04

0.04

0.39

0.77

1.00

NI/E

0.00

0.03

0.03

-0.01

-0.01

0.02

0.00

0.01

0.01

-0.01

0.80

0.04

0.06

0.06

1.00

NI/R

-0.01

-0.10

0.05

-0.06

-0.02

-0.05

-0.01

0.05

0.03

-0.55

0.03

0.94

0.40

0.50

0.05

1.00

RE/A

0.00

-0.19

0.03

-0.02

-0.06

-0.10

0.00

0.18

0.04

-0.06

0.03

0.22

0.41

0.40

0.02

0.23

1.00

E/M

-0.02

-0.11

-0.02

-0.04

-0.10

-0.16

-0.01

0.50

0.00

-0.01

0.00

0.05

0.05

0.07

-0.01

0.05

0.13

1.00

A/GNP

-0.05

-0.11

-0.01

-0.12

-0.28

-0.30

-0.04

1.00

-0.02

0.09

0.01

0.07

-0.03

0.01

0.01

0.05

0.18

0.51

1.00

Приложение Б. Данные по текстовым факторам

Таблица 21. Количество новостей на каждую компанию

2011

2012

2013

2014

2015

2016

2017

2018

Максимум

45.00

41.00

44.00

110.00

42.00

18.00

23.00

129.00

Медиана

2.00

2.00

2.00

2.00

1.00

1.00

2.00

7.00

Среднее

10.13

6.96

5.56

7.00

5.29

3.53

2.83

11.74

Минимум

1.00

1.00

1.00

1.00

1.00

1.00

1.00

1.00

Отклонение

13.51

9.66

7.55

15.69

8.64

4.81

3.35

15.50

Таблица 22. Количество слов на каждую новость

2011

2012

2013

2014

2015

2016

2017

2018

Максимум

19.00

23.00

17.00

16.00

15.67

14.00

18.00

16.00

Медиана

9.73

9.00

8.80

10.00

10.50

9.75

10.17

10.11

Среднее

9.80

9.59

8.81

10.16

10.65

10.06

11.07

10.48

Минимум

6.71

5.00

6.00

5.33

6.71

6.50

6.00

6.00

Отклонение

2.51

3.37

1.67

1.96

2.06

2.00

2.98

2.01

Таблица 23. Количество значимых слов на каждую новость

2011

2012

2013

2014

2015

2016

2017

2018

Максимум

8.00

8.00

7.00

6.00

4.33

6.00

7.00

8.00

Медиана

2.00

2.00

1.67

1.50

1.50

2.00

2.00

1.81

Среднее

2.57

2.37

1.86

1.87

1.74

2.33

2.44

2.00

Минимум

0.00

0.00

0.25

0.00

0.50

0.67

0.00

0.33

Отклонение

1.66

1.46

1.21

1.25

0.93

1.13

1.30

1.02

Таблица 24. Корреляция текстовых факторов, L&M

Bankrupt

Отрицательная

Положительная

Неопределенная

Спорная

Ограничивающая

Избыточная

Bankrupt

1.00

Отрицательная

0.20

1.00

Положительная

-0.06

-0.30

1.00

Неопределенная

0.05

-0.03

-0.07

1.00

Спорная

-0.06

-0.20

-0.03

0.00

1.00

Ограничивающая

0.01

-0.01

-0.01

0.03

0.12

1.00

Избыточная

-0.04

-0.10

-0.05

-0.07

-0.10

-0.03

1.00

Таблица 25. Корреляция текстовых факторов, NRC

Bankrupt

Bankrupt

Злость

Симпатия

Отвращение

Страх

Радость

Пессимизм

Оптимизм

Грусть

Неожиданность

Bankrupt

1.00

Злость

0.12

1.00

Симпатия

0.06

0.27

1.00

Отвращение

0.12

0.54

0.13

1.00

Страх

0.09

0.66

0.40

0.47

1.00

Радость

-0.01

0.16

0.43

0.06

0.06

1.00

Пессимизм

0.17

0.57

0.24

0.49

0.56

0.04

1.00

Оптимизм

-0.03

0.18

0.60

0.03

0.13

0.58

0.05

1.00

Грусть

0.13

0.71

0.30

0.52

0.62

0.14

0.62

0.17

1.00

Неожиданность

0.01

0.21

0.40

0.26

0.39

0.26

0.15

0.24

0.25

1.00

Доверие

-0.02

0.22

0.51

0.05

0.07

0.56

0.09

0.71

0.20

0.16

1.00

Таблица 26. Корреляция тональностей и зависимой переменной, GI

Bankrupt

Положительная

Отрицательная

Сильная

Слабая

Активная

Пассивная

Bankrupt

1.00

Положительная

0.02

1.00

Отрицательная

0.17

0.11

1.00

Сильная

0.02

0.46

0.31

1.00

Слабая

0.15

0.18

0.62

0.23

1.00

Активная

0.05

0.27

0.37

0.53

0.23

1.00

Пассивная

0.13

0.27

0.37

0.26

0.53

0.26

1.00

Приложение В.Значимость и выбор факторов

Таблица 27. Результаты тестирования словарей

L&M

NRC

GI

(1) 20

(2) 20

(3) 20

(1) 20

(2) 20

(3) 20

(1) 20

(2) 20

(3) 20

Accuracy

0.544

0.525

0.529

0.554

0.549

0.566

0.565

0.586

0.583

Recall

0.115

0.122

0.107

0.144

0.179

0.195

0.171

0.259

0.237

Specifity

0.970

0.924

0.947

0.965

0.918

0.938

0.959

0.912

0.929

Precision

0.789

0.615

0.667

0.804

0.687

0.758

0.805

0.746

0.768

PR-AUC

0.531

0.544

0.552

0.512

0.533

0.563

0.516

0.550

0.563