Важно описать методологию и определить подходящий метод для дальнейшего анализа, поскольку каждый тип данных имеет свои особенности. В настоящей дипломной работе рассматриваются панельные данные, которые представляют собой двумерные массивы, одна из размерностей которых обладает временной интерпретацией (t), а другая - пространственной (i). Используется именно такой тип данных ввиду исследования расходов банков в динамике, а также наличия некоторых преимуществ:
1) панельные данные способствуют увеличению наблюдений, а, следовательно, улучшают эффективность оценок;
2) они позволяют проследить важные экономические процессы и вопросы, которые не могут анализироваться временными рядами и кросс - секцией по отдельности;
3) также они позволяют избежать проблему смещения агрегированности;
4) в заключении, они позволяют проследить индивидуальные эффекты объектов во временном разрезе.
Модели, основанные на панельных данных, могут иметь фиксированный или случайный эффект. В модели с фиксированным эффектом ошибка не коррелирует с переменными (х) и присутствует индивидуальный эффект. Модели со случайными эффектами используются, когда объекты выбираются случайным образом из большой генеральной совокупности элементов. Такие модели позволяют получать более статистически значимые оценки, чем с фиксированными эффектами. Модель с фиксированными эффектами предполагает, что индивидуальный эффект может быть коррелирован с переменными.
В этом случае МНК - оценки будут не состоятельны. Смысл эффекта в том, чтобы отразить влияние пропущенных или ненаблюдаемых переменных, характеризующих индивидуальные особенности исследуемых объектов, не меняющиеся со временем.
Также можно построить модель сквозной регрессии, которая предписывает одинаковое поведение всем объектам выборки во все моменты времени. Если эти предположения выполняются, то параметры модели могут быть состоятельно оценены с помощью метода наименьших квадратов (МНК) (Wooldridge, J. M., 2007).
Вдобавок, существуют операторы «Between» (B) и «Within» (W). Оператор «Between» убирает вариацию во времени путем усреднения и оценивается при помощи МНК. Оператор «Within» устраняет вариацию по индивидам и также оценивается обыкновенным МНК.
Стоит сказать, что регрессия «Within» является методом оценки коэффициентов в регрессионной модели с фиксированными случайными эффектами.
На следующем шаге необходимо выбрать наиболее адекватную модель для дальнейшего анализа. Для этого требуется сравнить модель со случайными эффектами с моделью с фиксированными эффектами при помощи теста Хаусмана (Ратникова Т.А., 2004).
В данных наблюдается сильная асимметрия между количеством банков с блокчейн и без (количество 1 и 0 соответственно).
Поэтому модель может не учесть тот факт, что некоторые банки используют в своей деятельности эту технологию и отнесет их к обычным банкам. Таким образом, эффект от внедрения технологии не будет учтен, и проведенный анализ окажется некорректным.
Решением данной проблемы могут послужить методы мэтчинга. Мэтчинг относится к непараметрическим методам оценивания (не требует делать предположения относительно формы функциональной зависимости Y от X), может использоваться для панельных и кросс-секционных данных, а также может комбинироваться с регрессией.
Основная идея заключается в том, что в не экспериментальных данных имеются объекты, подвергшиеся и не подвергшиеся воздействию, но отбор в группу воздействия не является случайным, следовательно, появляется необходимость в учете различий в характеристиках между двумя группами (Barnay, T., Duguet, E., Clainche, C., 2015).
Мэтчинг пытается воспроизвести рандомизированный эксперимент на основе не экспериментальных данных (квази - экспериментальный метод).
Это реализуется путем искусственного подбора из выборки такой контрольной группы, которая была бы очень близка по характеристикам к группе воздействия.
Также для каждого объекта при оценке эффекта воздействия высчитываются временные значения ненаблюдаемых потенциальных исходов («что было бы, если бы воздействия не было»). Вменными значениями выступают наблюдаемые исходы из «контрольной группы» с максимально похожими значениями ковариат (предикторов/ независимых переменных). Это может быть одно значение или усредненный исход по нескольким похожим объектам из «контрольной группы».
Выбирая количество объектов, поставленных в соответствии из противоположной группы, необходимо учитывать, что при увеличении n (подобранных пар) увеличивается эффективность оценки, но также и увеличивается смещение из-за «плохих» пар. В большинстве случаев хорошо работает n = 1, поскольку потери эффективности меньше, чем потери от смещения. Однако, стоит проверять чувствительность результатов к выбору n.
Мэтчинг делится на несколько видов: точный мэтчинг по переменным, неточный мэтчинг по переменным и мэтчинг по индексу склонности (Hosek, D., S., Straus, G., S., 2013).
Также можно создать синтетическую контрольную группу, которая основывается на схожести трендов. В данной дипломной работе будет использоваться мэтчинг по индексу склонности (propensity score matching - PSM), поскольку главная проблема обычного мэтчинга состоит в большой размерности вектора X.
Следовательно, возникла идея совмещать наблюдения не по значениям переменных из Х, а по некоторой функции от Х, что обычно делается по индексу склонности.
Метод реализуется в три этапа:
1. Рассчитывается индекс склонности при помощи логит - или пробит - моделей, где зависимой переменной является дамми-переменная воздействия (блокчейн). На основе этой модели рассчитываются предсказанные значения вероятностей, что и является индексом склонности.
2. Формируется контрольная группа из индивидов, не подвергшихся воздействию, с наиболее близкими значениями индекса склонности.
3. Рассчитывается индивидуальный «эффект» воздействия (средний эффект - ATE или ATT) (Barnay, T., Duguet, E., Clainche, C., 2015).
3.2 Разведочный анализ. Модели со случайными и фиксированными эффектами
Для начала следует убедиться, нет ли аномально высоких, низких и абсурдных значений.
График ящиков с усами демонстрирует выбросы для переменных, отвечающих за издержки (Costs), кредиты юридическим (Cr_org) и физическим лицам (Cr_ind), а также собственный капитал (Equity) (рис. 3).
Рис. 3. Ящики с усами
Если взглянуть на описательные статистики, то можно увидеть сильный разброс значений во всех переменных, за исключением норматива текущей ликвидности (Н3) и дамми-переменной (Block). Опираясь на таблицы 2, 3 и 4, можно охарактеризовать параметры среднего банка по годам по значениям из столбца mean. Так, издержки для среднего банка на 2015 год составят 101 000 000 тыс. руб., на 2016 год - 93 900 000 тыс. руб., а на 2017 год будут равны 89 600 000 тыс. руб.
Таблица 2
Описательные статистики, 2015 год
|
Переменные |
Среднее |
Ст. Отклонение |
Мин. |
Макс. |
|
|
Costs |
-1.01*108 |
3.10*108 |
-2.16*109 |
-381195 |
|
|
Cr_ind |
1.71*108 |
5.73*108 |
13311.55 |
3.84*109 |
|
|
Cr_org |
4.59*108 |
1.55*108 |
53733.32 |
1.05*1010 |
|
|
Equity |
1.26*108 |
3.95*108 |
391808.7 |
2.11*109 |
|
|
Secur |
1028655 |
3191832 |
-4759330 |
1.25*107 |
|
|
H3 |
1.661559 |
1.063061 |
0.4878 |
5.861414 |
Таблица 3
Описательные статистики, 2016 год
|
Переменные |
Среднее |
Ст. Отклонение |
Мин. |
Макс. |
|
|
Costs |
-9.39*107 |
2.60*108 |
-1.78*109 |
-351154 |
|
|
Cr_ind |
1.75*108 |
5.92*108 |
12875.91 |
3.96*109 |
|
|
Cr_org |
4.62*108 |
1.62*108 |
22040.82 |
1.09*1010 |
|
|
Equity |
1.17*108 |
3.72*108 |
378218.1 |
2.55*109 |
|
|
Secur |
-1614321 |
1.67*107 |
-1.15*109 |
1.25*107 |
|
|
H3 |
1.665935 |
1.019386 |
0.6204955 |
4.804141 |
|
|
Block |
0.1632653 |
0 |
1 |
Таблица 4
Описательные статистики, 2017 год
|
Переменные |
Среднее |
Ст. Отклонение |
Мин. |
Макс. |
|
|
Costs |
-8.96*107 |
2.24*108 |
-1.50*109 |
-372875 |
|
|
Cr_ind |
2.15*108 |
6.62*108 |
87180.32 |
4.24*109 |
|
|
Cr_org |
4.53*108 |
1.54*109 |
19634.55 |
1.03*1010 |
|
|
Equity |
1.28*108 |
4.39*108 |
418003.9 |
3.06*109 |
|
|
Secur |
-1121291 |
1.25*107 |
-7.25*107 |
1.94*107 |
|
|
H3 |
1.835363 |
1.049566 |
0.686525 |
4.814464 |
|
|
Block |
0.1632653 |
0 |
1 |
Выбросом может служить Сбербанк ввиду больших расходов, но, поскольку он представляет для нас интерес, то не будет исключен из выборки. Более того, все выбивающиеся наблюдения не будут удаляться. Вместо этого можно нормировать переменные путем логарифмирования, а издержки (Cost) и расходы/доходы по операциям с ценными бумагами (Secur) будут поделены на собственный капитал (Equity), так как они содержат отрицательные значения.
Нормирование переменных привело к тому, что количество аномальных наблюдений уменьшилось, что видно из ящичковых диаграмм на рисунке 5.
Рис. 5. Ящики с усами для нормированных переменных
Так же был проведен корреляционный анализ, который позволил сделать вывод о том, что на издержки в большей степени влияют кредиты, выданные юридическим и физическим лицам, и собственный капитал. При чем связь сильная и обратная (Приложение 1). Более того, выяснилось, что между издержками банка (Cost) и нормативом текущей ликвидности (Н3) связь не значима. Такие переменные, как кредиты физическим, юридическим лицам и собственный капитал связаны сильно и положительно между собой, что говорит о возможной проблеме частичной мультиколлинеарности. В случае получения адекватных и соответствующих действительности знаков и результатов, будет принято решение, не бороться с этой проблемой. Вдобавок, для каждой переменной были построены гистограммы, которые продемонстрировали наличие выбивающихся наблюдений и факт того, что распределение переменных отлично от нормального (Приложение 2).
На следующем шаге построим базовую модель множественной регрессии. В ней значимыми оказались лишь дамми-переменная блокчейн и коэффициент текущей ликвидности. В данном случае значение R-sq between отражает качество подгонки регрессии и является выше остальных (0,44), то есть изменение средних по времени показателей для каждого банка оказывает более существенное влияние на каждую переменную, нежели временные колебания этих показателей относительно средних (Таблица 5).
Таблица 5
Результаты оценки сквозной регрессии
|
Costs_E |
Коэф. |
Ст. Ошибка |
P>z |
[95% Дов. Интервал] |
|
|
lnCr_ind |
-0.0692434 |
0.0506109 |
0.171 |
-0.168439 |
0.0299521 |
lnCr_org
0.0323156
0.0388692
0.406
-0.0438666
0.1084978
lnEquity
0.1297671
0.0836728
0.121
-0.0342286
0.2937629
Secur_E
0.4357696
0.5464292
0.425
-0.635212
1.506751
H3
0.1765237
0.0579974
0.002
0.0628508
0.2901966
Block
-0.4189367
0.1990748
0.035
-0.8091161
-0.0287573
_cons
-3.015262
0.5737185
0.000
-4.13973
-1.890795
sigma_u
0
sigma_e
0.68995918
В модель имеет смысл включить нелинейность в виде совместного эффекта логарифма собственного капитала и дамми на блокчейн. Это можно обосновать тем, что эффект внедрения технологии блокчейн может зависеть от величины собственного капитала.
В таблице 6 представлена модель с включением совместного эффекта, который оказался значимым на однопроцентном уровне. Переменные, отвечающие за кредиты физическим лицам (lnCr_ind) и собственный капитал (lnEquity) стали значимы на пяти- и десятипроцентном уровне соответственно. Для дамми-переменной Block значимость увеличилась.
Таблица 6
Результаты оценки сквозной регрессии с совместным эффектом
|
Costs_E |
Коэф. |
Ст. Ошибка |
P>z |
[95% Дов. Интервал] |
||
|
lnCr_ind |
-0.1016919 |
0.0477238 |
0.033 |
-0.195229 |
-0.0081549 |
|
|
lnCr_org |
0.0238421 |
0.0363075 |
0.511 |
-0.0473192 |
0.0950035 |
|
|
lnEquity |
0.1341624 |
0.0780665 |
0.086 |
-0.0188451 |
0.2871699 |
|
|
Secur_E |
0.5098374 |
0.5100259 |
0.317 |
-0.489795 |
1.50947 |
|
|
H3 |
0.172794 |
0.0541134 |
0.001 |
0.0667338 |
0.2788543 |
|
|
Block |
-8.160968 |
1.666508 |
0.000 |
-11.42726 |
-4.894673 |
|
|
Block_lnE |
0.4239034 |
0.0906787 |
0.000 |
0.2461763 |
0.6016305 |
|
|
_cons |
-2.400453 |
0.5511596 |
0.000 |
-3.480706 |
-1.320201 |
|
|
sigma_u |
0 |
|||||
|
sigma_e |
0.64263483 |