Меры связи случайных величин и их применение в сетевом анализе
ВВЕДЕНИЕ
Задача идентификации сетевых структур - одна из важнейших при работе со сложными сетями. Ее решение необходимо для получения необходимой информации о природе сети, о ее параметрах, что в свою очередь необходимо для решения многих практических задач, например, задач прогнозирования при работе с сетевой моделью фондового рынка.
Последние несколько десятилетий фондовый рынок играет значительную роль в экономике, и как способ преумножить капиталы бизнесменов, и как один из самых точных и надежных индикаторов процессов, происходящих в экономике. Индексы рынка взлетают и падают, определяя периоды стабильного роста и оповещая мир о начале нового экономического кризиса.
Для решения задачи по прогнозированию событий на рынке ценных бумаг существуют различные подходы и модели. На эту тему написано множество статей, а у каждого игрока на рынке ценных бумаг есть своя собственная стратегия, которую он едва ли раскроет. В большинстве эффективных подходов к анализу фондового рынка используется сетевая модель рынка, в основе которой лежит переход от активов и информации об их стоимости на протяжении некоторого времени к сетям и графам, полученным на основе данных о случайных величинах. Как будет показано далее, построение сетевой модели во многом зависит от того, какая мера зависимости случайных величин лежит в ее основе, определяя вес ребер сети.
В данной работе будет проведено сравнение наиболее популярных функций зависимости на предмет их устойчивости к изменениям на рынке ценных бумаг и способности отражать действительную связь между активами различных компаний.
Цель работы
Сравнить различные меры зависимости случайных величин в приложении к сетевой модели рынка.
Задачи
· Выбрать меры зависимости для сравнения
· Собрать данные о доходности акций с фондового рынка США
· Построить сетевую модель рынка, используя различные метрики
· Построить отсеченный граф рынка для каждой из сетей
· Идентифицировать в полученных графах сетевые структуры:
o Клики
o Максимальное остовное дерево
· Сравнить полученные графы и сетевые структуры при помощи F1 меры
ГЛАВА 1. Методы анализа рынка
Первые рынки ценных бумаг начали появляться в конце 15, начале 16 веков. Одним из первых фондовых рынков можно считать Амстердамскую биржу, где Ост-Индская торговая компания продавала документы, дающие право на часть ее прибыли. Первая американская биржа появилась значительно позже, в 1791 в Филадельфии. Почти через год после этого стартовали торги на Нью-Йоркской бирже.
С момента появления первых фондовых рынков, брокеры находятся в поисках универсального инструмента, который позволил бы им предсказывать рост и падение цен на акции, сводя риски к минимуму и устремляя прибыль в бесконечность. Множество научных статей написаны с одной целью - разобраться, как ведет себя фондовый рынок, какие факторы влияют на изменение цен и как можно предугадать эти изменения. Все работы по анализу фондового рынка можно отнести к одному из двух методов - фундаментальный или технический подход.
Фундаментальный подход
Фундаментальный анализ - метод определения стоимости компании, основывающийся на данных о финансовых и производственных показателях ее деятельности. Традиционно анализу подвергаются: чистая прибыль, чистая стоимость, обязательства и денежный поток компании, а кроме того целый ряд макроэкономических параметров.
Инвесторы, использующие фундаментальный анализ, отталкиваются от идеи о несовершенности рынка. Так предполагается, что у компании есть две стоимости - реальная и рыночная, а их разница показывает, в какую сторону будут изменяться цены акций этой компании на рынке ценных бумаг. Акции компаний, чья реальная стоимость по оценкам инвестора ниже рыночной, называются недооцененными и выгодны для вложения, так как обещают прирост цены. Идеи и методы фундаментального анализа подробно описаны в книге Бенджамина Грэма и Дэвида Додда «Анализ ценных бумаг».
Технический подход
Технический анализ - метод определения цен акций на основе информации об изменении цен в прошлом в схожей ситуации. Основывается на гипотезе об эффективности рынка, постулируется, что все макро и микроэкономические факторы немедленно и в полной мере находят отражение в текущей цене акции, чем полностью противоречит фундаментальному анализу. Поэтому, в отличие от фундаментального анализа, технический анализ не рассматривает причины изменения цен, а лишь констатирует факт, что цена движется в определенном направлении, имеет положительный или отрицательный тренд.
Постулаты технического анализа:
· Движение цен на рынке учитывает всю информацию
Все факторы, влияющие на формирование цены, учтены в изменении цены
· Движение цен на рынке подчинено тенденциям
На первый взгляд каждое отельное движение цены - случайно, однако, движения за определенный промежуток времени подчинено тренду
· История повторяется
Участники рынка в схожих обстоятельствах поступают одинаково
Больше про технический анализ рынка ценных бумаг можно узнать из книги Майкла Н. Кана «Технический анализ. Просто и ясно»
На основе данных технического анализа инвестор делает вывод о том, как будет себя вести цена дальше. Для этого часто используют паттерны или модели, например «двойная вершина» или «флаг». Про работу с паттернами можно подробнее ознакомиться в книге «Успешный трейдинг. От нуля до первого миллиона» Дмитрия Михнова.
ГЛАВА 2. Сетевая модель
Сетевая модель рынка - одна из наиболее часто используемых моделей. В ней цена акции каждой компании представлена случайной величиной с неизвестным распределением, над которой течении некоторого времени ведется наблюдение. Таким образом, для N компаний на рынке и n дней наблюдения мы имеем N-мерный случайный вектор с длиной выборки n. Далее строится взвешенный граф, в котором вершины соответствуют элементам такого случайного вектора, а вес ребер определяет мера зависимости случайных величин на его вершинах, например выборочная корреляция Пирсона.
Меры зависимости
Мерой зависимости - функция, которая отражает силу связи двух случайных величин. Так как истинные распределения при работе с реальными данными не известны, будем говорить о корреляционной зависимости (статистическая взаимосвязь). Как упоминалось выше, мера связи будет определять вес ребра в сетевой модели рынка.
Корреляция Пирсона
Одной из наиболее распространенных мер связи является выборочная корреляция Пирсона.
Определение:
Пусть даны выборки , коэффициент корреляции Пирсона рассчитывается по формуле:
Где - выборочные средние и , , - выборочные дисперсии, .
Также корреляцию Пирсона называют теснотой линейной связности, она показывает, насколько хорошо одна из случайных величин может быть представлена как линейная функция другой. Так, для можно говорить о линейной зависимости, а для - о линейной независимости.
Корреляция Спирмена
Как и в случае с корреляцией Пирсона, корреляция Спирмана - мера линейной связи между случайными величинами. Однако, при определении силы связи используются не численные значения, а соответствующие им ранги. Коэффициент инвариантен по отношению к любому монотонному преобразованию шкалы измерения.
Определение:
Пусть даны выборки , коэффициент корреляции Спирмена рассчитывается по формуле:
Где - ранг наблюдения в ряду , - ранг наблюдения .
.
- строгая линейная зависимость
- строгая обратная линейная зависимость
Знаковая функция зависимости
Знаковая функция зависимости или знаковая корреляция - функция определяющая силу связи между случайными величинами и , как вероятность того, что их значение будет одновременно больше или меньше его математического ожидания.
Где .
Полный взвешенный и Отсеченный графы
Сеть - полный (каждая вершина соединена с каждой) взвешенный граф, вершины которого - случайные величины - соответствуют активам из индекса, характеризующего фондовый рынок. Вес ребра - корреляция между выборками активов, соответствующих вершинам этого ребра.
В ходе эксперимента будем использовать одношаговую процедуру генерации отсеченного графа - в отсеченный граф попадут ребра, вес которых выше некоторого порогового значения, заданного экспериментатором и выбранного эмпирическим путем.
Одношаговый алгоритм
Суть одношаговой процедуры в том, что в отсеченный граф попадают только ребра, вес которых превысит некоторое неизменное пороговое значение.
Так отсеченный граф G может быть построен по статистике T, с порогом с следующим образом:
Где , где .
Структуры и их значение
Целью создания сетевой модели, а соответственно и отсеченного графа является поиск и выявление сетевых структур, таких как клики и максимальные независимые множества для дальнейшего их изучения. Такие структуры нужны для получения информации о ситуации на рынке, что в свою очередь нужно для прогнозирования событий в будущем.
Клика
В теории графов кликой называют подмножество вершин, любые две из которых соединены ребром. В терминах фондового рынка - это группа компаний тесно связанных между собой.
Рисунок 1 клика размера 7
Рисунок 2 клика размера 11
Максимальное остовное дерево
Максимальное / минимальное остовное дерево графа - остовное дерево этого графа, с максимально / минимально возможным весом - суммой весов входящих в него ребер.
Рисунок 3 минимальное остовное дерево
Рисунок 4 минимальное остовное дерево
Рисунок 5 минимальное остовное дерево
ГЛАВА 3. Постановка эксперимента
Выбор данных
Реальные данные представлены в виде таблицы, где для каждого актива приведена информация по шести показателям на каждый рабочий день, в том числе: цена открытия, цена закрытия, скорректированная цена закрытия, объем продаж и прочее. Для построения сетевой модели будем использовать только скорректированную цену закрытия, как наиболее близкую к рыночной цене акции.
Построение сетевой модели предполагает работу только с частью активов, для уменьшения сложности операций. Наиболее репрезентативными можно считать активы, входящие в один из индексов фондового рынка. Для американского рынка традиционно используют индекс Dow-Jones.
Данные будут взяты по двум временным интервалам длиной один год и разбиты на две части по шесть месяцев. Первый набор - с первого января 2017 года по 31 декабря 2017 года, его середина придется на обвал индекса Dow-Jones, ознаменовавший начало экономического кризиса.
Второй - с 1 июля 2016 по 30 июня 2017. На протяжении всего 2016 года индекс Dow-Jones демонстрировал стабильный рост.
Рисунок 6 индекс Dow-Jones, временные интервалы
Эксперимент
Эксперимент заключается в том, чтобы программными методами собрать реальные данные об индексе Dow-Jones, за определенные выше промежутки времени и обработать их так, чтобы можно было на их основе построить сетевую модель фондового рынка, идентифицировать в этой сетевой модели сетевые структуры и сравнить их по F1 мере. Программный код, приложенный к данной работе, выполнен на Python 2.7.
Сбор данных
Все данные в работе взяты из открытого источника с помощью библиотеки quandl для python. (https://www.quandl.com/api/v3/datatables/WIKI/PRICES.csv)
Данные, полученные таким образом, могут содержать ошибки - пустые или нечисловые значения в таблице. Для замены пропущенного значения будем использовать среднее арифметическое его соседей.
Используемые алгоритмы и функции
С полным кодом программы можно ознакомиться в приложении. Далее будут описаны основные алгоритмы и функции, использованные в программе.
Cliques(graph, net, k) - функция, возвращающая граф сменности для графа, состоящего из k клик, обладающих наибольшим весом. Для того чтобы определить клики, используется алгоритм Брона-Кербоша, получающий на вход дополняющий граф к тому, в котором нужно найти клики.
MST(W) - функция, возвращающая граф смежности для максимального остовного дерева в графе W. Для поиска максимального остовного дерева используется алгоритм Прима.
Индекс Dow-Jones
Один из старейших фондовых индексов США - индекс Dow-Jones построен по 30 наиболее влиятельным компаниям Америки. Индекс составляется редакцией газеты The Wall Street Journal.
|
3M Co |
MMM |
|
|
American Express |
AXP |
|
|
Apple |
AAPL |
|
|
Boeing |
BA |
|
|
Caterpillar |
CAT |
|
|
Cisco Systems |
CSCO |
|
|
Chevron Corp. |
CVX |
|
|
Coca-Cola |
KO |
|
|
E.I. du Pont de Nemours & Co |
DD |
|
|
Exxon Mobil |
XOM |
|
|
General Electric |
GE |
|
|
The Goldman Sachs Group |
GS |
|
|
Home Depot |
HD |
|
|
Intel Corp |
INTC |
|
|
International Business Machines |
IBM |
|
|
JPMorgan Chase and Co |
JPM |
|
|
Johnson & Johnson |
JNJ |
|
|
McDonald's Corp. |
MCD |
|
|
Merck & Co |
MRK |
|
|
Microsoft Corp |
MSFT |
|
|
Nike |
NKE |
|
|
Pfizer |
PFE |
|
|
Procter & Gamble |
PG |
|
|
Travelers |
TRV |
|
|
UnitedHealth Group |
UNH |
|
|
United Technologies |
UTX |
|
|
Verizon Communications |
VZ |
|
|
Visa |
V |
|
|
Wal-Mart Stores |
WMT |
|
|
Walt Disney |
DIS |