Дипломная работа: Меры связи случайных величин и их применение в сетевом анализе

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Меры связи случайных величин и их применение в сетевом анализе

ВВЕДЕНИЕ

Задача идентификации сетевых структур - одна из важнейших при работе со сложными сетями. Ее решение необходимо для получения необходимой информации о природе сети, о ее параметрах, что в свою очередь необходимо для решения многих практических задач, например, задач прогнозирования при работе с сетевой моделью фондового рынка.

Последние несколько десятилетий фондовый рынок играет значительную роль в экономике, и как способ преумножить капиталы бизнесменов, и как один из самых точных и надежных индикаторов процессов, происходящих в экономике. Индексы рынка взлетают и падают, определяя периоды стабильного роста и оповещая мир о начале нового экономического кризиса.

Для решения задачи по прогнозированию событий на рынке ценных бумаг существуют различные подходы и модели. На эту тему написано множество статей, а у каждого игрока на рынке ценных бумаг есть своя собственная стратегия, которую он едва ли раскроет. В большинстве эффективных подходов к анализу фондового рынка используется сетевая модель рынка, в основе которой лежит переход от активов и информации об их стоимости на протяжении некоторого времени к сетям и графам, полученным на основе данных о случайных величинах. Как будет показано далее, построение сетевой модели во многом зависит от того, какая мера зависимости случайных величин лежит в ее основе, определяя вес ребер сети.

В данной работе будет проведено сравнение наиболее популярных функций зависимости на предмет их устойчивости к изменениям на рынке ценных бумаг и способности отражать действительную связь между активами различных компаний.

Цель работы

Сравнить различные меры зависимости случайных величин в приложении к сетевой модели рынка.

Задачи

· Выбрать меры зависимости для сравнения

· Собрать данные о доходности акций с фондового рынка США

· Построить сетевую модель рынка, используя различные метрики

· Построить отсеченный граф рынка для каждой из сетей

· Идентифицировать в полученных графах сетевые структуры:

o Клики

o Максимальное остовное дерево

· Сравнить полученные графы и сетевые структуры при помощи F1 меры

ГЛАВА 1. Методы анализа рынка

Первые рынки ценных бумаг начали появляться в конце 15, начале 16 веков. Одним из первых фондовых рынков можно считать Амстердамскую биржу, где Ост-Индская торговая компания продавала документы, дающие право на часть ее прибыли. Первая американская биржа появилась значительно позже, в 1791 в Филадельфии. Почти через год после этого стартовали торги на Нью-Йоркской бирже.

С момента появления первых фондовых рынков, брокеры находятся в поисках универсального инструмента, который позволил бы им предсказывать рост и падение цен на акции, сводя риски к минимуму и устремляя прибыль в бесконечность. Множество научных статей написаны с одной целью - разобраться, как ведет себя фондовый рынок, какие факторы влияют на изменение цен и как можно предугадать эти изменения. Все работы по анализу фондового рынка можно отнести к одному из двух методов - фундаментальный или технический подход.

Фундаментальный подход

Фундаментальный анализ - метод определения стоимости компании, основывающийся на данных о финансовых и производственных показателях ее деятельности. Традиционно анализу подвергаются: чистая прибыль, чистая стоимость, обязательства и денежный поток компании, а кроме того целый ряд макроэкономических параметров.

Инвесторы, использующие фундаментальный анализ, отталкиваются от идеи о несовершенности рынка. Так предполагается, что у компании есть две стоимости - реальная и рыночная, а их разница показывает, в какую сторону будут изменяться цены акций этой компании на рынке ценных бумаг. Акции компаний, чья реальная стоимость по оценкам инвестора ниже рыночной, называются недооцененными и выгодны для вложения, так как обещают прирост цены. Идеи и методы фундаментального анализа подробно описаны в книге Бенджамина Грэма и Дэвида Додда «Анализ ценных бумаг».

Технический подход

Технический анализ - метод определения цен акций на основе информации об изменении цен в прошлом в схожей ситуации. Основывается на гипотезе об эффективности рынка, постулируется, что все макро и микроэкономические факторы немедленно и в полной мере находят отражение в текущей цене акции, чем полностью противоречит фундаментальному анализу. Поэтому, в отличие от фундаментального анализа, технический анализ не рассматривает причины изменения цен, а лишь констатирует факт, что цена движется в определенном направлении, имеет положительный или отрицательный тренд.

Постулаты технического анализа:

· Движение цен на рынке учитывает всю информацию

Все факторы, влияющие на формирование цены, учтены в изменении цены

· Движение цен на рынке подчинено тенденциям

На первый взгляд каждое отельное движение цены - случайно, однако, движения за определенный промежуток времени подчинено тренду

· История повторяется

Участники рынка в схожих обстоятельствах поступают одинаково

Больше про технический анализ рынка ценных бумаг можно узнать из книги Майкла Н. Кана «Технический анализ. Просто и ясно»

На основе данных технического анализа инвестор делает вывод о том, как будет себя вести цена дальше. Для этого часто используют паттерны или модели, например «двойная вершина» или «флаг». Про работу с паттернами можно подробнее ознакомиться в книге «Успешный трейдинг. От нуля до первого миллиона» Дмитрия Михнова.

ГЛАВА 2. Сетевая модель

Сетевая модель рынка - одна из наиболее часто используемых моделей. В ней цена акции каждой компании представлена случайной величиной с неизвестным распределением, над которой течении некоторого времени ведется наблюдение. Таким образом, для N компаний на рынке и n дней наблюдения мы имеем N-мерный случайный вектор с длиной выборки n. Далее строится взвешенный граф, в котором вершины соответствуют элементам такого случайного вектора, а вес ребер определяет мера зависимости случайных величин на его вершинах, например выборочная корреляция Пирсона.

Меры зависимости

Мерой зависимости - функция, которая отражает силу связи двух случайных величин. Так как истинные распределения при работе с реальными данными не известны, будем говорить о корреляционной зависимости (статистическая взаимосвязь). Как упоминалось выше, мера связи будет определять вес ребра в сетевой модели рынка.

Корреляция Пирсона

Одной из наиболее распространенных мер связи является выборочная корреляция Пирсона.

Определение:

Пусть даны выборки , коэффициент корреляции Пирсона рассчитывается по формуле:

Где - выборочные средние и , , - выборочные дисперсии, .

Также корреляцию Пирсона называют теснотой линейной связности, она показывает, насколько хорошо одна из случайных величин может быть представлена как линейная функция другой. Так, для можно говорить о линейной зависимости, а для - о линейной независимости.

Корреляция Спирмена

Как и в случае с корреляцией Пирсона, корреляция Спирмана - мера линейной связи между случайными величинами. Однако, при определении силы связи используются не численные значения, а соответствующие им ранги. Коэффициент инвариантен по отношению к любому монотонному преобразованию шкалы измерения.

Определение:

Пусть даны выборки , коэффициент корреляции Спирмена рассчитывается по формуле:

Где - ранг наблюдения в ряду , - ранг наблюдения .

.

- строгая линейная зависимость

- строгая обратная линейная зависимость

Знаковая функция зависимости

Знаковая функция зависимости или знаковая корреляция - функция определяющая силу связи между случайными величинами и , как вероятность того, что их значение будет одновременно больше или меньше его математического ожидания.

Где .

Полный взвешенный и Отсеченный графы

Сеть - полный (каждая вершина соединена с каждой) взвешенный граф, вершины которого - случайные величины - соответствуют активам из индекса, характеризующего фондовый рынок. Вес ребра - корреляция между выборками активов, соответствующих вершинам этого ребра.

В ходе эксперимента будем использовать одношаговую процедуру генерации отсеченного графа - в отсеченный граф попадут ребра, вес которых выше некоторого порогового значения, заданного экспериментатором и выбранного эмпирическим путем.

Одношаговый алгоритм

Суть одношаговой процедуры в том, что в отсеченный граф попадают только ребра, вес которых превысит некоторое неизменное пороговое значение.

Так отсеченный граф G может быть построен по статистике T, с порогом с следующим образом:

Где , где .

Структуры и их значение

Целью создания сетевой модели, а соответственно и отсеченного графа является поиск и выявление сетевых структур, таких как клики и максимальные независимые множества для дальнейшего их изучения. Такие структуры нужны для получения информации о ситуации на рынке, что в свою очередь нужно для прогнозирования событий в будущем.

Клика

В теории графов кликой называют подмножество вершин, любые две из которых соединены ребром. В терминах фондового рынка - это группа компаний тесно связанных между собой.

Рисунок 1 клика размера 7

Рисунок 2 клика размера 11

Максимальное остовное дерево

Максимальное / минимальное остовное дерево графа - остовное дерево этого графа, с максимально / минимально возможным весом - суммой весов входящих в него ребер.

Рисунок 3 минимальное остовное дерево

Рисунок 4 минимальное остовное дерево

Рисунок 5 минимальное остовное дерево

ГЛАВА 3. Постановка эксперимента

Выбор данных

Реальные данные представлены в виде таблицы, где для каждого актива приведена информация по шести показателям на каждый рабочий день, в том числе: цена открытия, цена закрытия, скорректированная цена закрытия, объем продаж и прочее. Для построения сетевой модели будем использовать только скорректированную цену закрытия, как наиболее близкую к рыночной цене акции.

Построение сетевой модели предполагает работу только с частью активов, для уменьшения сложности операций. Наиболее репрезентативными можно считать активы, входящие в один из индексов фондового рынка. Для американского рынка традиционно используют индекс Dow-Jones.

Данные будут взяты по двум временным интервалам длиной один год и разбиты на две части по шесть месяцев. Первый набор - с первого января 2017 года по 31 декабря 2017 года, его середина придется на обвал индекса Dow-Jones, ознаменовавший начало экономического кризиса.

Второй - с 1 июля 2016 по 30 июня 2017. На протяжении всего 2016 года индекс Dow-Jones демонстрировал стабильный рост.

Рисунок 6 индекс Dow-Jones, временные интервалы

Эксперимент

Эксперимент заключается в том, чтобы программными методами собрать реальные данные об индексе Dow-Jones, за определенные выше промежутки времени и обработать их так, чтобы можно было на их основе построить сетевую модель фондового рынка, идентифицировать в этой сетевой модели сетевые структуры и сравнить их по F1 мере. Программный код, приложенный к данной работе, выполнен на Python 2.7.

Сбор данных

Все данные в работе взяты из открытого источника с помощью библиотеки quandl для python. (https://www.quandl.com/api/v3/datatables/WIKI/PRICES.csv)

Данные, полученные таким образом, могут содержать ошибки - пустые или нечисловые значения в таблице. Для замены пропущенного значения будем использовать среднее арифметическое его соседей.

Используемые алгоритмы и функции

С полным кодом программы можно ознакомиться в приложении. Далее будут описаны основные алгоритмы и функции, использованные в программе.

Cliques(graph, net, k) - функция, возвращающая граф сменности для графа, состоящего из k клик, обладающих наибольшим весом. Для того чтобы определить клики, используется алгоритм Брона-Кербоша, получающий на вход дополняющий граф к тому, в котором нужно найти клики.

MST(W) - функция, возвращающая граф смежности для максимального остовного дерева в графе W. Для поиска максимального остовного дерева используется алгоритм Прима.

Индекс Dow-Jones

Один из старейших фондовых индексов США - индекс Dow-Jones построен по 30 наиболее влиятельным компаниям Америки. Индекс составляется редакцией газеты The Wall Street Journal.

3M Co

MMM

American Express

AXP

Apple

AAPL

Boeing

BA

Caterpillar

CAT

Cisco Systems

CSCO

Chevron Corp.

CVX

Coca-Cola

KO

E.I. du Pont de Nemours & Co

DD

Exxon Mobil

XOM

General Electric

GE

The Goldman Sachs Group

GS

Home Depot

HD

Intel Corp

INTC

International Business Machines

IBM

JPMorgan Chase and Co

JPM

Johnson & Johnson

JNJ

McDonald's Corp.

MCD

Merck & Co

MRK

Microsoft Corp

MSFT

Nike

NKE

Pfizer

PFE

Procter & Gamble

PG

Travelers

TRV

UnitedHealth Group

UNH

United Technologies

UTX

Verizon Communications

VZ

Visa

V

Wal-Mart Stores

WMT

Walt Disney

DIS