Дипломная работа: Определение оптимальной размерности по временному ряду цен на финансовых рынках

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

2

Правительство Российской Федерации

Федеральное государственное автономное образовательное учреждение высшего образования

"Национальный исследовательский университет "Высшая школа экономики"

Факультет мировой экономики и мировой политики

Образовательная программа ________Мировая экономика____

Выпускная квалификационная работа

На тему: Определение оптимальной размерности по временному ряду цен на финансовых рынках

Студент группы № 151

Темчук Ярослав Игоревич

(Ф.И.О.)

Научный руководитель

к.э.н. Камротов Михаил Владимирович

(должность, звание, Ф.И.О.)

Москва, 2019 г.

Аннотация

временной ряд регрессия лаг

С начала 21-ого века применение нелинейных методов анализа временных рядов можно найти в широком спектре таких научных областей, как инженерия, биология, социальные науки и т.д. Тем не менее, малое количество работ в области преобразования пространства состояний финансовых временных рядов может быть найдено на сегодняшний день, как правило, из-за строгих требований к данным как, например, размер периода выборки, равноудаленные наблюдения, отсутствие пропущенных данных и т.д. Это исследование направлено на применение разработанных и широко используемых в других областях науки методов вложенных координат для анализа временных рядов валютных курсов с использованием базовых алгоритмов машинного обучения в качестве модели прогнозирования. Исследование будет основано на высококачественных данных, взятых с базы данных Interactive Brokers. Таким образом, данное исследование несет в себе цель изучить возможности применения метода вложенных координат для финансовых временных рядов, которое впоследствии может оказаться полезным для специалистов в области автоматизированной торговли иностранной валютой.

Ключевые слова: валютные курсы, нелинейный анализ, вложенные координаты

Оглавление

1 Вступление5

1.1 Предпосылка 5

1.2 Обзор литературы6

1.3 Методология9

1.4 Ожидаемые результаты10

21. Теоретическая часть12

21.1 Нелинейные методы анализа временных рядов 12

21.2 Динамические системы, пространство состояний, орбиты и аттракторы систем 12

21.3 Вложение по Такенсу 14

21.4 Оценка временного лага 17

21.4.1 Функция автокорреляции 17

21.4.2 Функция взаимной информации 19

21.5 Оценка количества измерений 20

21.5.1 Ближайшие ложные соседи 21

12.5.2 Средние ложные соседи 23

12.6 Предсказание значений во вложенном пространстве 24

21.6.1 Ближайшие соседи 24

12.6.2 Регрессия опорных векторов 26

12.7 Оценка точности предсказаний 29

3 2. Синтетические примеры31

32.1 Синтетический пример анализа методом вложенных координат 31

23.2 Аттрактор Рёсслера 31

32.2.1 Оценка временного лага 33

32.2.2 Оценка количества измерений 34

32.2.3 Вложение и предсказание 35

43. Финансовые временные ряды37

43.1 Метод вложенных координат на реальных финансовых данных 37

34.2 Оценка временного лага 38

34.3 Оценка количества измерений 38

34.4 Оптимизация свободных параметров модели вложенных координат 39

34.5 Вложение и предсказание 41

34.6 Торговая стратегия 44

5 Заключение47

Список литературы

49

Глава 1

Вступление

Предпосылка

При попытке структурированно описать природные, социальные или финансовые явления ученые обычно сталкиваются с низкой точностью прогнозных значений, используя стандартные подходы анализа данных, которые зачастую предполагают стационарность наблюдаемого процесса (Kantz & Schreiber, 2004). Исходя из этого, с 1990-ых годов просматривается возрастающий интерес к разработке моделей нелинейного анализа, способных находить и описывать закономерности поведения динамических систем.

Основы для этого подхода были заложены Паккардом в 1980 и вскоре после этого формализованы Такенсом, который предложил реконструировать полную динамику сложной нелинейной системы из единого временного ряда, используя метод вложенных координат (Packard, 1980; Takens, 1981). Основываясь на этой концепции, детерминированный хаос стал популярной областью исследований, где ученые пытаются предсказать будущее поведение и в некоторых случаях даже реконструировать уравнение движения хаоса в естественных или лабораторных системах.

Фактически многие исследования сосредоточены на оценке двух самых необходимых параметров любой модели вложенных координат: количество измерений в преобразованном пространстве и временной лаг между наблюдениями, которые составляют координаты в этом пространстве (Bradley & Kantz, 2015; Bradley, Garland, & James, 2014). Однако корректная оценка этих параметров может оказаться нетривиальной для исследователей: требуется надлежащий уровень вычислений, внимание к требованиям по структуре данных, достаточные машинные мощности и толковая интерпретация результатов модели (Bradley & Garland, 2015). Кроме того, при работе с платформами для торговли иностранной валютой в режиме реального времени реализация метода вложенных координат для моделирования цельной динамики данных становится трудоемкой и, как правило, требует экспертной человеческой интерпретации, что противоречит идее неконтролируемых алгоритмических решений. Таким образом, представляется целесообразным оценить, какой из известных методов оценки параметров способен вывести наиболее оптимизированную прогнозную модель с точки зрения точности и вычислительной эффективности, особенно когда система предполагает работу в ускоренных масштабах времени.

В этой работе мы приводим сравнительный анализ различных моделей вложенных координат, оценивая их точность прогнозирования на временных рядах EURUSD. В частности, отбор параметров временного лага и количества измерений модели вложенных координат будет происходить как с помощью описанных в литературе эвристик, так и на основе оптимизации свободных параметров путем вычисления средней абсолютной масштабированной ошибки прогнозных значений, полученных традиционным и модифицированным методом Лоренца (Moore & Little, 2014), также широко известным как метод ближайших соседей.

Таким образом, в этом исследовании мы стараемся определить необходимую комплексность метода вложенных координат, что может оказаться применимым в области автоматизированных алгоритмов прогнозирования в режиме реального времени.

Обзор литературы

Учитывая множество макроэкономических и политических факторов, которые могут повлиять на дальнейший курс валютных курсов, представляется сложным найти какие-либо линейные модели для прогнозирования будущих значений на основе периодов в прошлом. Таким образом, целью данного исследования является изучение нелинейного аспекта временных рядов валютных курсов, основанном на предположении, что наблюдаемый процесс действительно порождается динамической системой. Для достижения этой цели в данном исследовании используется метод вложенных координат, который дает возможность описывать модели движения в системах более высокого измерения. На основе алгоритмов машинного обучения, используемых для оценки прогнозных значений по преобразованным данным валютного курса, мы изучим, как лучше выбрать параметры временного лага и количества измерений.

В литературе можно найти ряд исследований, в которых уделяется внимание методам нахождения свободных параметров для модели вложенных координат на основе временных рядов (Bradley & Kantz, 2015; Garland & Bradley, 2015; Kantz & Schreiber, 2004). Например, Брэдли и Кантц дали глубокий обзор существующих подходов к проведению нелинейного анализа временных рядов (Bradley & Kantz, 2015). В их исследовании они описывают не только способы оценки свободных параметров, но и инвариантные характеристики, которые следует учитывать при рассмотрении динамической системы. Обычно в любой модели вложенных координат есть два свободных параметра: количество измерений в преобразованном пространстве и временной лаг между наблюдениями, которые составляют координаты в этом пространстве. Среди возможных способов оценки параметров авторы отмечают использование «первого нуля автокорреляционной функции временного ряда» [13, стр. 4], что дает нам необходимый временной лаг, чтобы максимизировать линейную независимость вложенного вектора. Однако построение автокорреляционных функций требует предварительной обработки данных, чтобы соблюдалось условие стационарности, что может повлиять на точность прогнозной модели. Тем не менее, еще в 1986 Фразер и Свинни ввели альтернативное решение для устранения эффектов предварительной обработки данных путем использования первого локального минимума средней взаимной информации (Fraser & Swinney, 1986). С точки зрения оценки количества измерений в преобразованном пространстве Кеннел, Браун и Абарбанел в 1992 обнаружили, что метод ближайших ложных соседей (FNN) эффективен для определения минимального измерения, при котором динамика системы должным образом разворачивается (Kennel, Brown & Abarbanel, 1992). Хотя у методов на основе FNN есть свой недостаток: зачастую в финансовых временных рядах присутствует зашумленность наблюдений, которая может нарушать отношения между соседями, влияя на выбор результирующего измерения.

Стоить заметить, что вышеупомянутые исследования преимущественно включают синтетические многомерные хаотические наборы данных, как аттрактор Лоернца, Рёсслера и др., чтобы продемонстрировать предсказательную силу предлагаемой модели вложенных координат, однако синтетические динамические системы имеют мало общего с реальной динамикой финансовых временных рядов.

Хотя существует достаточное количество научных работ, исследующих различные стратегии нахождения свободных параметров, лишь немногие из них предоставляют спектр методологий прогнозирования, которые можно затем применять к вложенным данным. Бонтемпи, Тайеб и Боргне в своей книге рассуждают о применении ряда методов машинного обучения в контексте преобразованных данных в пространстве как альтернативу традиционным линейным статистическим моделям (Bontempi, Taieb & Borgne, 2012). В первую очередь авторы описывают стратегии для локальных задач обучения, такие как ближайшие соседи, которые используются для составления прогнозов на один шаг вперед без какого-либо предварительного знания о процессе. Литтл и Мур представили полезные модификации для модели ближайшего соседа (Moore & Little, 2014), которые также будут реализованы в нашем исследовании.

Исходя из обзора литературы становится очевидным, что представляется интересным реализовать широко используемую в экспериментальных дисциплинах модель вложенных координат на финансовых временных рядах, поскольку на данный момент было проведено малое количество исследований по применению нелинейных моделей анализа валютных курсов. Таким образом, целью данного исследования является изучение потенциального использования метода вложенных координат на исторических данных EURUSD.

Методология

Целью данного исследования является проанализировать оптимальную структуру модели прогнозирования финансовых временных рядов с помощью модели вложенных координат с точки зрения точности и требуемой вычислительной мощности. Такие аспекты, как теория информации, метрические и логические классификаторы машинного обучения будут использованы для калибровки свободных параметров модели. Поскольку модели прогнозирования на основе вложенных координат являются очень чувствительными к исходным данным (Bradley & Kantz, 2015), наше исследование будет проводиться на основе качественных данных из базы Interactive Brokers с минимальными предварительными изменениями, чтобы выделить только влияние вложенных векторов на параметры модели.

Среди причин для реализации модели вложенных координат является тот факт, что Гарланд, Джеймс и Брэдли уже использовали этот подход в своей исследовательской работе (Bradley, Garland, & James, 2014) и обнаружили, что модель не только обеспечивает надежную основу для обнаружения закономерностей в хаотических динамических системах, но и позволяет оценить количественную меру предсказуемости временных рядов, что помогает специалистам заранее определить являются ли исходные данные чрезмерно сложными для составления прогнозов и необходима ли их модификация.

Прежде всего, параметры временного лага и количества измерений будут оценены на обучающей выборке. Первый локальный минимум функции взаимной информации, предложенный Фразером и Суинни (Fraser & Swinney, 1986), будет использоваться для определения необходимого временного лага. Затем мы применим метод, основанный на принципе ближайшего ложного соседа (FNN), чтобы оценить минимальное количество измерений, где развертывается динамика системы.

Затем, начальный набор данных «нарезается» в соответствии с методом, обнаруженным Такенсом (Takens, 1981), используя оцененные свободные параметры временного лага и количества измерений . Наконец, мы применим модифицированную версию метода ближайших соседей для прогнозирования на тестовой выборке. Метрика средней абсолютной масштабированной ошибки будет использована, чтобы оценить или наша модель выдает результаты лучше, чем прогнозирование с помощью случайного блуждания.

Среди ограничений предлагаемого метода анализа можно выделить тот факт, что алгоритм ближайшего соседа является одним из самых простых алгоритмов машинного обучения, который не требует оптимизации на обучающей выборки, поэтому предсказательная сила метода может оказаться слабой для реальных финансовых временных рядов.

Тем не менее, более сложные алгоритмы машинного обучения уязвимы к явлению оверфита, когда модель выводит слишком сложные функции из ограниченного набора данных и не может делать точные прогнозы на тестовой выборке. Чтобы минимизировать эффект оверфита мы разделили исходные данные на тренировочную, валидационную и тестовую выборки, но это еще не гарантирует полного отсутствия эффекта.

Ожидаемые результаты

Мы ожидаем, что это исследование внесет вклад в академическое направление по применениям нелинейных методов анализа реальных хаотических процессов. Принимая во внимание тот факт, что реальные финансовые временные ряды редко используются в изучении динамических систем, это исследование направлено на реализацию модели вложенных координат, а также на оптимизацию свободных параметров модели для минимизации средних абсолютных масштабированных ошибок прогнозных значений.