Чтобы провести всесторонний анализ, мы рассмотрим ключевые характеристики модели вложенных координат - временной лаг и количество измерений , на основе данных по валютному курсу EURUSD. Использовав оценочные свободные параметры, мы преобразуем исходные данные и применим алгоритмы машинного обучения для прогнозирования на один шаг вперед на тестовой выборке.
Наши предварительные результаты могут указывать на три основных тенденции:
1) В отличие от высокоуровневых синтетических данных реальные финансовые временные ряды могут выдавать неоднозначную оценку свободных параметров модели вложенных координат.
2) Свободные параметры модели вложенных координат могут быть оптимизированы более эффективно с помощью «грубой силы» путем минимизации средней абсолютной масштабированной ошибки в некой области значений временных лагов и размерности измерений.
3) Точность предлагаемого метода ближайших соседей может быть ниже, чем у продвинутых алгоритмов машинного обучения, таких как бустинговые градиентные деревья или нейронные сети.
Таким образом, подобная работа может способствовать развитию области автоматизированных моделей торговли иностранной валютой.
Глава 2
1. Теоретическая часть
21.1 Нелинейные методы анализа временных рядов.
Нелинейный анализ временных рядов включает в себя набор методов, которые позволяют извлечь информацию о динамической составляющей рассматриваемого процесса. В целом подобный анализ опирается на метод вложенных координат, основы которого были заложены в 1980 году, когда детерминированный хаос начал набирать популярность в научных кругах и все больше исследовался в естественных и лабораторных системах. С тех пор нелинейный анализ временных рядов стал широко использоваться в различных отраслях науки и техники.
21.2 Динамические системы, пространство состояний, орбиты и аттракторы систем
Методы нелинейного анализа временных рядов в нашем исследовании во многом были мотивированы теорией динамических систем в фазовом пространстве, изложенной Такенсом в его работе (Takens, 1980). Чтобы разобрать метод вложенных координат прежде всего необходимо понимать, что из себя представляют динамические системы.
Определение 1. (Динамическая система) Динамическая система -- это набор детерминированных функций, уравнений или правил, описывающих настоящее состояние в терминах прошлых состояний (Alligood, Sauer, & Yorke, 1996). Отдельное внимание стоит обратить на использование термина детерминированный. Хаотические системы являются подмножеством динамических систем и, следовательно, по определению являются детерминированными. Термин хаотический может вводить в заблуждение, так как за пределами сферы нелинейного анализа он обычно используется для описания систем, не несущих в себе какую-либо упорядоченную структуру. В теории хаоса, однако, этот термин относится к системам, имеющим очень упорядоченную структуру. Хотя хаотическая система может иметь сложное поведение и ее трудно предсказать, она все же детерминирована и полностью упорядочена в соответствии с функциями, уравнениями, правилами и предыдущими состояниями, как упоминалось выше. Тогда динамическую систему можно формально описать как пространство фаз или состояний , временное пространство и эволюционную функцию , для которой .
Определение 2. (Пространство состояний или фазовое пространство) Пространство состояний - это пространство динамических переменных. Состояние задается через , где Если динамические переменные являются дискретными, то пространство называется пространством состояний, в то время как если переменные являются непрерывными, то такое пространство называется фазовым пространством.
Например, одной из наиболее изученных синтетических динамических систем является отображение Эно, которое сопоставляет точке на плоскости новую точку по следующему закону:
Данное отображение имеет двухмерное пространство состояний с динамическими переменными и , два параметра и , которые для классического отображения Эно имеют значения и . Причем для классических значений отображение является хаотическим, в то время как для других может сходиться к периодической орбите.
Определение 3. (Орбита). Орбитой называют траекторию движения хаотической точки в наперед заданной системе пространственных координат.
Эволюционная функция включает в себя траекторию в пространстве возможных состояний системы. Точки, к которым протягивается траектория в пространстве называются аттракторами.
Определение 4. (Хаотический аттрактор) Хаотическим аттрактором называется подмножество пространства состояний динамической системы, к которому все траектории некоторой окрестности стремятся при времени, стремящемуся к бесконечности. Тогда подмножество некой орбиты можно описать следующим образом:
(2.1)
Таким образом, подмножество является аттрактором, если, двигаясь дальше по орбите мы можем бесконечное количество раз вернуться произвольно близко к этому подмножеству.
Временные ряды могут быть проекциями наблюдаемых состояний из динамической системы. Следовательно, многообразие этих динамических систем может содержать полезную информацию для понимания лежащих в основе явлений (Dean & Wellman, 1991). В нашем анализе одно из основных предположений заключается в том, что финансовые временные ряды относятся к динамическим системам.
21.3 Вложение по Такенсу
Метод вложенных координат по Такенсу позволяет восстановить временной ряд в пространство с бульшим количеством измерений, сохраняя при этом топологию исходного множества, порождающего значения временного ряда. Разумеется, реконструкция не будет идентична внутренней динамике, однако может все равно оказаться чрезвычайно полезной, потому что облако значений, полученных после восстановления временного ряда, имеет абсолютно такую же топологию, как и аттрактор динамической системы. Поскольку многие важные свойства динамических систем инварианты относительно диффеоморфизма Диффеоморфизм -- взаимно однозначное и гладкое отображение гладкого многообразия в гладкое многообразие , обратное к которому тоже является гладким., выводы, сделанные из восстановленной динамики, будут также верными для истинной динамики системы.
Теорема вложенных координат по Витни (Whitney, 1936) говорит о том, что все мерные множества могут быть вложены в мерное евклидово пространство. Такенс расширил теорему, предложив, что мерное множество, которое содержит в себе аттрактор , может быть вложено в . Теорема Такенса находит такую функцию , которая отображает мерное множество , где количество измерений во вложенном пространстве может быть .
Таким образом, вложение координат по Такенсу дает возможность получить непрерывное преобразование из исходного многообразия в , где является размерностью вложения, а матрицей траекторий.
Определение 5. (Матрица траекторий) Пусть - временной ряд, а матрица траекторий, состоящая из последовательности наблюдений из пространства состояний с количеством измерений и временным лагом :
(2.2)
Где каждая точка в пространстве представлена рядом в матрице траекторий.
Таким образом, метод вложенных координат по Такенсу имеет два свободных параметра - количество измерений и временной лаг . В оригинальной теореме вложенных координат для свободных параметров должны выполняться следующие требования:
Значение должно быть ненулевым и не быть кратным периоду любой орбиты. Однако на практике, когда используются финитные зашумленные временные ряды, требуется более высокого порядка, чтобы развернуть динамику системы. Например, в случае хаотического аттрактора Рёсслера (подробней в Главе 3) вложение с низким значением временного лага не будет отличаться от линии (См. Рис. 1).
Рис. 1. Вложение хаотической системы Рёсслера для различных значений ф
Стоит отметить, что ненадлежащим образом развернутые вложения топологически не сопряжены с истинной динамикой системы, что затрудняет выбор правильного значения .
Помимо основных требований из оригинальной теоремы вложенных координат в литературе также отмечают, что временной лаг должен быть достаточно большим, чтобы значение несло в себе дополнительную информацию по сравнению с , однако выбор слишком большого значения может привести к тому, что система будет нести в себе память о своем начальном состоянии (Perc, Kodba, & Marhl, 2005).
Количество измерений в восстановленном пространстве должно превышать , где - истинное измерение лежащей в основе динамики. Так как на практике значение редко бывает известным, в литературе можно найти большое количество эвристических методов, чтобы избежать затруднения на этом этапе. Подробнее эти методы будут рассмотрены далее в Главе 12.5.
Наблюдения в выборке для построения вложенных координат должны быть равноудалены друг от друга. Тем не менее, на практике базы данных с идеальным качеством временных рядов встречаются очень редко, поэтому одним из очевидных обходных путей будет интерполяция. Однако в нашей работе мы не будем прибегать к первичным обработкам данных, так как это грозит изучением смеси реальной и интерполированной динамики.
Последнее требование заключается в том, что процесс, порождающий значения в пространстве состояний системы, должен быть гладкой функцией. Так как формальные доказательства представляются невозможными из-за природы данных, бывает затруднительным понять или функция удовлетворяет теоретическим требованиям.
Хотя теоретические требования для оценки временного лага и измерения являются довольно прямолинейными, на практике оценка этих параметров представляет самую главную задачу, так как в литературе нет универсального подхода для их вычисления, которое во многом опирается на природу исходных данных. В последнее несколько десятилетий было разработано множество различных методов для оценки свободных параметров, поэтому мы рассмотрим только несколько примеров из этого набора.
21.4 Оценка временного лага
21.4.1 Функция автокорреляции
В традиционной практике выбор временного лага делают с помощью статистических методов, которые помогают измерить независимость -разделенных наблюдений временного ряда. Например, первый ноль автокорреляционной функции временных рядов возвращает наименьший , который максимизирует линейную независимость вложенных векторов. При этом автокорреляционная функция задается с использованием теоремы Хинчина-Колмогорова:
Где преобразование Фурье функции задается как:
Учитывая комплексное сопряжение:
Подставив и в автокорреляционную функцию, получаем:
(2.3)
Таким образом, автокорреляция задается преобразованием Фурье абсолютного квадрата .
21.4.2 Функция взаимной информации
В качестве альтернативы можно использовать первый локальный минимум средней взаимной информации (Fraser & Swinney, 1986).
Коэффициент взаимной информации представляет собой меру энтропии между двумя случайными величинами. Измеренные зависимости могут быть как линейными, так и нелинейными, что является явным преимуществом для выбора оптимального временного лага. Фразер и Суинни определили зависимость между и с помощью условной энтропии следующим образом:
Где - энтропия Шеннона:
Тогда получаем:
Где - плотность вероятности в момент времени (Shannon & Weaver, 1949).
Функция взаимной информации определяется как комбинация совместных и предельных вероятностей исходов события, увеличивая временной лаг между наблюдениями:
Основываясь на стандартном определении независимости, будет равняться нулю как, следовательно, и сама функция взаимной информации, если векторы будут независимыми. Если же векторы с временным лагом будут становиться все более зависимыми, тогда функция взаимной информации будет стремиться к бесконечности.
Поскольку функция взаимной информации основана на совместных функциях плотности вероятности, она является мерой глобальной зависимости, а не функцией отдельных временных векторов. Таким образом, выбор временного лага, который дает первый локальный минимум функции взаимной информации, обеспечивает независимость компонентов с максимальным количеством новой информации.
Оценка функции взаимной информации зависит от оценки функции плотности вероятности временного ряда с лагом. Общепринятым подходом является использования гистограммных оценок (Dionнsio, 2006), который равномерно взвешивает наблюдения в заданном окне. Если временной ряд содержит скопление наблюдений в заданном окне, гистограмма будет непоследовательно оценивать функции вероятностей. Однако так как одним из требований метода вложенных координат являются равноудаленные исходные данные, нам не придется варьировать размер окна в зависимости от тесноты расположения наблюдений.
21.5 Оценка количества измерений
После выбора значения временного лага , следующим шагом является оценка размера вложения . Как и в случае с временным лагом, бульшее количество измерений не обязательно лучше, так как один зашумленный участок временного ряда может повлиять на точек в измерении , поэтому наиболее безопасный подход взять наименьшее значение , которое выдает топологически правильный результат. Одним из подходов для оценки размера вложения является предложенный Кеннелом метод ближайших ложных соседей (Kennel, Brown & Abarbanel, 1992).
21.5.1 Ближайшие ложные соседи
Если мы вложим временной ряд, например, в два измерения, используя некий временной лаг , мы можем использовать координаты точек данных, чтобы проверить заметно ли изменилось расстояние между ними после вложения. Если расстояние между соседями заметно изменилось, то они называются «ложными». Когда расстояние перестает существенно изменяться при увеличении количества пространств, вложение оставляет форму аттрактора неизменной, что говорит о достаточном измерении для вложения.