Дипломная работа: Определение оптимальной размерности по временному ряду цен на финансовых рынках

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

В качестве тренировочной выборки было использовано 80% всех наблюдений, а оставшаяся часть использовалась в качестве тестовой. Полученные прогнозные значения для каждого из 6 вложенных измерений на первых 50 тестовых значений можно увидеть на Рис. 9.

Рис. 9

Как видно из Табл. 1, метод ближайшего соседа на тестовой выборке достигает , где - количество ближайших соседей, равное трем. Таким образом, прогнозные результаты выбранного метода превосходят случайное блуждание в среднем в раз.

Таблица 1. Значение MASE на тестовой выборке аттрактора Рёсслера

3.

Глава 4

Финансовые временные ряды

43.1 Метод вложенных координат на реальных финансовых данных

В этом разделе мы применим метод вложенных координат на реальных финансовых временных рядах. В качестве данных мы рассмотрим 30-минутные наблюдения валютного курса EURUSD из базы данных Interactive Brokers. Набор данных состоит всего из 52.5 тыс. наблюдений курса EURUSD в промежуток между 2015-01-01 до 2019-03-25. В качестве временного ряда мы будем использовать цены . Используемые данные можно увидеть на Рис. 10.

Рис. 10. Временной ряд EURUSD

Исходная выборка была поделена на три сета с пропорциями, указанными в Табл. 2.

Таблица 2. Исходные сеты данных EURUSD

Выборка

Пропорция

Длина выборки (кол-во точек)

Обучающая

60%

31 528

Валидационная

20%

10 510

Тестовая

20%

10  510

Таким образом, обучающая выборка будет использоваться для обучения модели, валидационная выборка для оптимизации свободных параметров модели вложенных координат и параметров классификатора, и тестовая выборка для окончательной имплементации модели.

43.2 Оценка временного лага

Для начала нам необходимо оценить параметр временного лага . Для этого рассчитаем первый локальный минимум функции взаимной информации (2.4.2) на тренировочной выборке.

Рис. 11. Оценка временного лага ф для EURUSD

Исходя из Рис. 11, первый локальный минимум функции взаимной информации приходится на временной лаг . Имея значение временного лага, мы можем приступить к оценке размерности вложения.

43.3 Оценка количества измерений

Так как в Главе 32.2.2 метод средних ближайших соседей (2.5.2) выдал более точную оценку размерности, используем его для оценки размерности вложения временного ряда EURUSD.

Рис. 12. Средние ложные соседи для EURUSD при лаге ф=138

Как видно из Рис. 12, критерий не стабилизировался для набора значений размерности вложения . В связи с этим имеет смысл оптимизировать значения свободных параметров и путем минимизации значения на валидационной выборке.

43.4 Оптимизация свободных параметров модели вложенных координат

Для выбора оптимальных значений параметров модели мы оценили значения на валидационной выборке для следующего набора значений временного лага и количества измерений :

Стоит отметить, что для получения более достоверных значений мы использовали скользящий контроль, реализованный в классе TimeSeriesSplit в библиотеке scikit-learn для Python. Данные из наших исходных тренировочных и валидационных сетов делятся на частей, затем на частях производится обучение, а на оставшихся данных тестирование. Процедура повторяется раз, как это изображено на Рис. 13.

Рис. 13. Скользящий контроль при k=4

Таким образом, исходные данные используются более равномерно, что очень помогает сократить долю оверфита на временных рядах.

Минимальные показатели для всех значений представлены в Табл. 3. В таблице также представлена статистика , которая показывает процент угаданных направлений предсказуемых значений.

Таблица 3. Минимальные значения MASE для значений d ? на валидационной выборке EURUSD

Можно заметить, что для всех значений минимальный приходится на временной лаг . В литературе часто предполагается, что финансовые временные ряды являются мартингалами, т. е. только последнее наблюдение влияет на текущую цену (Arlt & Arltovб, 2001). Математически это можно выразить как:

Полагается, что все изменения цен являются линейно независимыми. Другой способ выразить это:

Где разность мартингала и обычно предполагается .

В качестве оптимальной размерности вложения мы будем рассматривать , так как при чуть худшем значении по сравнению с , мы получаем заметное преимущество в , что может оказаться полезным для разработки торговой стратегии.

Тем не менее, результаты показывают, что прогнозные значения на валидационной выборке уступают случайному блужданию в среднем в раз. В последующей главе мы постараемся улучшить качество нашей прогнозной модели.

43.5 Вложение и предсказание

Используя параметры временного лага и размерности вложения , мы можем вложить исходные данные по Такенсу на основе формулы (2.2). Можно заметить, что при вложенные вектора напоминают по структуре Ганкелеву матрицу.

В качестве примера рассмотрим случайный вектор цен :

Тогда при и получаем два вложенных вектора :

;

Как уже упоминалось, в рамках нашей модели в качестве признака подается вектор для предсказания последующего вектора , однако так как часть элементов вектора уже присутствует в векторе , нам необязательно прогнозировать весь вектор, что увеличивает прогнозную точность модели. Результаты модели ближайших соседей на валидационной выборке изображены на Рис. 134.

Рис. 14. Прогнозные значения ближайших соседей (k=3) на валидационной выборке

Как видно из Рис. 134, метод ближайших соседей выдает константное прогнозное значение на протяжении долгого периода в валидационной выборке. Это, как правило, связано с тем, что в обучающей выборке не присутствовало похожих наблюдений, поэтому ближайший сосед выдает константный прогноз. Доказательство этому представлено на Рис. 145.

Таким образом, валютный курс EURUSD ни разу не превышал в обучающей выборке. Чтобы решить эту задачу, обучим регрессию опорных векторов (2.6.2) и посмотрим на ее прогнозные значения.

В качестве линейной регрессии опорных векторов мы будем использовать реализацию LinearSVR из scikit-learn для Python, а для нелинейной - NuSVR.

Рис. 15. Отсутствующий участок временного ряда EURUSD в тренировочной выборке

Стоит отметить, что в стандартной реализации NuSVR в качестве стандартного ядра используется радиально базисная функция:

Свободные параметры регрессии опорных векторов и были оптимизированы на сетке с помощью реализации GridSearchCV в библиотеке scikit-learn для Python. В качестве иллюстрации результаты линейной регрессии опорных векторов представлены на Рис.15. 16.

Рис. 16. Прогнозные значения линейной регрессии опорных векторов (С=1.0; е=0.0) на валидационной выборке

Результаты прогнозных значений обоих моделей представлены в Табл. 43.

Таблица 4. Значения MASE на валидационной выборке для EURUSD

Таким образом, линейная регрессия опорных векторов (LinearSVR) на валидационной выборке превосходит случайное блуждание в среднем в раз, в то время как нелинейная регрессия опорных векторов (NuSVR) в в раз, поэтому мы будем использовать ее как основную модель в следующем разделе.

43.6 Торговая стратегия

Оптимизировав нашу модель на валидационной выборке, мы можем приступить к разработке торговой стратегии на тестовой выборке, чтобы оценить предсказательную силу модели. В качестве торгового правила мы будем использовать знак предсказываемого значения на каждый момент времени: если , то мы покупаем EURUSD, а если меньше нуля - продаем EURUSD.

Стоит заметить, что наше торговая стратегия несет чисто иллюстративный характер, поэтому в качестве временного ряда мы будем использоваться цены , которые не учитывают спред между ценами и , что, как правило, сильно влияет на результаты модели на практике.

Как видно из Рис. 167, нелинейная регрессия опорных векторов угадывает всех движений на тестовой выборке. Также результаты нашей стратегии оказались лучше, чем простая стратегия купить и держать. Тем не менее, попробуем дальше снизить волатильность доходности стратегии.

Рис. 17. Результаты стратегии на тестовой выборке EURUSD

Для этого введем некий барьер , при превышении которого торговое правило будет активизироваться: если , наша модель будет торговать. Таким образомобразом, мы избавимся от волатильности доходности стратегии на небольших движениях курса EURUSD. Параметр был выбран на основе валидационной выборки и будет равняться .

Результаты модифицированного торгового правила представлены на Рис. 178.

Рис. 18. Результаты модифицированной стратегии на тестовой выборке EURUSD

Как видно из Рис. 178, свободный параметр влияет на количество сделок в стратегии и, следовательно, на волатильность доходности стратегии. Чем больше значение параметра , тем сильнее нужен торговый сигнал, чтобы стратегия начала торговать.

Глава 5

Заключение

Данная работа несла в себе цель исследовать метод вложенных координат для анализа одномерных финансовых временных рядов. Процесс, используемый в этом исследовании, не является единственным и представляет возможности для имплементации других методов для выбора значений свободных параметров модели вложенных координат и под-методов для прогнозирования вложенных векторов. Тем не менее, описанный в этой работе подход к анализу временных рядов валютного курса EURUSD показал, что преобразованный формат данных при временном лаге и размерности вложения позволяет довольно успешно применить различные алгоритмы машинного обучения, такие как метод ближайших соседей и регрессия опорных векторов. На основе этих методов мы смогли разработать примеры торговых стратегий, чтобы проиллюстрировать практическое применение представленного подхода.

В заключение рассмотрим ожидаемые результаты, представленные в Главе 1.4.

В отличие от высокоуровневых синтетических данных реальные финансовые временные ряды могут выдавать неоднозначную оценку свободных параметров модели вложенных координат

Действительно, на примере синтетической динамической системы аттрактора Рёсслера мы смогли точно определить свободные параметры временного лага (См. Главу 32.2.1) и размерности вложения (См. Главу 32.2.2), в то время как для реальных финансовых временных рядов было затруднительно сказать о достоверности полученных значений параметров.

Свободные параметры модели вложенных координат могут быть оптимизированы более эффективно с помощью «грубой силы» путем минимизации средней абсолютной масштабированной ошибки в некой области значений временных лагов и размерности измерений.

Наиболее оптимальные значения свободных параметров модели были в действительности получены путем оптимизации на валидационной выборке, выбрав набор параметров, соответствующий минимальному значению абсолютной масштабированной ошибки.

Точность предлагаемого метода ближайших соседей может быть ниже, чем у продвинутых алгоритмов машинного обучения, таких как бустинговые градиентные деревья или нейронные сети.

Одним из ограничений метода ближайших соседей является тот факт, что предсказательная сила метода сильна ограничена областью значений обучающей выборки, поэтому на участке валидационной выборки метод выдавал константное предсказание (См. Главу 43.5). Чтобы решить эту задачу, мы использовали нелинейную регрессию опорных векторов, однако в дальнейшем было бы перспективно рассмотреть более сложные алгоритмы машинного обучения.

Список литературы

1. Alligood, K. T., Sauer, T. D., & Yorke, J. A. (1996). Chaos (pp. 105-147). Springer New York.

2. Arlt, J., & Arltovб, M. (2001). Financial time series and their features.

3. Bontempi, G., Taieb, S. B., & Le Borgne, Y. A. (2012, July). Machine learning strategies for time series forecasting. In European business intelligence summer school (pp. 62-77). Springer, Berlin, Heidelberg.

4. Bradley, E., & Kantz, H. (2015). Nonlinear time-series analysis revisited.  Chaos: An Interdisciplinary Journal of Nonlinear Science,  25(9), 097610.

5. Cao, L. (1997). Practical method for determining the minimum embedding dimension of a scalar time series. Physica D: Nonlinear Phenomena, 110(1-2), 43-50.

6. Dean, T. L., & Wellman, M. P. (1991).  Planning and control. Morgan Kaufmann Publishers Inc.

7. Dionнsio, A., Menezes, R., & Mendes, D. A. (2006). Entropy-based independence test. Nonlinear Dynamics, 44(1-4), 351-357.

8. Fletcher, R. (1989). Practical methods of optimization. John Wiley & Sons.

9. Fraser, A. M., & Swinney, H. L. (1986). Independent coordinates for strange attractors from mutual information. Physical review A, 33(2), 1134.

10. Garland, J., James, R. G., & Bradley, E. (2016). Leveraging information storage to select forecast-optimal parameters for delay-coordinate reconstructions.  Physical Review E,  93(2), 022221.

11. Garland, J., James, R., & Bradley, E. (2014). Model-free quantification of time-series predictability.  Physical Review E,  90(5), 052910.