Введение
Экстремальные события наблюдаются во множестве природных и инженерных систем. Примеры включают океанические волны-убийцы [6], экстремальные погодные условия [39], землетрясения и перегрузки в электрических сетях [5]. Эти события связаны с резкими изменениями в состоянии системы и часто вызывают неблагоприятные экологические и финансовые последствия. Таким образом, прогнозирование и смягчение экстремальных событий крайне желательны.
Есть несколько нерешенных проблем в борьбе с экстремальными событиями. Эти события часто возникают спонтанно, с незначительными или без видимых признаков раннего предупреждения. Это делает их раннее предсказание на основе прямых наблюдений особенно трудной задачей [42]. В определенных задачах, таких как землетрясения, надежные математические модели, способные предсказывать экстремальные события, пока недоступны [2].
В других областях, таких как прогнозирование погоды, где имеются более продвинутые модели, точные прогнозы требуют детального знания текущего состояния системы, которое обычно недоступно. Частичное знание текущего состояния вместе с хаотической природой системы приводит к неопределенности в будущих предсказаниях. Эти неопределенности особенно значимы во время возникновения экстремальных событий.
Кроме того, модели сложных систем обычно настраиваются с использованием методов ассимиляции данных. Это включает в себя выбор параметров модели, чтобы ее прогнозы соответствовали существующим эмпирическим данным. Однако эффективность ассимиляции данных ограничена, когда речь идет о редких экстремальных событиях, данных на которые не столь много.
Эти проблемы моделирования и прогнозирования экстремальных событий остаются в значительной степени нерешенными. Именно с целью обнаружения подобных событий за счёт рекуррентного анализа и проводится данное исследование.
Все определения, которые понадобятся по ходу исследования, будут рассмотрены в теоретическом разделе данной работы. В данном же подразделе стоит остановиться лишь на тех определениях, которые позволят лучше раскрыть саму тему.
Во-первых, одно из определений для количественного рекуррентного анализа (recurrence quantification analysis, RQA) гласит, что это метод анализа данных, который определяет количество и продолжительность повторений динамической системы, представленной ее траекторией фазового пространства. То есть это один из способов исследования данных, основанный на траектории системы в фазовом пространстве.
Во-вторых, рассмотрим определение для экстремального события, по которому это событие во времени, характеризующееся резким изменением в состоянии системы.
Таким образом, в работе будут исследованы данные из социальных сетей с помощью данного метода анализа для обнаружения событий, при которых состояние системы подвержено резкому изменению.
С учётом тематики работы и вышеуказанных определений становится ясна область проведения исследования, а именно работа с данными, динамическими системами. Исходя из всего этого можно вывести и цель, которую будет преследовать данная работа.
Цель исследования - проведение рекуррентного количественного анализа в социальных сетях для обнаружения экстремальных событий.
Для выполнения данной цели были поставлены следующие задачи:
1. Изучить RQA и инструменты текстового анализа
2. Получить данные из социальных сетей
3. Провести текстового анализа данных
4. Провести анализ рекуррентных диаграмм
5. Применить RQA на получившихся данных
6. Обнаружить экстремальные события
Существует несколько проблем, с которыми приходится столкнуться при прогнозировании или предсказании поведения системы, а именно:
1. Реально существующие системы нелинейны, что усложняет работу с ними, а также уменьшает количество методов, применимых для анализа таких систем.
2. Из предыдущего пункта вытекает и другая проблема. Большинство современных методов дают результаты для упрощённых или идеализированных моделей, что сильно сказывается на точности таких исследований.
3. Многие методы анализа требуют стационарных рядов данных, что требует либо преобразования нестационарных данных, либо отказ от работы с ними.
4. В качестве заключительной проблемы стоит отметить необходимость в длинных рядах данных, поскольку разные методики отталкиваются от существующих данных, тем самым требуя больше информации для точности прогнозов.
И рассматриваемый в данной работе метод, а именно рекуррентный количественный анализ позволяет обойти указанные проблемы, поскольку этот довольно молодой подход к анализу систем не требует ни стационарных, ни длинных временных рядов. Кроме того, он позволяет визуализировать многомерные системы и работать с ними, что в итоге положительно сказывается на точности анализа.
Рекуррентные диаграммы помогают определить характер процесса, происходящего в системе, наличие и влияние шума, дрейфа, повторяющихся и затухающих состояний, возникновение экстремальных событий, а также присутствие циклов или периодов. С помощью количественного анализа на диаграммах можно отобразить несколько мер на основе плотности точек, диагоналей и вертикальных (горизонтальных) линий. Стоит отметить, что пока не существует удовлетворительной теория применения рекуррентных диаграмм и их количественных показателей. Благодаря чему данный метод сам по себе является областью для исследований.
В последние годы всё больше исследователей становятся заинтересованы в данном методе и стараются применить его на практике, но во-первых, практически все статьи и работы публикуются в англоязычных журналах, а во-вторых, практически все они связаны с поиском экстремальных событий (экономических пузырей) в финансовом секторе, хотя возможности для применения данного подхода куда шире.
Объектом данного исследования является рекуррентный количественный анализ.
А предмет исследования - применение рекуррентного количественного анализа для обнаружения экстремальных событий.
Рассуждая о практическом применении данного исследования, стоит разбить его на две составляющие (именно так и будут разбиты главы этой работы): теоретическая часть и практическая.
Как уже было сказано, в данный момент не так много работ и статей по применению данного метода анализа вообще и в русскоязычном научном обществе в частности. А помимо этого, и область, к которой будет применён рекуррентный количественный анализ, отличается от часто освещаемой в журналах и научных статьях. Таким образом, сами теоретические наработки данной работы могут стать фундаментом для будущих исследований.
Практическая область применения позволит продемонстрировать возможности данного метода не только в теории, но и на практике, тем самым расширив возможности для предсказания экстремальных событий с числовых до текстовых данных.
1. Теория рекуррентного анализа
Хаотические явления, как временные, так и пространственные, повсеместно распространены в физической, химической и биологической областях и были объектом интенсивных исследований в последние десятилетия. Это необычайное усилие породило широкий спектр подходов, основанных на теории нелинейных систем и бифуркациях. По сути, можно разделить хаос на две категории: изменяющийся во времени и пространственно-временное изменение распределенных систем, где подобные системы демонстрируют спонтанное появление пространственных структур, таких как структуры Тьюринга, бегущие и спиральные волны и турбулентность [43] (пример на рисунке 1).
Рисунок 1. Структуры Тьюринга
В случае временной эволюции хаотических систем, когда модель исследуемой системы известна, методы, которые основаны на нелинейном анализе и теории бифуркаций, позволяют надлежащим образом охарактеризовать нелинейные явления. С другой стороны, когда можно записать только временное изменение состояния системы, мощным подходом является анализ временных рядов с точки зрения динамических систем. Этот подход разработан в рамках анализа нелинейных временных рядов и состоит в возможности реконструкции траектории фазового пространства, исходя из имеющихся наблюдений [17].
Имея дело с пространственно-распределенными системами, некоторые авторы [11] показали, что критическим условием для формирования паттерна является локальное самоусиление (эффект активации на ближнем расстоянии) и торможение на большом расстоянии (истощение, распространяющееся на более широкий диапазон). Например, в случае биологических паттернов подход к моделированию крепко связан с наличием многомасштабных явлений. В этом случае большинство моделей описывается системой дифференциальных уравнений в частных производных, учитывающих реакции и диффузионные процессы. Такие уравнения широко изучены и, хотя аналитические решения не всегда легко доступны, механизмы формирования паттернов хорошо известны с математической точки зрения.
Однако при изучении неизвестной динамической пространственно-временной системы, из которой доступна только частичная информация, к примеру, имеются наблюдения за одной или несколькими переменными пространственного состояния (или их комбинацией) и доступны несколько видов данных, возникает важная проблема. Подобная проблема восстановления пространственного состояния и идентификации модели пространственно-временной динамической системы была исследована в рамках динамических систем в [13], а метод пространственного прогнозирования был предложен в [24]. В таких случаях приходится сталкиваться с проблемой понимания динамики системы, используя только ограниченное количество данных. Фактически, для реальных систем уравнения, описывающие динамику системы, часто не известны, и проблема формирования и анализа структуры может быть решена путем восстановления информации о базовой динамической системе с помощью набора измерений или доступных данных. В некоторых случаях найти значение некоторых параметров системы путем решения подходящих обратных задач можно путем оценки статистических моделей по данным: например, оценка длины волны и скорости бегущих волн в экологических моделях.
Методология идентификации, анализа и классификации сложных паттернов, таких как тьюринговые и турбулентные паттерны, была предложена в [9]. Метод заключается в расширении рекуррентного графика на двумерное пространство [7] и рекуррентного количественного анализа (RQA) [27], обычно применяемого для изучения нелинейных временных рядов.
В данной работе как раз и будут описаны рекуррентные диаграммы, а также интерпретированы меры рекуррентного количественного анализа, которые могут помочь в прогнозировании.
Структура данного раздела выглядит следующим образом: пять подразделов, каждый из которых посвящён разным аспектам:
1. Посвящён истории и существующим исследованиям рекуррентного количественного анализа
2. Будут рассмотрены экстремальные события и их свойства
3. В нём рассматриваются инструменты текстового анализа и преобразования текста в удобные для исследования данные
4. В данном подразделе вводятся рекуррентные диаграммы (recurrence plot, RP)
5. В конце рассмотрим возможности применения рекуррентного количественного анализа и его мер для обнаружения экстремальных событий.
В заключении раздела небольшие выводы по теоретической части работы.
Вначале немного истории, а также опишем исследования, связанные с понятием рекуррентности. Технике, известной как рекуррентные диаграммы, уже 32 года. Однако рекуррентность изучалась и использовалась задолго до этого. Календарь Майя - один из примеров, где в качестве основной идеи можно обнаружить принцип повторения. Рекуррентность или повторяемость встречается в самых разных аспектах природы и общественной жизни.
С появлением современной математики в 19 веке было обнаружено фундаментальное свойство консервативных динамических систем - рекуррентность. Пуанкаре сформулировал свой «тезис» в работе, связанной с задачей трёх тел, которая принесла ему приз, спонсируемый королём Швеции Оскаром II. Пуанкаре обнаружил, что «В этом случае, пренебрегая некоторыми исключительными траекториями, возникновение которых бесконечно маловероятно, можно показать, что система повторяется бесконечно много раз так близко, как хотелось бы, к ее начальному состоянию».
Однако ещё более полувека пришлось ожидать до тщательного изучения рекуррентности за счёт численного моделирования и реальных измерений, поскольку до появления мощных компьютеров такие столь сложные исследования были попросту невозможны. В качестве примера можно взять систему Лоренца, которая была одной из первых численных моделей, демонстрирующих рекуррентность и хаотическое поведение [21]. Повторяемость была проанализирована с помощью разных методов:
· отображения Пуанкаре [35], которое является проекцией площади фазового пространства вдоль траектории системы (рисунок 2а).
· графика разделения пространства и времени [36], данный график демонстрирует насколько большим должно быть временное расстояние между точками, чтобы можно было предположить, что они образуют независимые выборки в соответствии с инвариантной мерой (рисунок 2б).