Дипломная работа: Количественный рекуррентный анализ в обнаружении экстремальных событий в социальных сетях

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

1. Тот факт, что задействован динамический механизм, часто существенно увеличивает интенсивность экстремальных событий по сравнению с редкими событиями, вызванными чисто случайными процессами. Это проявляется в свойствах тяжелого хвоста соответствующего распределения вероятностей.

2. Экстремальные события обычно связаны со сложными хвостами в функции плотности вероятности. Это сложность отражает тот факт, что существует основной динамический механизм, имеющий форму нелинейный перенос энергии, который не может действовать одинаково для всех интенсивностей экстремальных событие. Например, в энергосберегающей системе, такой как нелинейные волны, хотя нестабильности могут привести к экстремальным событиям, они не могут получить сколь угодно большие величины из-за конечной энергии.

3. Экстремальные события часто связаны с определенной временной шкалой, в которой они развиваются. Этот временной масштаб определяется показателем Ляпунова связанной с ним неустойчивости, масштаб времени, связанный с нелинейным переносом энергии. Определив природу нестабильности, можно отслеживать соответствующий показатель Ляпунова и использовать его в качестве предвестника предстоящего экстремального события.

4. С точки зрения анализа, редкие события могут быть эффективно изучены с использованием статистических инструментов. Тем не менее, для экстремальных явлений такой анализ не сможет уловить статистическая сложность, обусловленная наличием нетривиальных динамических явлений. Смешанный анализ с учетом динамики и статистики имеет важное значение для этого случая.

На рисунке 5 представлена типичная система, демонстрирующая экстремальные события из-за внутренней нестабильности. Первый компонент представляет собой стохастический аттрактор или, в более общем случае, набор, в котором состояние системы находится большую часть времени, представленное в коричневой заштрихованной области. Это может быть сформировано из-за постоянных неустойчивостей (хаотическая динамика), стохастических параметров или стохастического возбуждения системы. Второй компонент - область нестабильности, представленная зеленым цветом. Когда динамическая система попадает в эту окрестность, происходит быстрый рост определенных наблюдений, то есть формирование экстремальных явлений, вызванных нелинейными эффектами. Эти большие скачки проявляются в функции плотности вероятности наблюдаемых режимов с тяжелыми хвостами (рисунок). Стоит обратить внимание, что область неустойчивости может иметь конечную протяженность в фазовом пространстве, и это будет отражаться как конечная протяженность тяжелого хвоста.

Рисунок 5. Динамическая система с экстремальным событием

Большое количество динамических систем демонстрирует экстремальные события из-за переходных неустойчивостей, которые случайным образом срабатывают, когда система развивается в своем хаотическом аттракторе. Такой хаотический аттрактор образуется, например, в турбулентных потоках жидкости из-за постоянных неустойчивостей (т.е. положительных показателей Ляпунова) и диссипации. В этом случае возможной причиной формирования экстремальных явлений является случайный запуск ненормальной динамики [34]. В нелинейных волнах мы имеем не хаотический аттрактор, а набор возможных состояний, образованных случайностью, вызванной случайной суперпозицией.

Если рассматривать живой пример, то самым простым типом экстремального события является экономический пузырь, характеризующий скачкообразное изменение цен на акции или другие виды товаров. Nasdaq определяет экономический пузырь как: «Рыночный феномен, характеризующийся скачками цен на активы до уровней, значительно превышающих базовую стоимость этого актива. Пузыри часто трудно обнаружить в реальном времени, потому что есть разногласия по поводу фундаментальной стоимости актива».

Тремя яркими примерами экономического пузыря являются тюльпаномания, Японский финансовый пузырь и стоимость биткоина.

Пузырь тюльпаномании (рисунок 6) 1630-х годов в Голландии может показаться довольно логичным, ведь биоразлагаемые вещества имеют ограниченный период внутренней ценности, однако в период тюльпаномании луковицы тюльпанов продавались по ценам, которые превышали стоимость роскошных домов и в десятки раз превосходили годовой оклад квалифицированного мастера. Согласно историческим данным, с конца 1636 г. до начала 1637 г. цены выросли в 10 раз, а затем в мае 1637 г. упали на 99%.

Рисунок 6. Цены на тюльпаны в 1636-1637 годах

Пузырь 1986 года на рынке недвижимости Японии (рисунок 7). Спад в Японии в 1986 году был обусловлен повышением курса йены на целых 50%, что привело к вступлению Банка Японии в эпоху существенной денежно-кредитной политики, которая, как утверждают многие, сохраняется до сегодняшнего дня. В результате мер по аккомодации Банка Японии рынки были заполнены дешевым финансированием, что привело к трехкратному росту стоимости земли и акций в конце 80-х годов.

Рисунок 7. Индекс Nikkei 225

Пузырь лопнул в начале 90-х. Цены на активы рухнули в 1992 году, Nikkei упал на 50% к августу 1990 года. В то время как инвесторы остались с большими потерями на рынках, рост неработающих кредитов сильно ударил по финансовым институтам, что привело к «потерянному десятилетию» Японии.

И третий пример курс биткоина (рисунок 8). Как хорошо заметно на рисунке после резкого роста цен на данную криптовалюту последовал столь же резкий спад цен.

Рисунок 8. Курс биткоина

Именно из-за подобных экстремальных событий многие исследователи пытаются найти надежные методы прогнозирования их возникновения.

Поскольку работа с социальными сетями подразумевает текстовые данные, то для дальнейшего применения рекуррентного анализа требуется эти данные преобразовать во временной ряд. Именно для этого требуется провести анализ текста и его преобразование.

Анализ текста - это автоматизированный процесс, который позволяет системам извлекать и классифицировать информацию из текста, такую как твиты, электронные письма, заявки в службу поддержки, обзоры продуктов, ответы на опросы и т.д.

Сортировка и анализ данных - это повторяющийся, трудоемкий и дорогостоящий процесс, если выполнять его вручную. Представьте попытку обработать миллионы ежедневных транзакций руками сотрудников какой-нибудь компании. Именно поэтому, когда подобные операции выполняются на машинах, можно автоматически анализировать большие объемы текста, экономя время и деньги, предоставляя больше информации о бизнес-данных и автоматизации процессов.

Существуют разные методы анализа текста. Во-первых, рассмотрим более простые методы.

· Частотный анализ может использоваться для перечисления наиболее часто встречающихся слов или понятий в данном тексте. Это может быть полезно для ряда случаев, например, для анализа слов или выражений, которые клиенты чаще всего используют в разговорах о поддержке, например, если слово «доставка» встречается чаще всего, это может указывать на наличие проблем со службой доставки компании.

· Словосочетания: данный метод помогает определить слова, которые обычно встречаются вместе. Например, в отзывах клиентов на веб-сайте бронирования отелей слова «воздух» и «кондиционирование» чаще встречаются вместе, а не появляются по отдельности. Биграммы (два смежных слова, например, «кондиционер» или «поддержка клиентов») и триграммы (три смежных слова, например, «нет на работе» или «продолжение следует»), являются наиболее распространенными типами словосочетания, которые используют при анализе. Словосочетания могут быть полезны для выявления скрытых семантических структур и улучшения детализации представлений, считая биграммы и триграммы одним словом.

· Соответствия помогают определить контекст и примеры слов или набора слов. Например, ниже на рисунке 9 приведено соответствие слова «simple» в наборе обзоров приложений:

Рисунок 9. Примеры соответствия слова «simple»

В этом случае соответствие слова «simple» может дать нам быстрое понимание того, как рецензенты используют это слово. Оно также может быть использовано для расшифровки неоднозначности человеческого языка при рассмотрении того, как слова используются в разных контекстах, а также в состоянии анализировать более сложные фразы.

Теперь коснёмся более продвинутых методов: классификацией текста и извлечением текста.

Классификация текста - это процесс присвоения предопределенных тегов или категорий неструктурированному тексту. Он считается одним из наиболее полезных методов нейролингвистического программирования, потому что он настолько универсален и может организовывать, структурировать и классифицировать практически все.

Наиболее распространённые задачи классификации текста следующие:

· Анализ настроений

· Анализ темы

· Классификация языка

· Поиск намерений

Извлечение текста является еще одним широко используемым методом анализа текста для получения информации из данных. Он включает в себя извлечение фрагментов данных, которые уже существуют в любом данном тексте, поэтому, если вы хотите извлечь важные данные, такие как ключевые слова, цены, названия компаний и спецификации продукта, вы должны обучить модель для автоматического обнаружения этой информации. Извлечение текста часто используется вместе с классификацией текста, чтобы компании могли одновременно классифицировать свои данные и извлекать информацию. Существуют разные модели извлечения для разных типов целей, которые перечислены ниже.

· Извлечение ключевого слова

· Признание сущности

· Смысловое значение

· Кластеризация

В данной работе основным методом анализа текста будет частотный анализ, который позволит определить с какой частотой нужное слово встречается в тексте (или же сколько твитов, если рассматривать социальную сеть Twitter, в день содержат нужное слово), чтобы в дальнейшем использовать это для построения временного ряда и его анализа с помощью рекуррентных диаграмм.

Рекуррентная диаграмма - это продвинутый метод нелинейного анализа данных, визуализация (или график) квадратной матрицы, в которой элементы матрицы соответствуют тем временам, когда состояние динамической системы повторяется (столбцы и строки соответствуют определенной паре времени). Технически, RP обнаруживает все времена, когда траектория фазового пространства динамической системы достигает примерно одной и той же области в фазовом пространстве.

Естественные процессы могут иметь отчетливое повторяющееся поведение, например периодичности (как сезонные циклы или циклы Миланковича), но также и нерегулярные цикличности (как южная осцилляция). Более того, повторяемость состояний в том смысле, что через некоторое время состояния произвольно близки, является фундаментальным свойством детерминированных динамических систем и типична для нелинейных или хаотических систем. Повторяемость состояний в природе известна давно, а также обсуждалась в ранних публикациях [32].

Экман и соавторы в 1987 представили инструмент, который может визуализировать повторение состояний в фазовом пространстве. Обычно фазовое пространство не имеет измерения (не считают двухмерных и трёхмерных пространств), которое позволило бы его отобразить. Многомерные фазовые пространства могут быть визуализированы только проекцией в двух- или трехмерные подпространства. Тем не менее, инструмент Экмана позволяет исследовать m-мерную фазовую траекторию посредством двумерного представления ее внешних значений. Такое повторение состояния одного момента во времени в другой момент отмечается в двумерной квадратной матрице точками с единицами и нулями (черные и белые точки на графике), где обе оси являются осями времени. Это представление называется рекуррентной диаграммой. Такой RP может быть математически выражен как:

где N - количество возможных состояний , - предельное расстояние, функция Хевисайда.

На рисунке 10 представлен сегмент траектории фазового пространства системы Лоренца (для стандартных параметров ) с использованием трех компонентов и соответствующей рекуррентной диаграммы. Точка траектории в j, которая попадает в окрестность (серый круг в (A)) данной точки в i, считается точкой повторения (черная точка на траектории в (A)). И тем самым отмечается точкой на рекуррентной диаграмме справа. Точка вне окрестности (маленький кружок в (A)) вызывает белую точку в RP.

Рисунок 10. Траектория фазового пространства системы Лоренца (а), рекуррентная диаграмма для системы Лоренца (б)

Помимо стандартного рекуррентного графика имеются и его вариации, которые сейчас и будут рассмотрены.

И всё-таки наиболее часто используемый окрестность - это окрестность с фиксированным радиусом .

В рекуррентных диаграммах такое впервые было использовано Збилутом в 1991. Фиксированный радиус означает, что в результате получается симметричная диаграмма. Тип окрестности, который следует использовать, зависит от приложения. Особенно в приложениях кросс-рекуррентных диаграмм, соседство с фиксированной окрестностью будет играть важную роль.