· Целостность - наличие в системе дальних корреляций (индекс Хёрста (H) не равен 0,5)
· Склонность к катастрофам - вероятность катастрофических событий в системе превышает порог уровня значимости
О наличии этих свойств говорят несколько статистических индикаторов:
· Фрактальные сигналы - размерность Хаусдорфа ,
· Степенной закон распределения приращений
· Спектральная плотность ряда аналогична - шуму
· Автокорреляционная функция следует степенному закону
Вычисление основных индикаторов фрактальности временного ряда
Далее автору исследования необходимо доказать фрактальную природ временных рядов Twitter. Для временного ряда твитов-ретвитов необходимо вычислить несколько компонент для того, чтобы выяснить, обладает ли этот ряд фрактальными свойствами.
Для доказательства фрактальной природы сигнала и получения полезной информации относительно закономерностей ряда был вычислен индекс Хёрста (H) и фрактальная размерность .
Индекс Хёрста может принимать значение в диапазоне от 0 до 1 и в зависимости от него ряд обладает следующими свойствами:
· - ряд обладает антиперсистентностью, т.е. при наличие положительного тренда в прошлом, можно прогнозировать отрицательный тренд в будущем и наоборот
· - у ряда отсутствует память, т.е. он является стохастическим
· - ряд обладает персистентностью, т.е. свойством сохранять изначальный тренд. Чем ближе это значение к 1, тем более устойчив ряд и тем меньше в нем шумов
А
Б
Рис. 2 А. Временной ряд прироста количества твитов, ретвитов и упоминаний; Б. Временной ряд изменения скорости прироста количества твитов, ретвитов и упоминаний
Значения для рассматриваемой выборки оценивались при помощи метода R/S-анализа (Гарольда Хёрста) по следующему алгоритму:
1. Исходный временной ряд преобразуется в ряд логарифмических отношений
2. Преобразованный ряд разбивается на A смежных сегментов
3. Для каждого сегмента рассчитывается локальное выборочное среднее (Рис.3) и суммарное отклонение от среднего (Рис.4):
4. Далее в пределах каждого сегмента нужно рассчитать размах
5. Рассчитываем стандартное отклонение (Рис.5) и стандартное значение (Рис.6)
6. Для получения результатов нужно многократно повторить шаги описанные выше, начиная со второго, при это каждый раз увеличивая n: длину сегмента A, пока соблюдается условие
7. После проделанных операций мы можем оценить показатель R/S-анализа
В результате применения алгоритма были получены следующие значения: , где - топологическая размерность кривой на плоскости. Таким образом автор данного исследования может сделать вывод о том, что данный ряд является фрактальным (фрактальная размерность больше топологической) и является персистентным, то есть имеет свойство сохранять тренд (H > 0,5).
Необходимо также проверить распределение приращений ряда твитов-ретвитов на наличие «тяжелых хвостов», которые говорят о склонности ряда к катастрофам. На графике функции распределения (Рис. 6) видно, что эмпирические данные выходят за пределы функции плотности нормального распределения в промежутках , что является индикатором наличия «тяжелых хвостов».
Рис. 7 Нормированное распределение скорости прироста твитов
Обобщенный тест Д'Агостино-Пирсона также говорит о возможности отвергнуть нулевую гипотезу о нормальности распределения на пороге значимости a = 0,01 при значении статистики k2 = 6419,89
Еще одним подтверждением предположения о наличии «тяжелых хвостов» является их соответствие степенному закону (Рис. 7).
Рис. 8 Функция плотности распределения и кумулятивная функция распределения достаточно хорошо аппроксимируются прямой
Далее автору исследования необходимо определить тип шума, который присутствует в ряде. Для этих целей обычно применяется метод DFA (Detrended Fluctuation Analysis), который заключается в следующем:
1) Исходный ряд разбивается на N сегментов
2) Для каждого сегмента определяется уравнение прямой, аппроксимирующей ряд внутри этого сегмента (эта прямая является локальным трендом)
3) Вычисляется среднеквадратичная ошибка всех прямых по сравнению с исходными фрагментами ряда
4) Определяется скейлинговая экспонента которая является показателем степенного распределения, аппроксимирующего среднеквадратичную ошибку.
Полученный в результате применения алгоритма показатель говорит о наличии в данных фликкер-шума. Такой вывод можно сделать благодаря связи показателя с показателем в уравнении шума :
Такое значение из всех видов шума наиболее близко к фликкер-шуму , что говорит о наличии медленных процессов, оказывающих влияние на систему. Полученный с помощью алгоритма результат также совпадает с результатом, полученным в ходе аппроксимации функции спектральной плотности ряда прямой (Рис. 8) и соответствует значению индекса Хёрста для функции спектральной плотности , которое говорит о наличии отрицательной памяти в функции спектральной плотности и склонности к сменам знаков приращений. Спектральная плотность была получена путем применения к исходному ряду быстрого преобразования Фурье (FFT - Fast Fourier Transform).
Рис. 9 Аппроксимация графика спектральной плотности ряда прироста твитов с помощью прямой
Еще одной характеристикой временного ряда является соответствие автокорреляционной функции степенному закону (Рис.9).
Рис. 10 Автокорреляционная функция ряда прироста твитов, аппроксимированная прямой
Соответствие автокорреляционной функции степенному закону говорит о наличии в ряде «длинной памяти».
Помимо фрактальности сигнала, наличия «тяжелых хвостов» и фликкер-шума, представляет интерес корреляционная размерность и размерность фазового пространства системы. Значения этих компонент позволят утверждать, является ли система хаотической и если да, то системой из какого числа дифференциальных уравнений ее можно описать. Для определения значений этих компонент используется метод временной задержки координат Флоренса-Такенса совместно с алгоритмом Грассбергера-Прокаччиа.
Значения корреляционной размерности говорят о хаотической природе наблюдаемого временного ряда и о том, что для моделирования поведения системы необходимо не более 10 переменных.
Выводы
Сложная сеть, которую представляет из себя Twitter является хаотической как с точки зрения структуры так и с точки зрения описывающих ее временных рядов, что позволяет описать ее поведение с помощью системы нелинейных динамических уравнений.
Хаотическая природа Twitter позволяет описать его функционирование с помощью системы нелинейных динамических уравнений. Это имеет практическую значимость для задач предсказания взрывов / угасаний информационной активности Твиттер или контролируемого управления поведением системы в целом с помощью регуляции ряда параметров. Предыдущими исследователями (Dmitriev, Dmitriev, Tsukanova, Maltseva, 2017) в работе «Investigation into the Regular and Chaotic States of Microblogging Networks as Applied to Social Media Monitoring» была предложена модель системы, основанная на аттракторе Лоренца-Хакена:
В этой системе линейных уравнений - количество твитов и ретвитов в момент времени t, - количество твитов и ретвитов в состоянии равновесия;, где - количество информации внутри системы в момент времени t, - количество информации внутри системы в состоянии равновесия; , где - количество пользователей, которые имеют достаточно информации, для того чтобы отправить твит или ретвит, а - количество пользователей, у которых недостаточно информации для отправки твита или ретвита. - количество информации, поступающей в единицу времени извне системы.
После упрощения система принимает следующий вид (Dmitriev A., Dmitriev V., Tsukanova O., Maltseva S., 2016):
Как можно видеть, количество информации, поступающей извне системы предлагается принять за постоянную величину, что, строго говоря, необязательно совпадает с реальной величиной. В рамках текущего исследования предлагается расширить понятие количества информации, поступающей извне до случайной величины I с q-гауссовым распределением (это распределение является обобщением гауссова нормального распределения с возможностью наличия «тяжелых хвостов», что позволяет более точно объяснить значения случайного потока внешней информации):
Моделирование процесса работы системы
Для выполнения задачи моделирования системы необходимо определить:
1) Значения коэффициентов. Для моделирования были выбраны стандартные значения (Dmitriev A., Dmitriev V., Tsukanova O., Maltseva S., 2016):
·
·
2) Стартовые значения переменных модели
·
· y = 1
· z = 1
3) Параметры q-гауссова распределения
·
·
В результате моделирования был получен временной ряд (Рис. 11), по основным характеристикам:
H = 0.87
DFA = 1,13
D_F = 1.13
D_C=4.59
размерность фазового пространства n?10
близкий к исходному ряду, что говорит о высокой объясняющей силе модели. Ввиду специфики
Рис. 11 Модельный ряд
Использование модели как инструмента политической борьбы
Построенная модель успешно описала социальную сеть Twitter и может быть использована, как инструмент политической борьбы. Данная практическая модель не может точно предсказывать временные ряды Twitter, так как это не соответствует специфике хаотических моделей, зато при помощи данной модели возможно тестировать влияние тех или иных исходных факторов на состояние системы Twitter. Тщательное определение стартовых значений параметров модели может позволить спроектировать такое состояние, при котором населению не будет интересна тема выборов, что может сыграть на руку авторитарным правителям. Или например, при изменении исходного параметра количества твитов система при определенных настройках внутренних параметров может менять свое состояние с полицентрического на эгоцентрическое или наоборот. В текущей выборке, а именно, в модели предвыборной гонки в США пользователи проявляли крайне эгоцентрическое состояние, и массово концентрировались около темы выборов, причем в основном возле двух главных кандидатов. В данном случае политтехнологи предвыборных штабов менее популярных кандидатов вроде Берни Сандерса могут воздействовать на Twitter таким образом, чтобы система перешла в состояние полицентричности, когда внимание избирателей будет равномерно распределено по разным кандидатам. Таким образом, независимо от успешности дебатов, ключевые кандидаты не смогут донести свою повестку до массового избирателя, а периферийные кандидаты смогут воспользоваться ситуацией для агрегации избирателя вокруг себя, без необходимости затрачивать серьезные суммы на маркетинговую кампанию по продвижению себя как будущего президента. Полученный в данном исследовании результат открывает новую страницу в сфере политических технологий и при должном развитии в перспективе может изменить принцип работы демократии, породив вызовы, на которые придется отвечать всему обществу.
Рис. 12 Виды полицентрических (A,C,E) и эгоцентрических моделей (B,D,F)
Заключение
В рамках данного исследования была рассмотрена система микроблоггинга Twitter. В качестве данных была загружена выборка из более чем 2 млн. твитов. Структура графа социальных связей и временной ряд количества твитов-ретвитов были проанализированы и в результате отнесены к классу хаотических фрактальных систем, обладающих тремя основными характеристиками такого класса систем: масштабной инвариантностью, целостностью и склонностью к катастрофам. Так как система относится к классу хаотических, ее поведение можно описать с помощью системы нелинейных динамических уравнений. В качестве такой системы был выбран аттрактор Лоренца-Хакена, модифицированный под данный случай предыдущими исследователями. Основным ограничением предыдущих исследований фрактальной природы Twitter является предположение о том, что экзогенный информационный компонент в системе дифференциальных уравнений описывающих часть сложной сети - константа. В рамках данного исследования было предложено считать количество информации, поступающей в систему извне в момент времени случайной величиной с q-гауссовым распределением, которое идеально подходит для описания эмпирических распределений с тяжелыми хвостами.
Все это позволит понять, как практически можно влиять на систему Twitter, чтобы получать определенные желаемые результаты относительно общественного мнения. Дальнейшим исследованием этой проблемы может стать более обширное моделирование сети Twitter с использованием большего количества данных для получения более точных оценок влияния того или иного фактора на поведение сети, а также оценка значений параметров, которые в перспективе могут изменить ключевые характеристики сети в пользу какого-либо кандидата на выборах или в другой сфере.
Список использованной литературы
1. Albert R, Barabasi AL (2002) Statistical mechanics of complex networks. Physical Review.
2. Alstott J., Bullmore E., Plenz D. (2014) Correction: powerlaw: A Python Package for Analysis of Heavy-Tailed Distributions. PLOS ONE.
3. Barabasi AL., Albert R. (1999) Emergence of scaling in random networks. Science, 286.
4. Bianconi G, Barabasi AL (2001) Bose-Einstein Condensation in Complex Networks. Physical Review.
5. Bollobas B., Riordan O. (2004) The diameter of a scale-free random graph, Combinatorica.
6. Bollobas B., Riordan O. (2003) Mathematical results on scale-free random graphs, Handbook of graphs and networks: from the genome to the internet.
7. Borgs C., Chayes J., Lovasz L., Sos V., Szegedy B., Vesztergombi K. (2006) Graph limits and parameter testing, In Proceedings of the thirty-eighth annual ACM symposium on Theory of computing.
8. Bornholdt S., Schuster H. (2002) Handbook of Graphs & Networks, Wiley Online Library.
9. Clauset A., Shalizi C., Newman M. (2009) Power-law distributions in empirical data, SIAM review.