Дипломная работа: Количественный рекуррентный анализ в обнаружении экстремальных событий в социальных сетях

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Порог исключает диагональные линии, образованные движением по касательной траектории фазового пространства. Как правило, равен 2.

Если равен 1, DET и RR идентичны. При > 2 этот параметр служит фильтром, исключающим более короткие линии и убывающий DET, что практически полезно для изучения некоторых динамических систем. Стоит принять во внимание, что слишком большой может ухудшить гистограмму и, таким образом, надежность измерения DET.

Третья переменная в RQA - это максимальная длина диагональной линии (за исключением главной диагонали).

(5)

Данная мера просто характеризует длину самой длинной диагонали во всем RP. Поскольку диагональные структуры показывают диапазон, в котором сегмент траектории довольно близок к другому сегменту траектории в другое время, то эти линии дают подсказку о расхождении сегментов траектории. Чем меньше , тем больше расходятся траектории. Исходя из этой идеи, очевидно, что существует связь между наибольшим положительным показателем Ляпунова (если он есть в рассматриваемая система) и . Действительно, связь можно найти, рассматривая частотное распределение длин диагональных линий и энтропию, которая является нижним пределом суммы положительных показателей Ляпунова.

С связана и средняя длина диагональных линий, которая высчитывается следующим образом:

Это среднее время, когда два отрезка траектории находятся близ друг к другу. В этом случае можно интерпретировать как среднее время прогнозирования.

Четвертая переменная в рекуррентном количественном анализе - это энтропия Шеннона частотного распределения длин диагональных линий (ENT):

, где (7)

Данная мера отражает сложность детерминированной структуры в системе. Чем выше тем сложнее динамика, например, для некоррелированного шума или колебаний, значение довольно мало, что указывает на его низкую сложность. Данную меру можно описать и чуть иначе, энтропия определяет, сколько информации нужно для восстановления системы. Низкое значение энтропии указывает, что для идентификации системы требуется немного информации, в отличие от этого, высокая энтропия указывает на то, что требуется много информации. Энтропия мала, когда длина самого длинного сегмента, параллельного диагонали, мала и не сильно изменяется. Это должно быть связано с информацией о детерминизме. Высокая энтропия характерна для периодического поведения, в то время как низкая энтропия указывает на хаотическое поведение.

Пятой мерой RQA является тренд (TND), который представляет собой коэффициент линейной регрессии по плотности точек повторения на параллельных главной диагонали линиях.

Меры, введенные до настоящего времени, RR, DET, и другие могут быть рассчитаны отдельно для каждой диагонали, параллельной главной и с расстоянием k до неё. Например, плотность точек повторения по диагоналям с расстоянием k от главной равно:

Используя приведённую выше формулу, можно получить формулу для тренда:

Тренд дает информацию о стационарности в сравнении с нестационарностью в процессе. Квазистационарная динамика будет иметь значения TND, которые колеблются около 0. Нестационарная динамика будет иметь значения TND, далекие от 0, показывая дрейф в динамике, что может указывать на то, что система находится между более стационарными состояниями. Вычисление TND исключает ребра RP ( < ), из-за отсутствия статистики по причине меньшего количества точек повторения. Выбор зависит от изучаемого процесса. В то время как > 10 должно быть достаточно для шума, эта разница должна быть намного больше для процесса с некоторой автокорреляцией (всегда должно быть достаточно десятикратного порядка времени автокорреляции). Следует отметить, что, если используется зависящий от времени RQA (меры вычисляются в сдвинутых окнах), то TND будет сильно зависеть от размера окон и может давать противоположные результаты для разных размеров окон.

Пять переменных RQA, определенных выше, основаны главным образом на длине, количестве и распределении диагональных линий в RP. То есть они чувствительны к параллельным траекториям вдоль разных отрезков временного ряда. Но в RP имеются не только диагональные линии, а также вертикальные и горизонтальные элементы. На основании этих вертикальных линий Marwan с соавторами представили дополнительные количественные оценки рекуррентности.

Шестой мерой на основании их суждений стало замирание (laminarity, LAM).

LAM содержит определение, аналогичное определению DET, то есть LAM показывает процент повторяющихся точек в вертикальных структурах, тогда как DET сообщает процент повторяющихся точек в диагональных структурах.

LAM вычисляется для тех , которые превышают минимальную длину , чтобы уменьшить влияние точек пребывания. Для итеративных карт (в отличие от непрерывных потоков) обычно устанавливается равным 2. Поскольку LAM количественно определяет относительный объем вертикальных структур по всей рекуррентной диаграмму, то он также показывает частоту возникновение ламинарных состояний в системе. Длина ламинарных фаз во времени игнорируется, но LAM будет уменьшаться, если RP содержит повторяющиеся точки, которые более изолированы, чем в вертикальных или диагональных структурах.

Исходя из этого определим седьмую меру, являющуюся средней длинной вертикальных структур, показателем задержки (trapping time, TT):

В вычислениях также используется минимальная длина , как и в LAM. ТТ содержит информацию о количестве и длинах вертикальных структур в RP, демонстрируя среднее время, в течение которого система будет находиться в определенном состоянии (насколько долго состояние задержится). Восьмой и заключительной мерой рекуррентного количественного анализа является максимальная длина вертикальных структур , которая как и гласит название определяет самую длинную вертикальную линию на рекуррентной диаграмме:

И сама по себе аналогична диагональной мере Но чётко интерпретировать достаточно сложно, хотя она и может быть связана с сингулярными состояниями.

В отличие от пяти основных мер RQA, эти новые меры способны находить переходы хаос-хаос. Следовательно, эти меры делают возможным исследование перемежаемости, даже если они происходят только в довольно коротких и нестационарных временных рядах. Поскольку эти меры равны нулю для периодической динамики, то можно обнаружить и переходы порядок-хаос.

Рассмотрим на существующих примерах, как можно работать с данными мерами на практике. Поскольку социальные сети предполагают работу со словами, символами, то и пример для рассмотрения выберем похожий.

Рекуррентный анализ или кросс-рекуррентный анализ прекрасно работают с лингвистическими системами или символической динамикой. На самом деле, одно из самых простых объяснений рекуррентности можно понять по простой детской книге, написанной доктором Сьюзом, «Green Eggs and Ham». Уэббер и Збилут неоднократно использовали этот пример в учебных целях. Рассуждение состоит в следующем. Задайте ребенку загадку: «Как доктор Сьюз может написать книгу из 812 слов, если у него ограниченный словарный запас, состоящий всего из 50 слов?» Очевидный ответ заключается в том, что слова должны повторяться. По аналогии почему бы не спросить ребенка: «Как книги с тысячами слов могут быть написаны на русском языке, если доступно только 33 буквы алфавита?». В этом случае необходимо использовать повторно буквы. Таким образом, на уровне слов или орфографическом (орфографическом) уровне символы можно просто повторно использовать в любой комбинации, желаемой автором, при условии, что они соответствуют допустимым словам на выбранном языке. Опыт показывает, что буквы в словах или слова в предложениях не появляются и не должны появляться рядом какое-то время. Скорее, фактические лингвистические последовательности являются одновременно очень нелинейными и очень значимыми.

В этом контексте Вальтер, Уэббер и Збилут в 1999 году внедрили RQA для изучения лингвистического структурирования американских стихов, шведских стихов и итальянских переводов шведских стихов. Они обнаружили неизменность среди различных языковых образцов, предлагая скрытое структурирование на орфографическом уровне. Имеют ли разные авторы или разные докладчики конкретные повторяющиеся сигнатуры, передающие их индивидуальность? Можно продолжить на орфографическом уровне, переводя любой речевой текст в числовую форму путем произвольной замены целых чисел на буквы: А = 1; Б = 2; В = 3; ...; Э = 31; Ю = 32; Я = 33; и для чисел: 0 = 34; 1 = 35; 2 = 36…; 7 = 41; 8 = 42; 9 = 43. Мы можем упростить задачу, игнорируя регистры букв, все знаки препинания, пробелы и переводы строк. Возникает вопрос: как определить параметр рекуррентности? Итак, поскольку схема кодирования полностью произвольна (можно использовать и другой порядок: Я = 1; Ю = 2; Э = 3;…; и т.д.), то наиболее важным ограничением является то, что радиус должен быть равен 0. Это гарантирует, что только одинаковые буквы (уникальные целые числа) будут повторяться друг с другом. Размерность вложения может быть равно 1 или выше, но для размерности > 1 задержка должна быть установлена на единицу, чтобы не пропустить ни одной буквы в строке. Длина текста задает максимальный размер окна, но меньшие окна могут разделить текст на несколько эпох. Не имеет значения, масштабирована ли матрица расстояний или нет, потому что единственный допустимый радиус - 0. Параметр line (Этот параметр важен при извлечении количественных признаков из рекуррентных диаграмм, но не оказывает влияния на саму рекуррентную матрицу. Если длина рекуррентного объекта меньше, чем параметр линии, то во время количественного анализа этот объект отклоняется. Обычно данный параметр устанавливают равным 2, поскольку для определения любой линии требуется минимум две точки. Но можно увеличить параметр строки (с целочисленными шагами) и тем самым реализовать функцию количественного фильтра для извлечения признаков) должен быть равен 2, если, конечно, не хотите исключать короткие слова длиной более двух символов каждое (но это не рекомендуется). После завершения этих предварительных данных, что могут означать структуры диагональных линий на графике повторения? Если в качестве повторяющихся точек учитываются только идентичные буквы, строка диагональных повторений должна указывать на то, что идентичные строки символов появляются в разных позициях в тексте. На самом деле, строки различной длины должны представлять слова различной длины. Количественная рекуррентность может быть зафиксирована в восьми рекуррентных мерах, которые были рассмотрены ранее.

Теперь отойдём от символов и перейдём к словам. Возникает новая проблема, каким образом закодировать слова. В отличие от английских букв, которые ограничены 26 символами и 10 цифрами, английские слова могут исчисляться сотнями тысяч. Например, Оксфордский словарь английского языка содержит около 290 000 статей и 616 500 различных английских словоформ. Чтобы закодировать слова, можно назначить целочисленные значения каждому новому слову текста, но всякий раз, когда слово повторяется, его старое целочисленное значение должно использоваться повторно. Для простоты можно рассматривать все знаки препинания как пробелы. После того, как полный текст закодирован, общее количество целых чисел в производном файле должно равняться общему количеству слов в тексте. Количество различных слов в тексте (размер словаря) будет представлено числовым значением наибольшего целого числа.

Давно известно, что психическая болезнь шизофрении характеризуется нарушенной речью. Итак, чтобы предоставить практический пример количественного текстового анализа с использованием RQA, рассмотрим речевые паттерны пациента с шизофренией и получившего «нормальное» академическое образование, приведенные Врубелем. Каждая цитата состоит ровно из 165 слов. Сначала цитируется шизофреник, контекст которого раскрывает измененное чувство реальности этого пациента. Чтобы понять суть того, как были закодированы 165 слов, вот коды для первых 26 слов («pre-started» считается как 2 слова из-за замены тире пробелом): 1-2-3-4-5-6-7-8-9-10-11-12-13-14-15-16-17-18-14-15-16-3-19-18-14-20 (обратите внимание на пример повторения 14-15-16: «before me and»).

Второй цитируемый - это обычный академик, который говорит логически. Первые 26 слов (из 165 слов) были закодированы следующим образом: 1-2-3-4-5-6-7-8-9-10-11-9-10-12-13-14-15-6-16-17-18-19-20-21-22-23 (обратите внимание на повторение 9-10: «of the»).

Слева в таблице представлен оригинальный текст, который использовался в дальнейшем анализе, справа его перевод на русский язык.

Таблица 2. Речь шизофреника и академика на английском и русском языках

In Wroclaw I pre-started to pray, you know, the psychiatrist Kobohen came before me and he stood before me and I also stood before him, because he came to the ward on a visit, you know, he came before and he says: oh, that's the new one--he says--he arrived today--he says and he made a sign of the cross, you know, like this before me. I felt in the presence of that such terrible desires to pray because of that cross, that I began praying incredibly, I prostrated myself, I prayed on my knees, prostrate, I so implored the Lord God as much as possible, you know, and I felt myself a ruler, you know, I thought I was the supreme ruler on this earth, that over the whole world I was the supreme ruler, I began praying so incredibly with various crosses, yes I prayed so incredibly with crosses, with perfection and in different ways. He was dismissed from there, …	Знаете, во Вроцлаве я заранее начал молиться, психиатр Кобохен прибыл раньше меня и встал передо мной, а я встал перед ним, потому что он посетил в палату. Знаете, он пришёл и сказал: о, новенький - сказал он - сегодня прибыл - сказал он и перекрестился, знаете, прям передо мной. Я почувствовал такое ужасное желание помолиться из-за этого креста, что немедля начал молитву. Забывшись, я молился на коленях, я как только мог умолял господа Бога, знаете, я чувствовал себя правителем, знаете, я думал я и есть верховный правитель этой земли, всего мира. Я начал отчаянно молиться и креститься, да, молился и крестился, совершенно, самыми разными способами. Тогда он ушёл…
Newtonian mechanics, for example, imposes a unified form of the description of the world. Let us imagine a white surface with irregular black spots on it. We then say that whatever kind of picture these make, I shall be able to approximate as closely as I wish to the description of it by covering the surface with a sufficiently fine square mesh, and saying of every square whether it is black or white. In this way I shall have imposed a unified form on the description of surface. The form is optional, since I could have achieved the same result by using a net with a triangular or hexagonal mesh. Possibly the use of a triangular mesh would have made the description simpler: that is to say, it might be that we could describe the surface more accurately with a coarse triangular mesh than with a fine square mesh (or conversely), and so on. The different nets correspond to different systems for describing the world.	Ньютоновская механика, к примеру, навязывает единую форму описания мира. Давайте представим белую поверхность с нерегулярными черными пятнами на ней. Затем мы говорим, что какой бы картина там ни была, я смогу приблизиться к описанию ее настолько близко, насколько захочу, покрыв поверхность достаточно тонкой квадратной сеткой и говоря о каждом квадрате, является ли он черным или белым. Таким образом, я наложу унифицированную форму на описание поверхности. Квадратная форма необязательна, ведь я мог бы достичь того же результата, используя сеть с треугольной или шестиугольной сеткой. Возможно, использование треугольной сетки сделало бы описание более простым: то есть, возможно, мы могли бы описать поверхность более точно с помощью грубой треугольной сетки, чем с мелкой квадратной сеткой (или наоборот), и так далее. Разные сетки соответствуют разным системам описания мира.

Смотрите также:


«ДОХОДЫ, РАСХОДЫ И ПРИБЫЛЬ КОММЕРЧЕСКОГО БАНКА.»
«ДОХОДЫ, РАСХОДЫ И ПРИБЫЛЬ КОММЕРЧЕСКОГО БАНКА.»
Значение, сущность и содержание социально — педагогической деятельности в организации для детей-сирот и детей, оставшихся без попечения родителей
Проактивные методы PR-деятельности российских авиационных компаний «Россия», «Азимут»
__RGR2
__RGR2
_11_А. Франс для эл версии
_индив анализ данных
_РГР № 3