Статья: Сетевой анализ в исторических исследованиях: микро- макроподходы

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Московский государственный университет им. М.В. Ломоносова

Сетевой анализ в исторических исследованиях: микро- макроподходы

доктор исторических наук, профессор,

член-корреспондент РАН

Бородкин Леонид Иосифович

Аннотация

Статья посвящена конкретным вопросам использования сетевого анализа в исторических исследованиях. Это сравнительно новое направление совершенствования методики и методологии исторической науки (хотя социологи рассматривают этот подход в качестве одного из ключевых с середины ХХ века). В статье рассмотрена специфика использования сетевого анализа в исторических исследованиях, которая выражается в постановке задач, особенностях структуры источников и методов их анализа. Опыт таких исследований формируется в последние годы в рамках возникшего направления Historical Network Analysis. Теоретической базой сетевого анализа является математическая теория сетей (ветвь теории графов), которая предоставляет формальный аппарат для описания структуры связей графа, его кластеров, узлов. Впервые выделяются задачи микро- и макроанализа историко-ориентированных сетей. Специальный интерес представляет задача выявления сетей индивидуумов на основе корпуса исторических текстов (типа эго-документов). В центре внимания статьи - проекты по сетевому анализу структуры средневековых русских политических и полемических текстов (при решении задач их атрибуции) и миграционных потоков в России первой четверти ХХ в.

Ключевые слова: сетевой анализ, теория графов, матрица связи, микроанализ, макроанализ, атрибуция средневековых текстов, миграционные потоки, агрегирование, алгоритм, социальные сети

Abstract

The article addresses the issues of network analysis within historical studies. It is a comparatively new trend to modernize techniques and methodology of history (though sociology has been considering this approach as one of the main ones starting with 1950s). The article discusses the specific character of network analysis within historical studies which can bee seen in the problems set, source structure peculiarities and methods of their analysis. Such studies have been carried out within the framework of Historical Network Analysis. The theoretical basis for the network analysis is a mathematical theory of networks (a branch of graph theory) proving the formal apparatus for describing the graph links, its clusters and nodes. The goals of micro and macro analysis of history oriented networks are set for the first time. The task to find networks of individuals on the basis of historical texts (ego type documents) is a special research issue. The article focuses on the projects dealing with the network analysis of the structure of Russian medieval political and polemical texts (when the problems of their attribution are being solved) as well as migration flows in Russia in the first quarter of the 20th c.

Keywords: network analysis, graph theory, relation matrix, microanalysis, macroanalysis, attribution of medieval texts, migration flows, aggregation, algorithm, social networks

В течение последнего десятилетия наблюдается заметный рост интереса к изучению социальных сетей самой разной природы, прежде всего - в связи с растущей ролью электронных коммуникаций, и, главным образом, Интернет-сетей (по М. Кастельсу, в процессе сетевизации формируется сетевое общество). Однако уже около ста лет анализ социальных сетей развивается социологами, рассматривающими с середины ХХ века этот подход в качестве одного из ключевых в современной социологии. В англоязычной литературе данный социологический подход широко известен как SNA - Social Network Analysis. В процессе развития сетевого анализа в послевоенные десятилетия в рамках социологических исследований формировалась теоретическая база SNA - математическая теория сетей (ветвь теории графов), которая дает формальный аппарат для описания структуры связей графа, его кластеров, узлов и т.д. Существующее аналитическое программное обеспечение сетевого анализа включает модули визуализации сети.

В связи с быстрым развитием веб-сетей, характеризующихся огромным количеством узлов и связей между ними, непрерывным потоком разнородных сообщений, анализ таких сетей приводит к задачам большой размерности, требующим разработки и применения специальных алгоритмов работы с Big Data.

Теоретические и прикладные аспекты сетевого анализа изложены в многочисленных работах социологов, математиков, специалистов в области коммуникаций (см., например, [1],[2],[3] [4]). Поэтому необходимости в дублировании здесь основных положений этих работ нет. Представляет интерес, однако, рассмотрение практики использования SNA в исторических исследованиях, которая имеет свою специфику; она выражается, прежде всего, в постановке задач, особенностях структуры источников и методов их анализа. Этой специфике был посвящен пленарный доклад на XVII международной конференции Ассоциации «История и компьютер», состоявшейся в октябре 2016 г. [5].

Существующий (пока очень скромный) опыт использования концепций SNA историками позволяет выделить, во-первых, задачи микроанализа, которые ставятся при работе с источником, содержащим сведения о сетях индивидуумов; эти сведения могут быть представлены либо в явном виде (например, при изучении личной переписки членов некоторого сообщества), либо имплицитно (например, при изучении личных уний). Сетевой анализ построенных графов может выявить кластеры в сложной структуре взаимосвязей, «мосты» (индивиды, обеспечивающие соединение между кластерами), а также получить оценки центральности (степени «влиятельности» определённого узла или кластера) и плотности сети, выявить «клики» (кластеры, в которых каждый индивид напрямую связан с другим индивидом), и т.д. Специальный интерес представляет задача выявления сетей индивидуумов на основе корпуса исторических текстов (типа эго-документов). Опыт таких исследований формируется в последние годы в рамках Historical Network Analysis (HNA). Так, в работе [6] рассматривается задача построения и анализа сети участников покушения на Гитлера 20 июля 1944 г. На базе преимущественно материалов следствия по этому делу оказалось возможным провести анализ графа связей между участниками покушения (их число превышало 200), выявить взаимодействие различных групп: армейских генералов, дипломатов, социал-демократов, членов профсоюзов; привлечение различных эго-документов позволило выявить такие сетевые структуры, которые не были доступны следователям.

Во-вторых, в практике работы с историко-ориентированными сетями возникают и задачи макроанализа, когда источник может содержать агрегированные, статистические сведения о связях изучаемой сети. Это могут быть, например, данные об объеме корреспонденции между каждой парой пунктов; интенсивности миграционных или транспортных потоков между губерниями/областями и т.д. В этом случае сеть формализуется как взвешенный граф, исследование которого проводится с помощью методов анализа матриц связи. Целью такого анализа может быть выявление наиболее сильных дуг графа; кластеров, включающих сильно связанные вершины; ядра и периферии сети и др.

Сотрудниками кафедры исторической информатики МГУ методы сетевого анализа применяются с 1970-х гг. - как в методически-алгоритмическом плане [7], так и в прикладном. В разное время были реализованы проекты по сетевому анализу структуры грамматических связей в средневековых русских текстах (при решении задач их атрибуции) [8],[9],[10], миграционных потоков в России конца XIX - начала ХХ вв. [11],[12], историографических сетей [13], клиентских сетей коммерческих банков дореволюционной России [14] и др. Обзор этих работ трудно изложить в рамках одной статьи. В данной работе рассмотрены методы, технологии и результаты более ранних исследований, дающих примеры применения микро- и макроподходов сетевого анализа, проведенных с участием сотрудников кафедры исторической информатики МГУ. Это позволяет проследить отмеченную специфику сетевого анализа при рассмотрении конкретных работ из области социально-демографической истории, а также историко-культурных исследований. В следующей обзорной статье будет рассмотрен опыт сетевых исследований в экономической истории и историографических исследованиях (в рамках микроподхода).

Сетевой анализ структуры грамматических связей в средневековых русских текстах

Атрибуция средневековых русских полемических и политических произведений - одна из наиболее сложных проблем источниковедения. Причиной тому является, прежде всего, слабость авторского начала в произведениях той эпохи, которые до XVII в. редко имели авторскую подпись. Задача атрибуции в данном случае требует выявления подсознательных элементов стиля, специфики применения тем или иным автором различных грамматических (морфологических) форм и их сочетаний. Рассмотрим сетевой подход к решению этой задачи, основываясь на результатах исследования, инициированного в 1970-х гг. Л.В. Миловым [8]. В рамках этого исследования автор данной статьи предложил алгоритм, использующий теорию графов для проведения стилометрического анализа средневековых русских политических и полемических текстов [8],[9].

Как отмечалось в работах ряда исследователей проблемы авторства древних и средневековых текстов, именно частоты парной встречаемости грамматических форм слов рассматриваются как существенные характеристики формальной структуры авторского текста. Так, В. Фукс в своей работе, посвященной анализу стилевых характеристик библейских текстов, отмечал, что частоты переходов для синтаксических классов слов играют в исследованиях подлинности текстов чрезвычайно важную роль [15].

Алгоритм основан на идее атрибуции текста, авторство которого предположительно связывается с произведениями двух или нескольких авторов. Имея установленные образцы стиля текстов этих авторов, можно проверить гипотезы о принадлежности атрибутируемого текста каждому из предполагаемых авторов. С этой целью проводится сравнение матриц частот парной встречаемости грамматических классов слов анализируемых текстов. Алгоритм учитывает, что при большом числе n грамматических классов суммирование незначительных различий при сравнении элементов двух матриц большого размера приводит к тому, что небольшое число действительно важных различий "тонет" в массе второстепенных деталей. Чтобы избежать этого, мы положили в основу методики атрибуции построение графа "сильных связей", конструируемого по матрице частот парной встречаемости грамматических классов слов.

Для получения такой матрицы необходимо: выбрать систему грамматических классов, достаточно детально описывающую грамматические особенности языка изучаемого периода; перекодировать последовательность слов анализируемого текста в последовательность соответствующих обозначений грамматических классов; вычислить частоты парной встречаемости для каждой пары классов с учетом направления развертывания текста (слева направо), т. е. построить искомую матрицу А частот парной встречаемости на уровне грамматических классов в данном тексте.

Мы исходим из гипотезы о том, что стиль автора характеризуется в значительной степени его "пристрастием" к определенным грамматическим связям, частота появления которых в тексте высока (им соответствуют высокие значения элементов aij (i, j = 1,…,n) матрицы А). Основная же масса элементов матрицы А соответствует слабым, несущественным статистическим связям грамматических классов; их появление в сильной мере случайно (ведь объем исследуемых текстов ограничен). Поэтому атрибуция должна основываться на учете существенных связей, которым соответствуют высокие значения частот aij.

Итак, пусть рассматривается несколько гипотез об авторстве исследуемого текста, и для каждого предполагаемого автора имеются безусловно принадлежащие ему тексты. Тогда алгоритм атрибуции должен включать следующие шаги.

Для каждого из имеющихся текстов (в том числе и для исследуемого текста, подлежащего атрибуции) получаем матрицу А частот парной встречаемости грамматических классов (статистических связей).

Анализируя каждую матрицу, выделяем для каждого текста совокупность грамматических связей с высокими (т.е. превышающими некоторое пороговое значение) частотами.

При сравнении полученной совокупности существенных связей исследуемого текста с остальными текстами определяется автор, чей текст характеризуется наиболее близкой по некоторому критерию совокупностью существенных грамматических связей.

Конкретизацию описанной схемы атрибуции удобно провести, формализовав введенные понятия совокупности существенных грамматических связей, "общеязыкового ядра", критерия сравнения и т. д. Адекватный язык для такой формализации дает теория графов.

Как нам представляется, достаточно подробное описание алгоритма атрибуции на языке теории графов позволит выявить специфику историко-ориентированного сетевого анализа.

Основным понятием для дальнейшего изложения будет понятие графа сильных связей, с помощью которого задается совокупность синтаксических связей с высокими частотами. Будем обозначать такой граф G (X, V), где Х - множество вершин, а V - множество дуг графа сильных связей. Граф сильных связей Ga (X, V) строится по матрице А следующим образом. Каждому i-му синтаксическому классу ставится в соответствие вершина xi графа Ga (X, V). Для формирования множества V дуг графа Ga (X, V) назначается некоторый порог б, и тогда все связи aij (i, j = 1,...,n) оказываются "разрезанными" на сильные aij ? б и слабые aij < б. Каждой сильной связи ставится в соответствие дуга графа Ga (X, V), идущая из вершины xi в вершину xj. Очевидно, чем больше величина порога б, тем меньше дуг содержит граф Ga (Х, V).

Пусть построены матрица A0 частот парной встречаемости грамматических классов для исследуемого текста и mматриц Ai (i = 1, ..., m) для текстов, принадлежащих m известным авторам. Задавшись некоторым порогом б, построим графы сильной связи Gi (X, Vai) для каждой из матриц Ai (i= 0, 1,..., m). Анализируя эти графы, выделим "общеязыковое ядро", т. е. граф Гa, составленный из таких дуг vi € Vai, которые входят в множество дуг Vai не менее, чем l графов Gi (X, Vai), i?m. Далее произведем операцию "удаления" полученного графа Гa из каждого графа Gi (X, Vai), в результате чего получим графы Gi (X, Vai), содержащие "существенные" синтаксические связи: Gi (X, Vai) = Gi (X, Vai) Гa (i = 0, 1, ..., m).