Статья: Сетевой анализ в исторических исследованиях: микро- макроподходы

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Для проверки гипотез о принадлежности исследуемого текста к одному из рассматриваемых авторов следует в соответствии с описанным выше алгоритмом сравнить граф G0 (X, Vai) с графами Gi (X, Vai). Учитывая специфику изучаемых текстов (в частности, вмешательство в авторский текст переписчиков, редакторов и т. д.), критерий для такого сравнения должен опираться не на детальное сопоставление дуг и вершин графов G0 (X, Vai) и Gi (X, Vai) (i=1, ..., m), а на более общие, "интегральные" характеристики структуры этих графов.

В данной работе критерий близости графов G0 (X, Vai) и Gi (X, Vai) (i = 1,..,m) предлагается строить, используя понятие "узловых вершин" этих графов (будем называть их далее узлами). Узел yi € Х определим как такую вершину графа Gi (X, Vai) (i = 1, ...,m), в которую входит более чем в дуг. Таким образом, узлу данного графа Gi (X, Vai) соответствует такой грамматический класс слов, который имеет существенные связи более чем с в классами данного текста. Множество узлов графа Gi (X, Vai) будем обозначать Yi.

Введем первый критерий близости исследуемого текста к i-му тексту (i = 1, ..., m) как отношение числа общих для данных двух текстов узлов к суммарному количеству узлов для этих двух текстов:

с0i=|Y0?Yi| / |Y0UYi|, (i = 1, ..., m) (1)

Очевидно, значение коэффициента с заключено в границах от 0 до 1. В том случае, если сравниваемые тексты не имеют общих узлов, с = 0; если множества их узлов совпадают, с =1. Чем больше доля их общих узлов, тем ближе значение с к 1. Если для некоторого i*-гo текста значение сoi> с0j (j = 1, ..., m; j?i*), то принимается гипотеза о принадлежности исследуемого текста i*-му автору.

Для описания методики выявления авторских особенностей стиля нам потребуется ввести понятие общего графа G (X, U) для данной совокупности графов Gi (X, Vi) (i=1,...,k). Множество дуг U общего графа G (X, U) определим как пересечение множеств Vi (i=1,...,k): U = ? Vi. Таким образом, общий граф G (X, U) построен на таких дугах, которые содержатся во всех графах Gi (X, Vi) (i = 1, ..., k).

Введем также второй коэффициент qi, близости каждого из графов G (X, Vi) (i=1,..., k) к общему графу G (X, U) как отношение числа дуг, общих для графов Gi (X, Vi) и G (X, U), к числу дуг графа Gi (X, Vi):

qi=|Vi?U| / |Vi|, i = 1. ..., k. (2)

Коэффициент qi изменяется в пределах от 0 до 1; qi=1 , если все дуги общего графа имеются на графе Gi (X, Vi).

Для пояснения смысла коэффициентов с и q близости пары графов рассмотрим иллюстративный пример. Пусть имеются три графа связей с множеством вершин (грамматических классов) Х={1, 2, 3, 4, 5, 6}:

Определим узел графа как такую вершину, в которую входит не менее трех дуг. Тогда множество узлов графа G1 составляют вершины 2 и 5, графа G2 - вершины 2 и 4, а графа G3 - 2, 5 и 3.

Перепишем формулу (1) в более простом виде: с0i = nij / (ni + nj - nij) где ni, nj - число узлов i-го и j-го графов соответственно; nij - число общих узлов в сравниваемых графах. Легко видеть, что вычисления по данной формуле дают для рассматриваемых графов G1, G2, G3 следующие значения их сходства по наборам узлов:

с 1,2 = 1 / (1+2-1) =1/3; с 1,3 = 2 / (2+3-2) =2/3; с 2,3 = 1 / (2+3-1) =1/4.

Таким образом, наиболее близкими (по критерию с) являются графы G1 и G3 . сетевой анализ исторический текст

Определим G0 - общий граф для G1, G2 G3 :

Вычисления по формуле (2) приводят к следующим результатам сравнения структурной близости каждого из графов G1, G2, G3 с общим графом G0 : q1=3/8; q2=3/9; q3=3/10 . Самым близким (по критерию q) к общему графу оказывается граф связей первого текста, самым далеким - третьего.

Обобщив формулу (2), можно ввести в рассмотрение коэффициент qij , измеряющий близость структуры любой пары графов Gi и Gj как отношение числа дуг, общих для графов Gi и Gj, к суммарному числу различающихся дуг для рассматриваемой пары текстов:

qij=Nij / (Ni+Nj-Nij) (3)

где Ni и Nj - число дуг i-го и j-го графов соответственно; Nij - число общих дуг в сравниваемых графах.

Вычисления по формуле (3) дают следующие значения для сравнения структурной близости графов G1, G2 и G3 по наборам дуг :

q12=6/(8+9-6) = 6/11; q13=5/(8+10-5) = 5/13; q23=4/(9+10-4) = 4/15.

Ближе всего по совокупности связей оказываются первый и второй тексты, дальше всего - второй и третий.

Описанный алгоритм был реализован автором в виде компьютерной программы, которая была апробирована в ходе анализа нескольких произведений конца XV и XVI вв. Это три произведения Зиновия Отенского: «Истины показание», «Похвальное слово на открытие мощей епископа Никиты», «Слово на открытие мощей архиепископа Ионы» и два произведения Иосифа Волоцкого: «Послание епископу Нифонту Суздальском» и «Послание Иосифа И. И. Третьякову». Важно, что атрибуция этих текстов является общепринятой в исследовательской литературе. Для анализа были взяты две выборки по 1000 значимых слов из середины и конца самого большого произведения Зиновия Отенского - «Истины показание» и по одной выборке в 1000 значимых слов из начальных разделов небольших по объему его произведений: «Похвальное слово на открытие мощей епископа Никиты» и «Слово на открытие мощей архиепископа Ионы», а также из начальных разделов двух произведений Иосифа Волоцкого: «Послание епископу Нифонту Суздальскому» и «Послание Иосифа И. И. Третьякову».

В тексте выборок был произведен грамматический анализ слов, при котором учитывались для существительных - падеж; для глаголов - время, лицо, инфинитив; для прилагательных - падеж, форма (краткая или полная); для причастий - время, падеж, форма (краткость или полнота); для местоимений - тип, падеж, а также учитывались числительные и наречия. На основе данных характеристик была составлена таблица, в которой каждый грамматический класс получил соответствующий кодовый номер (их общее количество - 92). Изучаемые тексты были закодированы и представлены для дальнейшего анализа в виде последовательности кодов. На рис. 1-4 представлены некоторые из графов связей, выявленных в данном исследовании [8]; числа в кружках (вершинах графов) обозначают номера грамматических классов.

Анализ структуры полученных графов, отражающих частоты парных встречаемостей частей речи в предложениях указанных текстов, позволил уверенно выделить те или иные части речи, являющиеся своеобразными дистрибутивными «узлами». Совокупность окружения таких языковых единиц широко варьируется в пределах круга произведений того или иного автора, но центр ее постоянен. Апробация предложенного алгоритма доказала его работоспособность в задачах атрибуции средневековых русских текстов.

В упомянутых выше работах [8],[9],[10] показано, что, несмотря на сложность рассмотренных текстов, размытость авторских стилевых особенностей вследствие влияния жанров и литературных авторитетов, наличия редакторских вторжений, существуют возможности выделения индивидуальных черт в языке отдельных авторов. Полученные с помощью теории графов и сетевого анализа выводы в целом подтверждают гипотезу о том, что индивидуальные авторские черты в средневековых русских произведениях прослеживаются в особенностях расположения и связи частей речи в различных формах в рамках предложения.

Рис. 1. Граф первой выборки из «Истины показание»

Рис. 2. Граф второй выборки из «Истины показание»

Рис. 3. Общий граф для текстов Иосифа Волоцкого «Послания Нифонту Суздальскому» и «Послания И. И. Третьякову»

Рис. 4. Общий граф для всех произведений Зиновия Отенского

Сетевой анализ миграционных потоков в России конца XIX - начала ХХ вв.

Обратимся теперь к примеру использования сетевого анализа в макро-исторических исследованиях. Речь идет о сетевом анализе миграционных потоков; первые наши публикации по этой тематике относятся к началу 1990-х гг. [11],[12], а затем они были продолжены в последние годы [17],[18]. Рассматриваемый период миграций связан в истории России с первой волной индустриализации, столыпинской реформой, войнами, революциями. Динамизм социальных процессов эпохи выразился, в частности, в резко возросшей миграционной активности населения, три четверти численности которого в то время составляли крестьяне. Основным источником для проведения сетевого анализа структуры миграционных потоков послужили сведения Всесоюзной переписи населения 1926 г. Полные итоги этой переписи были опубликованы в виде 56 томов. Издание включало 7 отделов. Для целей нашего исследования наибольший интерес представляет III отдел («Семейное состояние. Место рождения и продолжительность проживания. Увечность»), материалы которого опубликованы в 35-51-м томах. Данные об интенсивности миграционных потоков получены на основе сводки результатов ответов на 6-й и 7-й вопросы личного листка переписи («Где родился: здесь или нет; если не здесь, то где и сколько времени постоянно живет здесь?»). В таблице III отдела публикации материалов переписи («Уроженцы других районов по месту рождения. Итоги по социальным группам») эти данные представлены в виде матриц, содержащих показатели численности мигрантов для каждой пары регионов. Число этих больших территорий равно 29; они соответствуют сетке госплановских районов 1927 г. В данной работе интерес для нас представляла матрица межрегиональных миграций для крестьян-хозяев. Каждое число в этой матрице показывает, сколько уроженцев одного региона постоянно проживало на момент проведения переписи в другом регионе. Всего же перепись 1926 г. зафиксировала 3 605 314 сельских хозяев -- уроженцев других районов (т.е. переселенцев).

Для количественной оценки интенсивности миграционных потоков в работе использовались три коэффициента, обычно применяемых в демографических исследованиях: коэффициент прибытия (К+), коэффициент убытия (К-) и коэффициент миграционного баланса (К).

В результате было получено более 800 значений коэффициента К (исходя из размера матрицы 29х29), характеризующих весь спектр теоретически возможных направлений крестьянской миграции с территории каждого из 29 регионов.

Однако визуализация, наглядное представление структуры миграционной сети затрудняются ввиду большого количества незначительных межрегиональных связей на графе сети. С другой стороны, структурное многообразие механического движения крестьянского населения страны выразилось в примерах многократных наложений миграционных потоков. При этом районы, сходные по структуре выезда относительно одного направления, могли значительно различаться относительно другого. В этой связи возникает вопрос о построении укрупненной сети миграции, где в качестве группообразующего фактора использовалась бы структура миграционных взаимосвязей всех 29 регионов страны. Таким образом, можно констатировать потребность в эффективной методике, применение которой дало бы возможность построить оптимальную укрупненную сеть, характеризующую пространственную структуру миграций. При этом принадлежность каждого района к той или иной группе (кластеру) определяется, исходя из общности сетевых потоков крестьянской миграции, характерных для регионов, составивших каждую такую группу (кластер). Нами разработан алгоритм, позволяющий решить сформулированную задачу [16]. Этот алгоритм выявления укрупненной (агрегированной) структуры сети основан на аппроксимационном методе агрегирования сетей (АМА), основанного на гипотезе о том, что макроструктура сети может быть представлена в виде набора подсистем, каждая из которых состоит из элементов, имеющих «однородные», близкие по величине связи с элементами других подсистем. Тем самым мы переходим от исходной «калейдоскопичной» картины связей, содержащей сотни (или тысячи) второстепенных деталей, к укрупненной структуре сети. В результате создается возможность выявления основных потоков связей, определения групп элементов -- «поставщиков» и «потребителей», «узлов» связей и автономных кластеров, относительно изолированных от остальных подсистем.

Рассматриваемый метод АМА сводится к решению экстремальной комбинаторной задачи. В итоге для заданного числа кластеров мы получаем оптимальное разбиение элементов на кластеры (группы), а также матрицу межгрупповых связей. Компьютерной обработке подверглась матрица S структурных (или относительных) коэффициентов миграции (размером 29х29), в которой каждый коэффициент sij фиксировал долю крестьян -- уроженцев i-го района, переселившихся в j-й район, относительно общего числа крестьян - переселенцев i-го района.

Обратимся к результатам построения структуры укрупненной сети крестьянских миграций. С помощью метода АМА выделено восемь кластеров, состоящих из районов со схожей структурой миграционных потоков:

1. Сибирский край;

2. Казакская АССР;

3. Северо-Кавказский край;

4. Центрально-Черноземный район, Крымская АССР, Белорусская ССР, Полесский, Правобережный, Левобережный, Степной, Днепропетровский и Горнопромышленный подрайоны Украинской ССР;

5. Киргизская АССР, Узбекская ССР, Туркменская ССР;

6. Дагестанская АССР, Закавказский край;

7. Якутская АССР, Бурято-Монгольская АССР, Дальне-Восточный край;

8. Северный, Ленинградско-Карельский, Западный, Центрально-Промышленный, Вятский, Нижне-Волжский, Средне-Волжский и Уральский районы РСФСР, Башкирская АССР.

Обращает на себя внимание тот факт, что каждый из пяти полученных составных кластеров состоит из территориально смежных районов. Это позволяет рассматривать каждый такой кластер как достаточно однородный, отдельный макрорайон, что заметно облегчает интерпретацию полученной миграционной сети. Исходя из территориальной общности этих макрорайонов, будем в дальнейшем именовать их следующим образом: I. Сибирский; II. Юго-Западный; III. Северо-Кавказский; IV. Казакский; V. Средне-Азиатский; VI. Закавказский; VII. Северо-Восточный; VIII. Центральный.

Особо отметим выделение в миграционной макро-сети Сибири, Казакской АССР и Северного Кавказа в качестве самостоятельных и уникальных по характеру участия в миграционных процессах макрорайонов страны. Это представляется вполне естественным, особенно с учетом того, что из числа крестьян, сменивших в течение исследуемого периода регион проживания, 59, 6% переселились именно в эти три региона.

Интересный материал для интерпретации дают вычисления средних значений коэффициентов убытия, характеризующих структуру миграционных потоков между полученными кластерами (см. матрицу связи, табл. 1 и рис.5).

Таблица 1. Укрупненная сетевая структура межрегиональной миграции крестьян: матрица средних значений относительных коэффициентов убытия.

Укрупненные регионы (кластеры) миграционной сети

I

II

III

IV

V

VI

VII

VIII

I

-

31.8

5.2

1.5

0.5

0.1

9.5

2.1

II

19.0

-

8.9

1.6

7.3

0.1

0.8

3.6

III

10.6

27.5

-

2.7

1.3

5.1

1.8

2.0

IV

27.5

14.3

12.3

3.5

0.3

0.3

1.7

1.3

V

1.5

42.4

3.0

0.8

14.0

1.3

0.2

1.7

VI

1.2

1.6

62.1

1.1

0.4

11.4

0.1

1.3

VII

40.9

2.4

2.5

0.8

0.1

0.0

16.6

1.5

VIII

45.4

9.9

4.1

0.7

0.2

0.1

0.8

4.0