Статья: Анализ топологии и оценка точности лексикостатистических классификаций (на примере славянских языков)

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Рисунок 4 Генеалогическое древо языков А, В и С, полученное на основе таблицы

Согласно исходным данным (табл. 2), языки A и B являются ближайшими родственниками и образуют первый узел древа с процентом совпадений Nab=90, после чего к ним остается присоединить оставшийся идиом С (рис. 4). При этом количество совпадений между языками A и C и между языками B и C отличается на два слова (Nac=84; Nbc=86). Если мы исключим возможность заимствований и повторных сближений, то в рамках классической модели дивергенции такое расхождение можно объяснить только неравномерностью процесса замен в базисной лексике идиомов A и B, а именно: либо ускоренным лексическим изменением языка А, либо, наоборот, замедленным изменением языка В. Следовательно, в первом случае (с учетом двух «лишних» замен), количество общих слов в списках языков A и B составит Nab=90+2=92, а во втором Nab=90-2=88. Таким образом расчетная доля совпадений для узла A -- B может лежать в диапазоне от 88% до 92%, что численно соответствует величине абсолютного отклонения Eab, которая, для данного примера В общем случае (для группы с произвольным количеством идиомов) используется более сложная формула -- см. Васильев 2010: 540., рассчитывается по формуле:

Е AB--=| NAC--? NBC |=|84--? 86|= 2

Перейдем теперь к анализу полученных ранее классификаций славянских языков на основе средних абсолютных отклонений, рассчитанных для каждого узла (рис. 5 и рис. 6). Нетрудно заметить, что в строении обоих деревьев присутствует большое количество узлов, абсолютные отклонения которых накладываются друг на друга. Более того, среди них можно выделить несколько групп, в которых диапазоны отклонений включают в себя сами расчетные значения, полученные для соседних узлов. Особенно показательным примером является последовательное объединение идиомов Брда, Билы, Затолмина и Прлекии внутри словенской подгруппы, образовавших непрерывную цепочку из трех узлов с взаимным перекрытием. Причем в случае с Билой абсолютное отклонение составляет 2,6% и охватывает сразу два соседних узла.

Рисунок 5 Генеалогическое древо 25 славянских идиомов с указанными процентами совпадений и значениями средних абсолютных отклонений. Диапазоны отклонений, перекрывающие соседние узлы, показаны отрезками

Рисунок 6 Генеалогическое древо 24 славянских языков после исключения македонского. Рядом с узлами указаны значения процентов совпадений и средних абсолютных отклонений. Диапазоны отклонений, перекрывающие соседние узлы, показаны отрезками

Похожую ситуацию мы наблюдаем в основании деревьев. На рис. 5 корневой узел (со значением 73,6) перекрывается отклонениями обоих последующих узлов, в один из которых входят восточнославянский и болгаро-македонский таксоны, а в другой -- западнославянский и сербохорватско-словенский таксоны. Аналогично на рис. 6 узел, соответствующий отделению болгарского, лежит в пределах отклонений узла, объединяющего все остальные ветви древа Определить величину среднего абсолютного отклонения для корневого узла древа невозможно в силу особенностей методики -- а именно, отсутствия «внешних» (по отношению к образованному узлу) языков, относительно которых можно было бы выполнить расчеты..

В этом и аналогичных примерах разница между процентами совпадений близкорасположенных узлов лежит в пределах погрешности, что свидетельствует об их статистической неразличимости на основе имеющихся данных. Следовательно, такие узлы можно Подчеркнем -- статистическая неразличимость узлов не обязывает нас к их объединению, а только указывает на такую возможность. Поэтому, при наличии дополнительных (содержательных) аргументов в пользу дифференциации, близкие узлы не следует объединять, даже если диапазоны их отклонений взаимно перекрываются. рассматривать как некий континуум и заменить их одним или несколькими более крупными узлами, после чего рассчитать для них новые значения долей совпадений, а также средние абсолютные отклонения. При этом, если узлы, полученные в результате объединения, также окажутся взаимно перекрывающимися, то процедуру можно повторять до тех пор, пока расстояние между любыми соседними узлами не будет превышать величину отклонений Описанная методика представляет по сути своеобразный «топологический фильтр», который позволяет устранить случайные «помехи» в виде незначимых узлов, вызванных статистическими отклонениями в исходных лексических данных и «засоряющих» полезную структуру древа..

Применяя описанную методику к рассматриваемым классификациям, мы обнаружим, что после объединения узлов с перекрывающимися средними отклонениями и пересчета соответствующих значений оба древа оказались идентичными и приобрели вид, показанный на рис. 7. Очевидным образом это устраняет вариативность, вызванную изъятием македонского говора, поскольку конфигурация древа теперь остается неизменной вне зависимости от того, какую выборку (полную или сокращенную) мы используем. Кроме того, таксономическое «прореживание» позволило сократить количество фиктивных узлов Как мы уже отмечали, появление этих узлов вызвано недостатками бинарного принципа кластеризации, заложенного в методике «присоединения соседей», который не позволяет объединить более двух таксонов за один раз. в группе словенских говоров, а также других ветвях древа и тем самым значительно смягчить проблему «топологического шума», обозначенную ранее.

Рисунок 7 Генеалогическое древо славянских языков после объединения узлов с взаимно перекрывающимися диапазонами отклонений. Рядом с узлами приведены значения процентов совпадений и средних абсолютных отклонений

Рисунок 8 а) Расчет процентов совпадений по ми- б) Расчет процентов совпадений по среднему нимальному значению (Starling).

Рисунок 9 Древо, полученное для трех разных выборок сербохорватских идиомов

а) полный список языков;

б) после исключения чакавского говора д. Орлец;

в) после исключения градищанского кайкавского.

Доли совпадений для узлов рассчитаны по наименьшим значениям.

Учитывая эффективность предложенной методики в случае с македонским, можно предположить, что покажет хорошие результаты и в остальных двух случаях, выявленных нами при исследовании топологии древа. Напомним, что они оба связаны с сербохорватскими говорами: чакавским острова Вргада и градищанским кайкавским. В отличие от предыдущего примера, исключение каждого из этих идиомов привело только к локальным изменениям внутри самой сербохорватской подгруппы и не затронуло остальные ветви древа. Тем не менее, в каждом случае это заметно повлияло на конечный вид классификации (см. рис. 9). В частности, после изъятия чакавского (рис. 9б) структура древа меняется до неузнаваемости: ранее плотная группа, состоявшая из кай- кавского и двух чакавских говоров (Вргада и Девинска-Нова-Вес) распадается, причем один из них (Вргада) объединяется с другим чакавским (Орбаничи), второй образует группу со штокавским (Загарач), а кайкавский становится обособленным идиомом, первым отделившимся от всей группы. В случае с градищанским (рис. 9в) мы не наблюдаем каких-либо радикальных изменений в топологии, однако обратим внимание на расположение главного узла, связывающего основные три ветви подгруппы. Его значение увеличилось сразу на 3 процента (с 89% до 92%), в результате чего произошло его сближение с узлом Вргада -- Девинска-Нова-Вес (94%). Если теперь в каждом из трех фрагментов (а, б, в) мы объединим узлы с перекрывающимися отклонениями (они обведены пунктиром), то получим три несовпадающие топологии, что очевидно свидетельствует о неэффективности нашей методики в данном случае.

Как показывает дальнейший анализ, причина неудачи кроется в еще одном неучтенном факторе, а именно -- особом способе подсчета процентов совпадений для узлов древа, реализованном в Starling. Согласно описанию методики расчетов в работе (Бурлак, Старостин 2005: 163-167), при объединении близкородственных языков (с долей общей лексики более 70%), следует выбирать не среднюю, а минимальную долю совпадений между ними. Авторы объясняют это тем, что «при близком родстве языков возможно вторичное их сближение, при котором трудно отличить более поздние заимствования от исконно родственной лексики» Там же: 164.. Поясним этот принцип на уже знакомом нам примере с языками А, В и С и рассчитаем долю совпадения для узла, связывающего идиом С с группой A+B.

Поскольку процент совпадений между списками идиомов A - C и B - C не совпадает и больше 70%, то мы, следуя данному правилу, должны выбрать наименьшее из двух значений -- т. е. Nмин = NAC = 84 (рис. 8а). Отметим, что выбранное значение будет отличаться от среднего процента совпадений, который для тех же языков составит Nср= (NAC+ NBC)/2 = (86+84)/2 = 85 (рис. 8б). Причем это отличие может быть существенным, если разница между минимальным и максимальным долями совпадений окажется больше. Например, если мы примем количество общих слов в языках А и С (NAC) равным 80, то среднее и минимальная доли совпадений будут отличаться уже на 3 слова: Nср= (86+80)/2 = 83.

Несмотря на справедливость доводов, приводимых в пользу выбора минимального значения, использование такого подхода в предложенном виде трудно признать оправданным. Как уже говорилось выше, расхождения в процентах совпадений между объединяемыми языками или группами языков могут быть вызваны не только вторичным сближением между ними Которое проявляется в невыявленных поздних заимствованиях, завышающих процент совпадений при сравнении списков., но и -- в значительно большей степени -- самим случайным характером процесса лексических замен, в результате которого в лексике двух родственных языков за один и тот же выбранный промежуток времени может измениться разное количество значений. Подчеркнем, что данная неравномерность (в отличие от вторичных сближений) не зависит от условий дивергенции языков и привносит неизбежную погрешность в любые лексикостатистические расчеты, как при построении деревьев, так и при расчете глоттохронологических датировок Количественная оценка этой неравномерности для разных временных интервалов дана в статье Васильев, Саенко 2016: 272-275, а также Васильев, Саенко 2017: 128-133. Как показывают проведенные расчеты и результаты моделирования, представленные в статье, именно этот вероятностный характер процесса замен имеет определяющее значение для точности лексикостатистических расчетов.. Другими словами, расхождение между долями совпадений в рамках этих погрешностей не является аномалией само по себе, а лишь отражает случайную природу лексического процесса и в большинстве случаев не требует корректировки. Поэтому попытка устранения расхождений путем отбрасывания больших значений на практике приводит к систематическому искажению исходных данных Здесь нужно добавить, что в подобной ситуации неопределенности (т. е. когда невозможно установить, какие из данных достоверны, а какие -- искажены), в статистике принято использовать именно среднее значение. Применительно к нашему случаю это означает, что, если мы не можем установить факт влияния внешних факторов (будь то повторное сближение или согласованные изменения в лексике языков), то любые отклонения следует считать статистическими и, следовательно, использовать средние доли совпадений, так как замедление или ускорение процесса замен равновероятно. Предлагаемый же подход, очевидно носит не статистический, а детерминированный характер., в результате чего мы получаем заведомо заниженные проценты совпадений для абсолютного большинства языков, имеющих более 70% общей лексики Просматривая Таблицу 3, нетрудно убедиться, что к ним относятся почти все рассматриваемые славянские идиомы..

Посмотрим, насколько существенным оказалось это искажение в случае с классификацией сербохорватской группы. Для этого пересчитаем все доли совпадений по средним значениям (рис. 10) и сравним их с рассмотренными ранее.

Рисунок 10 Древо, полученное, полученная для трех выборок сербохорватских идиомов после пересчета долей совпадений по средним значениям: а) полный список языков; б) после исключения чакавского говора д. Орлец; в) после исключения градищанского кайкавского.

Прежде всего отметим, что группировка идиомов во всех трех деревьях осталась прежней. В то же время, как и ожидалось, переход к средним значениям привел к увеличению долей совпадений в основании деревьев, что отразилось в заметном сокращении расстояний между узлами. Так, в первом фрагменте с полным набором идиомов (рис. 10а), разрыв между первым и вторым узлом сократился с 5% до 0,5%, что фактически означает их полное совпадение. Во втором и третьем случаях (рис. 10б, в) это расстояние уменьшилось соответственно с 4% до 1,5% и с 2% до 1,5%, в результате чего разница между узлами оказалась в переделах статистической погрешности. Благодаря этим, на первый взгляд, несущественным изменениям, после объединения перекрывающихся узлов (обведены пунктиром) конфигурация двух деревьев (рис.10а и 10в) стала полностью идентичной, а третьего (с исключенным говором д. Орлец, рис. 10б) -- очень близкой к ним Отделение Девинска-Нова-Вес от Вргады и присоединение к говору д. Орбаничи объясняется тем, что в отсутствие орлецкого говора, они становятся ближайшими родственниками (95% совпадений) среди оставшихся идиомов, и поэтому связываются первыми.. Таким образом, переход к средним значениям при расчете долей совпадений, а также последующее устранение незначимых узлов древа позволили добиться топологической стабильности и прозрачности древа во всех трех случаях, выявленных нами в ходе анализа.

Рисунок 11 Генеалогическое древо 25 славянских идиомов с процентами совпадений, рассчитанными по средним значениям. Узлы с взаимно перекрывающимися диапазонами средних абсолютных отклонений обведены пунктиром

Вернемся теперь к исходной классификации (рис. 2) и повторим обе вышеописанные процедуры (пересчет долей совпадений по средним значениям и объединение перекрывающихся узлов) для полного генеалогического древа 25 славянских идиомов. Результаты вычисления долей совпадений по средним значениям приведены на рис. 11. Сравнение полученного древа с рис. 5 наглядно демонстрирует, насколько существенным может быть отличие между наименьшими и средними процентами совпадений. Так значение узла, объединяющего словенскую и сербохорватскую ветви, увеличилось на 6% (с 80 до 86%), а узла восточнославянских языков -- на 4% (с 84 до 88%). При этом доли совпадений некоторых узлов после пересчета стали очень близкими: например, словенские прлекийский, затолминский и Била или рассмотренные выше сербохорватские идиомы. Наконец, в одном случае изменения в долях совпадений потребовали пересмотра самой структуры древа: в результате увеличения значения корневого узла с 73,6 до 78% он оказался правее узла, связывающего восточнославянскую и болгаромакедонскую ветви со средним процентом совпадений 76%, что противоречит найденной топологии Данный пример свидетельствует о том, что использование минимальных значений вместо средних приводит не только к систематическому занижению долей совпадений, но влияет также на саму последовательность объединения таксонов, а следовательно -- непосредственно сказывается на полученной конфигурации древа..