Статья: Анализ топологии и оценка точности лексикостатистических классификаций (на примере славянских языков)

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Институт языкознания РАН

Анализ топологии и оценка точности лексикостатистических классификаций (на примере славянских языков)

М.Е. Васильев, М.Н. Саенко

Москва

Аннотация

Благодаря своей простоте и универсальности лексикостатистика остается одним из самых популярных методов для установления языкового родства и построения генеалогических классификаций. Среди российских компаративистов наибольшее распространение получило приложение Starling, использующее видоизменённую методику «присоединения соседей» при реконструкции филогенетических деревьев. Применение данной методики на материале разных языковых семей показывает хорошие или правдоподобные результаты в большинстве случаев. В то же время исследователи отмечают ряд недостатков в построенных классификациях, наиболее существенными из которых являются неустойчивость структуры древа даже к минимальным изменениям в составе идиомов, а также наличие в ней фиктивных таксонов и узлов, трудно объяснимых или противоречащих существующим представлениям.

В данной статье проводится детальное рассмотрение отмеченных проблем на примере лексической классификации 25 славянских идиомов. При этом показано, что главной причиной обоих явлений является несовершенство процедуры построения древа, используемой в Starling. По результатам исследования была предложена методика, позволяющая минимизировать влияние установленных недостатков путем выявления в топологии древа недостоверных узлов (на основе статистических расчетов) и их последующего исключения. Особенности предложенной методики делают ее применимой для анализа любых лексикостатистические классификаций, а также легко реализуемой в виде дополнительного компонента Starling или отдельного приложения.

Ключевые слова: лексикостатистика; метод присоединения соседей; генеалогическая классификация; среднее абсолютное отклонение.

Annotation

Mikhail Vasilyev, Mikhail Saenko. An analysis of the topology and estimation of accuracy for lexicostatistical classifications (on the data of Slavic languages)

Today, lexicostatistical methods are widely used in comparative-historical linguistics to establish linguistic kinship and build genealogical classifications. In works by Russian comparative linguists the most common technique is construction of phylogenetic trees obtained with the aid of the Starling software, developed by Sergei Starostin at the end of the 20th century. Starostin's algorithm was based on a modified method of "neighbor joining" and yielded satisfactory or plausible results in the vast majority of cases. At the same time, many researchers have pointed out a number of significant shortcomings in the obtained classifications, the most serious of which are the instability of the tree caused by even minimal changes in the number of idioms, as well as detection of a large number of fictitious taxa and nodes that are poorly explained or even contradict existing concepts. This article provides a detailed examination of these shortcomings based on the example of a new lexicostatistical classification for 25 Slavic lects. Upon detailed analysis, we propose a special procedure that allows to minimize the negative effect of identified deficiencies on the structure of the tree, making use of statistical analysis of the resulting topology and capable of identifying unreliable nodes within it. The technique is simple enough to to be practically implemented in the form of an additional Starling component or a separate application.

Keywords: lexicostatistics; neighbor-joining method; genealogical classification; mean absolute deviation.

Введение

Несмотря на то, что вопрос о надежности и эффективности лексического критерия при изучении языкового родства регулярно становится предметом обсуждения См., например, Бурлак, Старостин 2005: 148; Starostin 2010: 194; Поздняков 2014: 221-222; Грунтов, Мазо 2015: 211-216., лексикостатистические классификации по-прежнему остаются востребованными и одними из наиболее популярных среди исследователей. Главными причинами привлекательности лек- сикостатистики, очевидно, являются ее универсальность и относительная простота по сравнению с другими существующими методами. Так, например, если выявление общих инноваций, которое, как правило, считается более надежным классификационным критерием, требует диахронического исследования фонетических, морфологических и лексических изменений в каждом из сравниваемых языков на протяжении всего рассматриваемого периода, то для лексикостатистического анализа достаточно сведений о составе базисного словаря этих языков всего на один произвольно выбранный момент времени, причем для каждого языка этот момент может быть разным. Это обстоятельство не только значительно упрощает получение генеалогической классификации, но также позволяет использовать лексикостатистику для установления родственных связей между малоизученными языками, в случае с которыми применение других методов часто оказывается затрудненным из-за недостатка данных.

Еще одним немаловажным фактором является формализованный характер лексикостатистических расчетов, благодаря которому процедуру построения древа можно выполнить автоматически с помощью компьютерной программы. Такая возможность была реализована в приложении Starling StarLing for Windows, v. 2.6.10: computerized system for multilingual database processing, (c) 1985-2005 by S. A. Starostin, StarLing Software Inc. Текущая версия программы доступна на сайте проекта «Вавилонская башня» по адресу: https://starling.rinet.ru/downl.php?lan=ru#soft., разработанном С. А. Старостиным в 19852000 гг. и получившим распространение как среди российских, так и зарубежных компаративистов В отличие от многочисленных существующих программ для построения филогенетических деревьев, предназначенных в первую очередь для классификации биологических видов, Starling изначально создавался как специализированное приложение для сбора, обработки и анализа именно лексических данных, благодаря чему и завоевал свою популярность у лингвистов.. Для определения степени родства между языками программа рассчитывает процент этимологически совпадающих лексем в их 100-словных (или 110-словных) списках и по итогам расчетов формирует таблицу с долями совпадений между всеми идиомами попарно. Непосредственно построение генеалогического древа осуществляется на основе полученной таблицы с помощью методики Суть данной методики подробно разбирается в учебнике (Бурлак, Старостин 2005: 163-167). Некоторые из ее особенностей мы более подробно рассмотрим далее., представляющей собой несколько видоизмененный и адаптированный для лингвистического материала метод «ближайших соседей» Метод «ближайших соседей» или «присоединения соседей» (Neighbor-Joining Method) -- алгоритм построения филогенетических деревьев, в основу которого положен принцип последовательного попарного объединения «ближайших» (т.е. имеющих наибольшее сходство) таксонов. Первоначально метод предназначался для классификации нуклеотидных последовательностей (см. Saitou, Nei 1987), однако в дальнейшем стал широко применяться также за пределами генетики., широко применяемый в биологии.

За последнее десятилетие представителями Московской школы компаративистики был накоплен значительный опыт применения лексикостатистического метода для построения генеалогических классификаций различных языков мира, включающих как близкородственные малые группы, так и крупные языковые общности с большой временной глубиной. При этом построенные деревья повсеместно используются в ходе исследовательской работы, регулярно приводятся в научных публикациях, а также демонстрируются во время конференций.

Анализируя полученные результаты См., например, обсуждение полученных классификаций в работах Kogan 2016: 235-238; Vydrin 2009: 112-114., исследователи, как правило, подчеркивают полезность классификации в целом и акцентируют внимание на ее особенностях, значимых для целей исследования, но в то же время указывают на отдельные несоответствия в структуре древа, плохо поддающиеся объяснению или противоречащие известным данным. Среди таких странностей особо следует выделить два наиболее характерных недостатка, которые проявляются независимо от выбора рассматриваемых языков и, как можно предположить, обусловлены самой методикой формирования деревьев:

1. Конфигурация древа является неустойчивой и крайне чувствительна к изменению количества или состава идиомов. В частности, нередки случаи, когда исключение или добавление одного языка приводит к абсолютно неожиданным и радикальным изменениям в топологии, затрагивающим не только таксон с новым или исключенным элементом, но также ветви, максимально от него удаленные.

2. Древо содержит большое количество незначимых узлов, интерпретация которых крайне проблематична или невозможна на основании имеющихся сведений об истории развития языков и их взаимной дивергенции. Как правило, такие узлы располагаются в непосредственной близости или на незначительном временном расстоянии от других узлов, а иногда образуют непрерывные цепочки в виде характерной ступенчатой структуры.

Несмотря на то, что обе указанные особенности очень распространены (и хорошо знакомы всем пользователям Starling), они крайне редко удостаиваются отдельного обсуждения: в большинстве случаев авторы ограничиваются констатацией несовершенства методики, с которым неизбежно приходится мириться. При этом большинство исследователей признают, что наличие подобных «артефактов» существенно снижает практическую ценность построенных деревьев, а также ставит под сомнение их достоверность. Таким образом, мы сталкиваемся с необходимостью анализа выявленных методических погрешностей, а также поиска способов их оценки и минимизации.

В рамках нашей статьи мы рассмотрим возможный подход к решению данной задачи на примере лексикостатистической классификации 25 славянских языков и диалектов, уделяя особое внимание вышеупомянутым проблемам вариативности и незначимой кластеризации в строении деревьев.

Исходные данные

лексикостатистический филогенетический язык родство

Дадим краткое описание идиомов, списки базисной лексики которых задействованы в исследовании Большая часть списков с описанием и аннотацией доступна по ссылке https://starling.rinet.ru/cgi- bin/response.cgi?root=new100&basename=new100\ier\ slv.. В соответствии с принципами проекта «Глобальная лексикостатистическая база данных», в рамках которого были собраны списки, предпочтение отдавалась диалектным данным, поскольку базисная лексика литературных языков, предположительно, отличается большим консерватизмом.

1. Банатский болгарский. Переселенческий говор, на котором говорят болгары-католики в румынском и сербском Банате. Переселение состоялось в двух волнах. Сначала в 1688 г. после неудачного восстания в Валихию сбежали жители города Чипровци и окрестностей. В 1720-е гг. к ним присоединились так называемые павликиане из-под Свиштова и Николпола. Обе группы встретились и смешались в Банате, где восточноболгарский говор более многочисленных свиштовцев и николполцев почти полностью вытеснил западноболгарский говор чипровцев (Стойков 2002: 193). Словарь составлен выдающимся болгарским диалектологом С. Стойковым на материале, собранном начиная с 1953 г., преимущественно в румынских селах Стар-Бешенов (рум. Dudeзtii Vechi) и Винга (рум. Vinga) (Стойков 1968).

2. Македонский д. Горно-Каленик. Говор деревни Горно-Каленик, которая находится в Греции (греч. Ava KaAAiVLKn), недалеко от города Лерин (греч. ФАшргуа). Материал был собран П. Хиллом преимущественно в Австралии у македонцев, сбежавших из Греции во время гражданской войны (Hill 1991). Относится к леринскому говору юго-западного диалекта македонского языка.

Рисунок 1 География идиомов, списки которых используются в исследовании

3. Штокавский сербохорватский племени Загарач. Говор черногорского племени Загарач (местное произношение - Загарач), населяющего территорию вокруг горы Гарач (НупиЬ, НупиТ 1997). Относится к зетско-южносанджакскому диалекту штокавского наречия, согласно классификации П. Ивича.

4. Чакавский сербохорватский о. Вргада. Говор острова Вргада. Словарь составлен хорватским лингвистом, носителем говора, Б. Юришичем на основе записей 1908-1960 гг. (Jurisic 1973). По классификации Брозовича и Ивича, говор относится к южночакавскому диалекту.

5. Чакавский сербохорватский д. Орлец. Говор деревни Орлец (местное произношение - Цrlec), расположенной на острове Црес. Словарь составлен Х.П. Хоутзагерсом на основе полевых записей 1980-1982 гг. (Houtzagers 1985). По классификации Брозовича и Ивича, говор относится к северночакавскому диалекту.

6. Чакавский сербохорватский д. Орбаничи. Говор деревни Орбаничи (местное произношение -- Orbвnici), находящейся в двух километрах от города Жминь в центральной Истрии. Словарь составлен нидерландской исследовательницей Я. Калсбек на основе материала, собранного в 1980-1984 гг. (Kalsbeek 1998). Согласно классификации Брозо- вича и Ивича, говор относится к юго-западному истрскому диалекту чакавского наречия.

7. Чакавский сербохорватский д. Девинска-Нова-Вес. Переселенческий говор деревни Девинска-Нова-Вес в Словакии (по-словацки Devоnska Nova Ves, в говоре -- Nuфvo sиlo; в настоящее время -- район Братиславы). Носители говора -- градищанские хорваты, поселившиеся на этой территории в XVI в. Словарь составлен чешским исследователем В. Важным на основе полевых записей 1923-1926 гг. Помимо основного материала из деревни Девинска-Нова-Вес часть была записана в соседних деревнях Дубравка (Dubravka; Dubrava) и Ламач (Lamac; Lаmuoc) (Vazny 1927).

8. Градищанский кайкавский сербохорватский. Переселенческий говор, на котором говорят в двух деревнях в Венгрии -- Хидегшег (венг. Hidegsйg, произношение в говоре -- Hзdзsоn / Hedesоn) и Фертёхомок (Fertohomok; Homok). Предки носителей говора переселились в начале XVI века из Славонии, предположительно из населенных пунктов Кралева- Велика (Kraljeva Velika) и Меджурич (Meduric), которые находятся значительно восточнее современной границы кайкавского наречия. Словарь составлен Х. П. Хоутзагерсом на основе полевых записей 1985-1994 гг. (Houtzagers 1999).

9. Чабарский словенский. Говор окрестностей города Чабар (схр. Cаbar) в Хорватии. Словарь составлен С. Малнаром (Malnar 2008). Говор относится к костельскому диалекту доленьского наречия словенского языка.

10. Костельский словенский. Говор деревни Делач (произношение в говоре -- Delax) и окрестностей составляет южную часть костельского диалекта доленьского наречия. Словарь был составлен Й. Грегоричем, уроженцем Делача (Gregoric 2014).

11. Чрновршский словенский. Диалект плато Чрни-Врх (слвн. Crni Vrh) относится ров- тарскому наречию. Словарь был составлен И. Томинцем, носителем диалекта, преимущественно на основе говора его родной деревни Ломе (слвн. Lome) (Tominec 1964).

12. Словенский д. Затолмин. Говор деревни Затолмин (слвн. лит. Zatolmin, в говоре -- Zatmin), лежащей в 1 км от города Толмин в западной Словении, недалеко от границы с Италией. Материал собирался носительницей говора Х. Чуец-Стрес свыше десяти лет, начиная с 1996 г. (Cujec Stres 2011, 2014). Говор относится к толминскому диалекту ров- тарского наречия.