Статья: Анализ топологии и оценка точности лексикостатистических классификаций (на примере славянских языков)

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

13. Словенский д. Била. Говор деревни Била (ит. San Giorgio, в говоре -- Bila) в Резьян- ской долине в Италии. Материал записан в 1987-1991 гг. Х. Стенвейком (Steenwijk 1992). Говор относится к резьянскому диалекту приморского наречия.

14. Словенский д. Брдо. Говор Зильской долины в Австрии. Материал был собран Т. Пронком в 2001-2006 гг. преимущественно у одной информантки, которая родилась и выросла в деревне Эгг (нем. Egg bei Hermagor, в говоре -- Brdo), а после замужества проживала в Почахе (нем. Potschach, в говоре -- Pdtocani) (Pronk 2009). Говор относится к зильскому диалекту каринтийского наречия.

15. Прлекийский словенский. Говор деревень Бренгова (слвн. лит. Brengova, в говоре -- B'rиpgova) и Ценкова (слвн. лит. Cenkova, в говоре -- 'Cиpkova), входящий в северо-западную часть прлекийского диалекта паннонского наречия. Словарь составлен Б. Райхом (Rajh 2010).

16. Подкрконошский чешский. Диалект чешского Подкрконошья (чеш. Podkrkonosi), территории к югу от Крконошских гор (Bachmannova 2016).

17. Моравский чешский д. Мистршице. Говор деревни Мистршице (чеш. Mistfice), находящейся в 7 км от города Угерске-Градиште в Моравии. В словарь, составленный И. Малиной, включены также некоторые лексемы, записанные в соседних населенных пунктах (Malina 1946).

18. Словацкий деревни Пилишсанто. Переселенческий говор деревни Пилишсанто (венг. Pilisszвntф), расположенной недалеко от Будапешта. Словаки поселились там предположительно в начале XVIII века. Большая часть пришла с территории Малых Карпат и говорила на западнословацком диалекте. Материал был собран Ф. Грегором в 1950-е гг. (Gregor 1975).

19. Малопольский д. Венцюрка. Говор деревни Венцюрка (пол. Wiзciфrka), расположенной в мысленицком повяте Малопольского воеводства. Словарь, составленный уроженцем Венцюрки М. Куцалой, включает лексику, собранную в трех деревнях: Венцюрка (основной материал словаря), Сидзина-Гурна (Sidzina Gфrna) и Фацимех (Facimiech) (Kucala 1957).

20. Коцевский великопольский. Говоры региона Коцеве (Kociewie), относящиеся к великопольскому диалекту. Материал был записан Б. Сыхтой в 1930-1970-е гг. (Sychta 1-3).

21. Белорусские говоры Гродненской области. Говоры Гродненской области Белоруссии, входящей в ареалы юго-западного и центральнобелорусского диалектов. Материал собран Т. Ф. Стешкович в 1948-1960 гг. (Сцяшковіч 1972; Сцяшковіч 1983).

22. Белорусские говоры Турова и окрестностей. Говоры города Турова и 33 деревень в его окрестностях. Относятся к юго-западному диалекту белорусского языка. Материал записан коллективом исследователей в экспедициях 1967-1981 гг. (ТС 1-5).

23. Украинский д. Торунь. Говор села Торунь (местное произношение -- Torun) в Закарпатской области. Относится к восточнобойковской группе юго-западных украинских говоров. Материал собран экспедицией под руководством С. Л. Николаева в 1990 г. (Николаев, Толстая 2001).

24. Русский д. Деулино. Говор деревни Деулино (Рязанская область), относящийся к рязанской группе говоров южнорусского наречия. Материал записан в 1960-1963 гг. (ССРНГ 1969).

25. Русский д. Островцы. Говор деревни Островцы (Псковская область), относящийся к гдовской группе говоров среднерусского наречия. Материал собран в 1995-1998 гг. З. Хон- селааром и опубликован в виде монографии, включающей словарь (Хонселаар 2001).

Как мы видим, имеющийся материал несколько неоднороден: какие-то словари предоставляют в наше распоряжение материал говора лишь одного населенного пункта, какие-то -- нескольких, какие-то -- целого большого региона. Некоторые словари являются дифференциальными, то есть дают лишь ту лексику, которая отличается от лексики литературного языка (и тогда собирать списки базисной лексики приходится по большей части из примеров, имеющихся в словаре), другие же -- недифференциальными, то есть описывают словарный состав говора во всей его полноте. Кроме того, данные были записаны были в разное время и исследователями с отличающимися подходами. Неоднородность исходных данных значительно усложняет задачу для исследователя, желающего построить лексикостатистическое древо, и оказывает непосредственное влияние на качество полученной в итоге классификации.

Определенные искажения в структуру древа вносят случаи заимствований (в базе данных Starling им присваивает значение «-1») и синонимов или супплетивизма, когда одной строке в базе соответствует два или более корней. Также, к сожалению, не для всех списков удалось собрать полные 110-словные списки, иногда искомый материал отсутствует в словаре. В таблице 1 мы приводим краткие сведения о подобных изъянах в материале.

Оговорим сразу, что на основании собранных нами 25 списков нельзя построить репрезентативную классификацию славянских языков, поскольку они покрывают славянский мир неравномерно, и для создания качественного лексикостатистического древа требуется значительно больший объем данных. Однако в рамках данной работы мы и не ставим перед собой такой задачи. В нашем случае мы планируем использовать имеющийся славянский материал для проверки и уточнения некоторых аспектов современной лексикостатистической теории.

Анализ лексикостатистической классификации

Для расчета долей совпадений между 110-словными списками славянских идиомов и построения их генеалогической классификации использовалось приложение Starling («стандартный» метод). В результате проведённых вычислений была получена исходная лексикостатистическая матрица -- Таблица 3 (см. Приложение), а также генетическое древо, представленное на рис. 2 ниже. Рассмотрим его более подробно.

Таблица 1

Лакуны, заимствования и синонимы в используемых списках

№	Название	Лакуны	Заимствования	Синонимы или супплетивизм
1	Банатский	0	2 (belly, rain)	4 (bird, I, smoke, go)
2	Горно-Каленик	3 (bark, fat, swim)	1 (liver)	4 (come, I, person, say)
3	Загарач	1 (cloud)	0	7 (ashes, dog, I, leaf, person, say, we)
4	Вргада	0	2 (liver, sand)	4 (belly, I, person, we)
5	Орлец	0	1 (round)	3 (I, person, we)
6	Орбаничи	0	3 (dog, man, sand)	6 (fat, I, many, worm, person, we)
7	Девинска-Нова-Вес	0	3 (road, tree, snake)	3 (I, person, we)
8	Градищанский кайкавский	2 (moon, snake)	0	5 (belly, I, person, say, we)
9	Чабарский	0	0	4 (burn, person, road, we)
10	Костельский		1 (belly)	4 (I, louse, person, we)
11	Чрновршский	0	0	4 (I, many, person, we)
12	Затолмин	1 (worm)	0	3 (I, person, we)
13	Била	1 (warm)	5 (bark, fat, feather, mouth, tree)	4 (I, kill, person, we)
14	Брдо	0	2 (fly, neck)	3 (I, person, we)
15	Прлекийский	2 (bark, round)	1 (belly)	3 (I, person, we)
16	Подкрконошский	0	0	4 (I, many, person, we)
17	Мистршице	4 (cloud, fat, mountain, sand)	0	3 (I, person, we)
18	Пилишсанто	2 (bark, root)	1 (sand)	4 (cloud, I, person, we)
19	Венцюрка	0	5 (bark, feather, heart, red, skin)	4 (big, I, person, we)
20	Коцевский	1 (yellow)	2 (heart, red)	4 (I, many, person, we)
21	Гродненский	0	6 (heart, red, see, seed, skin, worm)	3 (hair, person, we)
22	Туровский	0	3 (dog, red, see)	5 (cloud, I, liver, person, we)
23	Торунь	1 (tooth)	3 (one, seed, short)	3 (I, many, we)
24	Деулинский	0	2 (cloud, dog)	3 (I, person, we)
25	Островцы	1 (horn)	3 (cloud, say, what)	5 (ashes, I, long, person, we)

В целом полученную классификацию можно охарактеризовать как удовлетворительную. На древе отчетливо выделяются болгаро-македонский, восточно-славянский, словенско-сербохорватский и западнославянский таксоны. Отсутствие объединения болгаро-македонского и сербохорватско-словенского таксонов в южнославянскую подгруппу само по себе не является критическим: ряд исследователей не поддерживает выделение такой подгруппы в составе славянских языков (см. обзор в Blazek 2017). Намного важнее то, что на самом нижнем уровне древо выглядит неверно: болгаро-македонский таксон объединен с восточнославянским, а словенско-сербохорватский -- с западнославянским. Сербохорватские и словенские идиомы, представленные наибольшим числом списков, в рамках своих таксонов ведут себя не вполне корректно: словенские говоры выстроились «лесенкой» без какого-либо выраженного диалектного деления. Из шести сербохорватских списков четыре являются чакавскими, однако они не выделились в особую подгруппу, а объединились попарно и разбились штокавским и кайкавским списками.

Таким образом, положительно можно оценить «среднюю» часть древа (то есть объединение идиомов в четыре подгруппы), и отрицательно - «нижнюю» и «верхнюю» части, в которых мы наблюдаем фантомные корневые узлы и ступенчатое членение словенских и сербохорватских говоров, не соответствующее лингвистической действительности.

Перейдем теперь к анализу внутренних свойств классификации и выясним, насколько ее структура зависит от изменений в составе рассматриваемых языков. Для этого сформируем из них 25 дополнительных выборок, поочередно исключая из полного списка по одному идиому, а затем сравним деревья, построенные для каждого нового набора, с исходным. В результате сопоставления Все полученные деревья, а также исходные лексикостатистические данные представлены в сопровождающих материалах, которые доступны онлайн на сайте ВЯР. были найдены три идиома, исключение которых из классификации привело к значимым изменениям в топологии древа:

1. Македонский говор д. Горно-Каленик;

2. Чакавский сербохорватский говор д. Орлец;

3. Градищанский кайкавский сербохорватский.

Начнем наше рассмотрение с первого случая. На рис. 3 приведено генеалогическое древо 24-х славянских языков с исключенным македонским говором. Сравнивая его с исходной классификацией (рис. 2), мы обнаруживаем, что все основные таксоны, соответствующие восточнославянской, западнославянской, сербохорватско-словенской подгруппам, полностью сохранили свою целостность и внутреннее строение. В то же время сокращение выборки привело к неожиданным и весьма существенным изменениям в корневой части древа: после исключения македонского восточнославянские идиомы образовали единую общность с сербохорватскими, словенскими и западнославянскими языками, тогда как банатский болгарский оказался обособленным от всех остальных идиомов При этом разница между первым (корневым) и вторым узлами древа, соответствующим отделению болгарского и началу разделения остальных групп, достигает 2% (что эквивалентно разнице в 2 слова при сравнении 100-словных списков)..

Последнее отличие выглядит особенно проблематично, так как раннее отделение болгарского от основного массива славянских говоров не подтверждается никакими лингвистическими данными.

На первый взгляд, примеры такой вариативности в конфигурации древа при минимальных изменениях в составе языков заставляют усомниться в практической ценности лексикостатистических классификаций и перспективах использования методики в целом. Однако, прежде чем делать подобные неутешительные выводы, следует принять во внимание, что доли совпадений, определяющие последовательность объединения таксонов и взаимное расположение узлов древа, в действительности являются не детер- минированными То есть точно заданными., а статистическими величинами К сожалению, это важное обстоятельство, указание на которое содержится в самом названии лекси- костатистики, в большинстве случаев попросту игнорируется при анализе лексикостатистических расчетов, что неизбежно приводит к абсурдным результатам и в конечном итоге дискредитирует весь метод в целом., которые обусловлены случайным характером процесса лексических замен и могут отклоняться от расчетных значений в большую или меньшую сторону. Это означает, что проценты совпадений, соответствующие узлам древа, имеют некоторый разброс -- погрешность, которую необходимо учитывать как при построении, так и последующем анализе найденной топологии. Для количественной оценки данной погрешности мы воспользуемся величиной среднего абсолютного отклонения Методика расчета среднего абсолютного отклонения подробно излагается в работах Васильев 2010: 538-540; Васильев, Коган 2013: 160., общий смысл которой поясним на следующем примере (см. табл. 2 и рис. 4):

Таблица 2

Проценты совпадений между списками языков A, B и C

Языки	A	B	с
A	-	90	84
B	90	-	86
C	84	86	-

Рисунок 2 Лексикостатистическая классификация 25 славянских языков, полученная с помощью Starling (метод «Standard»). Значения на шкале и рядом с узлами древа соответствуют процентам совпадений

Рисунок 3 Генеалогическое древо 24 славянских идиомов, после исключения македонского. Значения на шкале и рядом с узлами древа соответствуют процентам совпадений

Смотрите также:


«ДОХОДЫ, РАСХОДЫ И ПРИБЫЛЬ КОММЕРЧЕСКОГО БАНКА.»
«ДОХОДЫ, РАСХОДЫ И ПРИБЫЛЬ КОММЕРЧЕСКОГО БАНКА.»
Значение, сущность и содержание социально — педагогической деятельности в организации для детей-сирот и детей, оставшихся без попечения родителей
Проактивные методы PR-деятельности российских авиационных компаний «Россия», «Азимут»
__RGR2
__RGR2
_10_Эмиль Золя для эл версии
_11_А. Франс для эл версии
_2 тема-Дефекты (тезисы)