Статья: Проект создания Томского диалектного корпуса в свете тенденций развития корпусной лингвистики

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Томский государственный университет

Проект создания Томского диалектного корпуса в свете тенденций развития корпусной лингвистики

С.С. Земичева

Е. В. Иванцова

Представлена концепция диалектного корпуса, репрезентирующего речь русских диалектоносителей Сибири. Показано, что проект исследователей Томского государственного университета отражает общие тенденции развития мировой и российской корпусной лингвистики, в то же время отличаясь рядом параметров. Новизна разрабатываемого корпуса определяется объектом представления (говоры обширной территории Среднего Приобья), репрезентативностью (архив 70-летнего экспедиционного обследования около 400 сел региона), лексикоцентрической и текстоцентрической ориентацией, структурой ресурса, характером подачи и разметки материалов устной речи. Обосновываются принципы создания Томского диалектного корпуса и сферы его использования.

Ключевые слова: корпусная лингвистика, Томский диалектный корпус, русские говоры Сибири.

S. S. Zemicheva1, E.V. Ivantsova2

Tomsk State University, Tomsk, Russian Federation

The project of Tomsk dialect corpus

in keeping with trends of corpus linguistics development

The concept of the dialect corpus representing the Russian dialect speech of the Middle Ob region is proposed. The authors demonstrate that the project of Tomsk dialect corpus corresponds to the key trends of modern corpus linguistics: the involvement of oral speech materials; attention to the regional variation of the language; the study of dialect as part of the traditional culture; multimodality. The novelty of the resource is determined by the material - it is one of the few corpuses that include the speech of residents of the vast Siberian region: the archive includes the results of a 70-year expedition survey of about 400 villages - and lexicocentric and textocentric orientation: the possibility of access to full texts is fundamentally important. The problem of representativeness and balance of the dialect corpus which has not been studied in the scientific literature is considered. Today, Tomsk dialect corpus includes approximately 700 000 words, allowing it to be considered as a fairly representative collection of dialect texts. At the same time, the special characteristics of the material result in the corpus being not strictly balanced. The texts are presented in spelling with some phonetical features of the dialect. The structure of the new electronic resource involves 3 types of markup: passport, thematic and type of text. Passport metamarkup includes extra-linguistic data about the texts: the place of recording, the date, the information about the informant (sex, age, place of birth, level of education, occupation). Thematic meta-markup is made by means of an inductive analysis of the discursive practices of old-timers. The list of topics is hierarchical, with each topic being three levels deep maximum. The principle of «soft» markup is used, with the possibility of simultaneously assigning several themes to the one text fragment. At the first level of the hierarchy, 16 macro-themes are marked (Work, Food, Nature, etc.), on the second - 64 topics. Firstly, the markup by type of text at this stage includes the degree of the spontaneity of speech events and, secondly, the most frequent speech genres. The prospects for using the resource are the study of Middle Ob dialects in linguocultural, genre, communicative, cognitive, linguopersonological and other aspects; the creation of new dialect dictionaries; the investigation of traditional culture and folklore, customs and rituals, history of the region.

Keywords: corpus linguistics, Tomsk dialect corpus, Russian dialects of Siberia.

Корпусная лингвистика как за рубежом, так и в России относится к числу наиболее актуальных сфер научного поиска. Корпусные разработки, как и словари, становятся не только источником данных, но и одним из эффективных методов лингвистического исследования [РегкиЬи, е! а1., 2012, р. 19]. В настоящее время мировой перечень лингвистических корпусов весьма обширен, они базируются на разном материале и предполагают решение разных задач. В то же время можно выявить некоторые закономерности и лакуны в рассматриваемой области науки.

Обзор существующих диалектных корпусов и их место среди других корпусных ресурсов

В составе национальных корпусов преобладают письменные тексты: так, в Британском национальном корпусе (BNC) на долю устной речи приходится около 10 млн словоупотреблений, или 17,8 % от общего объема корпуса1. В Национальном корпусе русского языка (НКРЯ) объем устного корпуса также около 10 млн словоупотреблений, что составляет, однако, всего 2,8 % от его общего объема М1р://%'«'«г.па1;согр.ох.ас.ик/согрш/т11ех.хтГ?ГО=питЬеге http://www.ruscorpora.ru/corpora-stat.h1mr. Из известных нам корпусов наиболее обширный материал устной речи включает корпус современного американского английского - 109 млн словоупотреблений, или 20 % всего корпуса http://corpus.byu.edu/coca/herp/texts.asp. Устная речь при этом понимается неоднозначно: для формирования и пополнения соответствующих подкорпусов используются прежде всего те тексты, которые уже представлены в расшифрованном и оцифрованном виде, в том числе записи теле- и радиопередач, стенограммы официальных мероприятий, переписка на интернет-форумах, фольклорные тексты, а также записи уроков, лекций, телефонных разговоров и т. п.

Создаются также корпуса, представляющие региолекты отдельных территорий. В качестве примера можно назвать банк «Голоса Юга», являющийся составной частью Американского национального корпуса http://newsouthvoices.uncc.edu/nsv, проект «Устная речь Финляндии: Разговорный язык в районе Хельсинки в 1972-1974 годах» http://www.Гing.heГsinki.fi/uhГcs/readme-aИ/README-uraГic-Гgs.htmГ#C34, корпус разговорной речи Парижа http://cfpp2000.univ-paris3.fr/Corpus.htmr и др. В России на протяжении нескольких лет реализуется проект «Один речевой день», в рамках которого изучается речь жителей г. Санкт-Петербурга. По данным 2016 г. объем корпуса составлял более 1 200 часов звучания и около 1 млн словоупотреблений текстовых расшифровок [Русский язык повседневного общения, 2016, с. 14]. Создан также небольшой (около 40 минут звучания, 5 000 словоупотреблений) корпус «Рассказы сибиряков о жиз- ни» http://www.spokencorpora.ru/showcorpus.py?dir=0Шfe; существует проект Томского регионального корпуса [Резанова, 2015]; разрабатывается концепция звукового корпуса русской речи различных регионов России [Ерофеева и др., 2015].

Диалектные подкорпуса в большинстве известных европейских и американских корпусов отсутствуют. Лишь в некоторых из них, например в Чешском и Британском национальных корпусах, при репрезентации устной речи предусмотрена возможность поиска по территории, что позволяет изучать зональное варьирование языка.

Создание диалектных корпусных ресурсов, таким образом, представляет собой актуальную задачу. Необходимость их разработки связана, думается, с поисками истоков национального самосознания, возрастающей потребностью современного человека в самоидентичности в условиях технизации, стандартизации, широкого распространения массовой культуры, приводящих к обезличиванию индивида.

Корпусным исследованием диалектов занимаются лингвисты Германии, Испании, Португалии, Польши, Болгарии, Финляндии, Норвегии, Швеции, Грузии, Китая. Результатом их деятельности стало множество созданных баз данных и корпусов диалектной речи. Диалекты Британии были исследованы в этом аспекте одними из первых, работа велась параллельно в нескольких странах. Результаты реализации проекта британских ученых по исследованию английских диалектов - «Survey of English Dialects» (SED) - представлены на сайте национальной библиотеки Великобритании в виде собрания аудиофайлов, снабженных коротким описанием http://sounds.bl.uk/Accents-and-dialects/Survey-of-English-dialects. Большая часть материала собрана по вопросникам в 50-60 гг. ХХ в. Всего представлено 287 интервью из разных регионов продолжительностью около пяти минут каждое. Есть возможность выбрать определенный регион или год записи. Достаточно репрезентативен Хельсинкский корпус британских диалектов, который строится на записях 70-80-х гг., сделанных учеными из Финляндии. Было обследовано 92 населенных пункта в шести районах страны, опрошено 237 информантов, зафиксировано 846 149 словоупотреблений http://www.helsinki.fi/varieng/CoRD/corpora/Dialects/basic.html. В Германии создан Фрайбургский корпус английских диалектов. Работа над ним ведется с 2000 г., заявленный объем корпуса - 2,3 млн словоупотреблений, однако материалы не представлены в свободном доступе из-за ограничений авторского пра- ва http://www2.anglistik.uni-freiburg.de/institut/lskortmann/FRED/ http://www.scottishcorpus.ac.uk/advanced-search/. Существует также корпус письменных и устных шотландских текстов11, где имеются возможности поиска по слову, доступа к полным текстам, прослушивания аудиозаписей.

На материале немецкого языка созданы банк данных разговорного немецкого языка, включающий диалектный подкорпус http://dgd.ids-mannheim.de/dgd/pragdb.dgd_extern.welcome и база данных баварских диалектов немецкого языка, объем которой оценивается создателями в диапазоне от 4 до 5 млн записей http://www.baydat.uni-wuerzburg.de:8080/cocoon/baydat/projektinfo_BayDat. Проект «The Nordic Dialect Corpus» http://www. tekstlab.uio.no/nota/scandiasyn/index. html содержит материалы диалектов нескольких скандинавских языков - норвежского, шведского, датского, фарерского, исландского.

Диалектные корпуса созданы также на материале других языков: испанского - «Corpus Oral y Sonoro del Espanol Rural» http://www.lllf.uam.es/coser/index.php, португальского - «The Syntax-oriented Corpus of Portuguese Dialects» http://www.clul.ulisboa.pt/en/10-research/314-cordial-sin-corpus, болгарского - «Bulgarian Dialectology as Living Tradition» http://bulgariandialectology. org/, польского - «Dialekty i gwary polskie. Kompendium internetowe» http://www.dialektologia.uw.edu.pl/, грузинского http://www.corpora.co/#/. В Китае, как указывают исследователи, наиболее активно изучается мандаринский диалект (Путунхуа), что связано с экстралингвистическими причинами, восприятием его как наиболее престижной разновидности китайского [Zu et al., 2002; Newman et al., 2008]. Современный мандаринский диалект китайского языка представлен в Ланкастерском корпусе, включающем письменные тексты http://www.lancaster.ac.uk/fass/projects/corpus/LCMC/, и корпусах устной речи: «Chinese Annotated Spontaneous Speech Corpus» (CASS), «Lancaster Los Angeles Spoken Chinese Corpus» (LLSCC); существует также корпус диалекта Вэньчжоу - «Wenzhou Spoken Corpus» (WSC) http://ntuprojects.com/wenzhou/, разрабатывался проект мультидиалектного китайского корпуса [Zu et al., 2002].

Создано несколько диалектных корпусов русского языка. Лишь немногие из них включают материалы из разных регионов страны: диалектный подкорпус в составе НКРЯ http://www.ruscorpora.ru/search-dialect.html, электронная база данных по русским говорам http://www.ruslang.ru/agens.php?id=krylov_dialect, акустическая база данных «Русские регионы» http://rureg.hs-bochum.de. Преобладают корпуса, созданные на материале конкретных регионов: корпус говоров р. Устья Архангельской области http://parasolcorpus.org/Pushkino/index.php, Кубанский диалектный корпус [Трегубова, 2015], Саратовский диалектологический корпус [Крючкова, 2007], вологодский мультимедийный корпус «Жизненный круг» [Задумина, 2004], электронный текстовый корпус лингвокультуры Северного Приангарья http://angara.sfu-kras.ru/?page=dialect#

Теоретические проблемы создания диалектных корпусов связаны в первую очередь со спецификой языковой системы местных говоров, имеющей значительные отличия от других форм национального языка. Создание диалектного электронного корпуса, как отмечает Т. Н. Москвина, сопряжено с целым рядом сложностей, среди которых «системные языковые отличия от литературного языка; исключительно устный характер диалектной коммуникации, как следствие - невозможность опереться на письменные источники; вариативность на всех уровнях, затрудняющая идентификацию единиц в корпусе», а также «собственно диалектная лексика, не поддающаяся простому переводу на литературный язык» [Москвина, 2014]. Затрудняет процессы формирования областных корпусов также собирание материалов для них в условиях языковой среды, к которой, как правило, не принадлежат диалектологи, трудоемкость экспедиционного сбора и обработки полученных данных, необходимость введения дополнительных параметров структуры и разметки корпуса, нерелевантных для кодифицированного языка, и мн. др.

В связи с обозначенными сложностями опережающими темпами развивается корпусная лингвистика на материале литературной письменной речи; диалектных корпусов в большом семействе электронных баз данных значительно меньше, чем основанных на литературном материале; значительно меньше и их объем; ждут решения многие теоретические проблемы, возникающие в связи с их созданием. Специфика материалов, имеющихся в том или ином региональном центре, накладывает отпечаток на каждую базу данных, несмотря на стремление к унификации корпусной продукции. Научные интересы лингвистической школы, в рамках которой создается новый электронный ресурс, также требуют выработки собственного подхода для решения данной задачи.

Разрабатываемая в Томском государственном университете концепция Томского диалектного корпуса (ТДК) вписывается в общий процесс развития корпусной лингвистики в целом и диалектных баз данных в частности, в то же время отличаясь от последних по ряду параметров.

Концепция Томского диалектного корпуса

Новизна ТДК определяется несколькими обстоятельствами.

Регион. Развивающаяся корпусная лингвистика в России опирается в основном на диалектные материалы европейской части страны. Это касается и сводных корпусов (НКРЯ, «Русские регионы»), где говоры восточнее Урала представлены единичными текстами, и локально ограниченных (Саратовская обл., Псковская обл., Кубань, Удмуртия, Вологодская обл., Архангельская обл.).

Существующие корпуса, созданные на материале сибирских говоров, пока весьма малы по объему. В частности, речь сибиряков отражена в уже упоминавшемся корпусе «Рассказы сибиряков о жизни» http://www.spokencorpora.ru/showcorpus.py?dir=01life. В 2017 г. создан электронный текстовый корпус лингвокультуры Северного Приангарья (202 текста, 60 тыс. словоупотреблений) http://angara.sfu-kras.ru/?page=dialect# http://tssw.ru.

ТДК является, таким образом, одним из первых опытов создания диалектного корпуса, в котором репрезентированы данные сибирских говоров. Его разработка вписывается в мультидисциплинарный проект изучения уникального природного и социокультурного ареала Сибири в исследовательском центре «Транссибирский научный путь» .

В ТДК представлена речь русских старожилов на территории средней части среднеобского бассейна. Это обширный регион, охватывающий села по течению рек Томи, Оби и их притоков, в границах современного административного деления относящиеся к Томской и центральным районам Кемеровской обл. [Русские говоры..., 1984, с. 5]. Русское население закрепляется здесь с XVII в., после присоединения Западной Сибири к России - первоначально в нескольких острогах с приписанными к ним населенными пунктами, позднее распространяясь на близлежащие земли. Традиционная культура русского старожильческого населения Приобья, в том числе языковая, «представляет собой своеобразный феномен, сформировавшийся в особых природных условиях на основе тесного взаимодействия с автохтонными народами и потому значительно отличающийся от этнокультурного облика центральных районов России» Зенько А. П. Русские старожилы Среднего Приобья: на стыке культур // Культурное наследие Югры: Электронная антология. ЦКЬ: http://hmao.kaisa.ru/ оЪ)ес1Л808928043?1с=т. Русские говоры Сибири являются вторичными, сложившимися в результате взаимного влияния речи старожилов и более поздних переселенцев - носителей русско-европейских материнских говоров с языком аборигенов края [Русские говоры..., 1984, с. 15].