Статья: Проект создания Томского диалектного корпуса в свете тенденций развития корпусной лингвистики

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Источники и репрезентативность корпуса. Одним из основополагающих принципов создания любого корпуса является его репрезентативность, которая «гарантирует типичность данных и обеспечивает полноту представления всего спектра языковых явлений» [Захаров, 2005, с. 3]. Сведения о репрезентативности диалектных корпусов, представленные в общедоступных источниках, не всегда дают возможность сопоставить материал по объему, так как в одних случаях указывается количество часов записи, в других - количество текстов, в третьих - количество словоупотреблений. Параметрами репрезентативности диалектного корпуса, кроме объема материала, являются также число информантов, количество обследованных населенных пунктов, продолжительность временного периода осуществления записей.

Объем диалектных корпусов варьируется весьма сильно. Так, корпус бесермянского диалекта удмуртского языка насчитывает около 60 тыс. словоупотреблений http://beserman.ru/corpus/search/?interface_1anguage=ru. Наиболее обширные диалектные корпуса из известных нам Если не брать в расчет web-корпуса, созданные на материалах, размещенных в Ин-тернете. - база данных баварских диалектов немецкого языка (обследовано в общей сложности 1 613 баварских деревень, получено около 4 млн ответов на вопросники) http://www.baydat.uni-wuerzburg.de:8080/cocoon/baydat/projektinfo_BayDat, корпус шотландских текстов, насчитывающий более 4,5 млн словоупотреблений http://www. scottishcorpus. ac.uk/advanced-search/, и диалектный корпус скандинавских языков, содержащий около 2,8 млн слов из разговоров и интервью http://www.tekst1ab.uio.no/nota/scandiasyn/index.htm1; см. также [Johannessen et я1., 2012].. Объем около миллиона словоупотреблений можно, по-видимому, считать средним для диалектного корпуса. Так, Грузинский диалектный корпус насчитывает 1 871 459 слов, Эстонский диалектный корпус - 1 284 000 слов http://www.murre.ut.ee/estonian-dialect-corpus/, в Ланкастерско-лос-анджелесский корпус разговорного китайского входит 1 002 151 слово http://www.lancaster.ac.uk/fass/projects/corpus/LLSCC/. Хельсинкский корпус британских диалектов включает 1008 641 словоупотреблений http://www.helsinki.fi/varieng/CoRD/corpora/Dialects/.

Диалектный подкорпус НКРЯ, судя по статистике, пока не отличается ни достаточным объемом (197 текстов, или около 200 000 словоупотреблений) http://www.ruscorpora.ru/corpora-stat.html, ни пропорциональностью представления говоров разных территорий и типов. Складывается парадоксальная ситуация, при которой созданные корпуса отдельных территорий близки по объему к диалектному подкорпусу русского языка, цель которого - охватить территорию страны в целом. Так, корпус говоров р. Устья насчитывает более 800 000 словоупотреблений http://parasolcorpus.org/Pushkino/stats.php.

В отношении ТДК можно сказать, что корпус базируется на экспедиционных материалах 70-летнего изучения среднеобских говоров Систематические полевые выезды для собирания диалектного материала стали осу-ществляться в Томском университете с 1946 г. [Томская диалектологическая школа, 2006, с. 16-20] и продолжаются по сей день. Недавно в распоряжение томских диалектологов поступили копии рукописных материалов экспедиций проф. А. Д. Григорьева, впервые осуществившего лингвистическое обследование этого региона в 1917-1922 г., обследовании около 400 сел региона, архивных записях (1 300 тетрадей, 200 часов звучания), что позволяет считать его достаточно репрезентативным в плане охвата материала. На данный момент в корпус входит более 600 текстов, около 700 тыс. словоупотреблений. Основная часть материалов находится в закрытом доступе, в свободное пользование предоставлена демонстрационная версия корпуса http://losl.tsu.ru/?q=corpus/demo.

Вместе с тем в связи с экстралингвистическими причинами строгой сбалансированностью представления материалов различных временных срезов, групп говоров (нарымские, прикетские, приобские, притомские, причулымские) и говоров отдельных сел ТДК не отличается. Следует отметить также, что в течение многих лет основной целью диалектологов было полевое исследование только русских старожильческих говоров региона, носителями которых являются потомки первых поселенцев. Речь диалектоносителей более поздних волн переселения фиксировалась в меньшей степени. Записанные тексты в основном представляют собой «полуаутентичные», «провоцируемые» тексты с заданной собирателями темой коммуникации и вкраплениями спонтанной речи, типичные для условий полевого сбора материала.

Ориентация корпуса. Отражая этапы развития лингвистики в целом и диалектологии в частности, основная часть созданных диалектных корпусов ориентирована на представление системно-структурных особенностей местных говоров. Ряд диалектных корпусов (корпуса китайского языка, база данных баварских диалектов и др.) предназначен, прежде всего, для фонетических исследований. Основным видом разметки в большинстве случаев является морфологическая.

Ярким примером такого подхода к репрезентации местных говоров является диалектный подкорпус НКРЯ. Его принципы базируются на последовательном сравнении русских диалектов с литературным языком - прежде всего в области морфологии и лексики; с этой целью разработана система маркеров, выделяющих грамматические и лексические территориальные отличия от кодифицированной языковой подсистемы [Летучий, 2005, с. 215]. После недавней частичной корректировки концепции этого ресурса появилась возможность обращения исследователя к полному тексту [Качинская, Сичинава, 2015].

Вместе с тем развитие науки о языке выдвигает перед областными корпусами новые задачи. Движение лингвистики в направлении от структурной к функциональной и когнитивной парадигмам вызывает необходимость изучения дискурсивных практик носителей языковой системы, исследования типов организации текста, отражения в них картины мира, мировосприятия и миропонимания homo loquens, выявления особенностей коммуникации в зависимости от социальной среды, условий общения и т. д. Активно анализируется метаязыковая рефлексия носителей языка, ставшая предметом перцептивной диалектологии [Anders еt al., 2010; Александров, 2013].

Усиливается внимание к проблеме языка и культуры, оформляются как самостоятельные области знания лингвокультурология и этнолингвистика. На рубеже ХХ-ХХ1 столетий формируется коммуникативная диалектология. В ней «вырабатывается новый подход к пониманию специфики диалекта, согласно которому своеобразие говора не сводится к его структурным особенностям в области фонетики, грамматики и лексики, а проявляется также в строении диалектных текстов, в соотношении различных жанров в составе диалектной коммуникации, в особых приемах раскрытия темы, в когнитивных особенностях диалектной речи, в особой картине мира, реализуемой в общении на диалекте» [Крючкова, 2007]. Все большее внимание (в том числе и в диалектной лексикографии) уделяется недифференциальному анализу местных говоров, общим принципом которого является изучение не только диалектных черт, но и общерусских элементов речи диалекто- носителей, системных связей всех единиц лексикона.

Эти новые веяния нашли отражение и в сфере создания новых электронных ресурсов. Диалектные корпуса, существующие как в России, так и за рубежом, имеют несколько иную ориентацию по сравнению с корпусами литературных текстов. В болгарском, эстонском, скандинавском, шотландском, португальском диалектных корпусах предусмотрены как поиск по слову, так и просмотр целостных текстов, а также прослушивание аудио. Диалектные корпуса испанского и польского языков представляют собой, по сути, библиотеки текстов: поиск по слову в них невозможен, но представлены целостные тексты и аудиофайлы. В других случаях (Грузинский диалектный корпус и др.) возможен только поиск по слову, не предусмотрено обращение к целостным текстам. В целом же текстоцентрическую направленность и мультимодальность (доступ к звуковым файлам, интерактивным картам, фотографиям) можно считать типичной для зарубежных диалектных корпусов.

Создаваемый в России Саратовский диалектологический корпус ставит своей целью моделирование коммуникации в конкретных говорах, репрезентирующих специфику традиционной русской культуры сельского общения. Решение этой задачи осуществляется путем подачи текстов на широком культурном фоне, с привлечением исторических, географических, этнографических сведений, подробном комментировании упоминаемых в речи носителей говора событий, лиц, природных объектов, артефактов и т. п. [Крючкова, Гольдин, 2011]. Лингвокультурологическую направленность имеют также Электронный корпус диалектной культуры Кубани, отражающий тематически ориентированные фрагменты регионального дискурса («Обрядовая культура», «Традиционные верования», «Промысловая культура», «Бытовая культура» и др.) [Трегубова, 2015] и электронный текстовый корпус лингвокультуры Северного Приангарья http://angara.sfu-kras.ru/?page=dialect#.

Томский диалектный корпус также вписывается в новую лингвистическую проблематику. Он задуман с целью изучения своеобразия традиционной народноречевой культуры, репрезентированной в дискурсивной практике носителей сибирских старожильских говоров Среднего Приобья. Эта направленность обусловлена как общими процессами развития науки о языке, в том числе корпусной лингвистики и диалектологии, так и сферой интересов исследователей томской диалектологической школы. Ориентация на текст как единицу представления диалектного дискурса дает возможность изучать тематику общения на диалекте, систему речевых жанров, метаязыкового сознания диалектоносителей, своеобразие проявлений речевой культуры, роли фольклора в повседневной речи сельчан, влияния интенционального дискурса на бытовую личностно-ориентированную сферу общения и др.

Создаваемый текстоориентированный корпус одновременно можно охарактеризовать как лексикоориентированный. Несмотря на то, что в среднеобских говорах детально описаны все ярусы языковой системы, одним из центральных объектов анализа на протяжении всего периода их изучения является лексика. При этом от выявления собственно диалектных лексем и создания дифференциальных толковых словарей в 50-70-е гг. ХХ в. диалектологи перешли в 80-90-е гг. к описанию системных связей лексических единиц говора и составлению словарей полного типа, а в последние десятилетия - к лингвокультурологическому анализу диалектной концептосферы, реконструкции ментальных черт языковой личности диалектоносителя. Эти задачи также решаются с опорой прежде всего на лексические средства их выражения с учетом семантики, сочетаемости и контекста.

Представление материалов, структура ТДК и виды разметки

Своеобразие имеющегося архива, формировавшегося диалектологами в течение многих десятилетий, связано с последовательным отражением на разных этапах экспедиционной работы различных форм сохранения устной речи в полевых условиях: от ручной блокнотной фиксации (в том числе в транскрибированном виде) до регистрирования связных текстов диалектоносителей на магнитной ленте и цифровых носителях. Сложная задача их унифицирования решается через оцифровку всех сохранившихся аудиоматериалов экспедиций прошлых лет и переведение в электронный набор всех видов экспедиционных записей. В целях единообразной подачи разнородных первичных данных в качестве базового способа представления звучащей речи принята орфографическая запись с передачей отдельных региональных особенностей. При этом предусмотрен доступ к первоисточникам: просмотр сканированных рукописных текстов (для ранних записей) или прослушивание имеющихся аудиофайлов (для поздних).

В качестве базовой макроформы представления материала в корпусе избран текстовый файл, отражающий полный эпизод общения диалектоносителя с собирателем. Пользователям корпуса будут доступны как фрагменты текста, так и целостный файл. Текст представлен в традиционном для томской диалектологической школы орфографизированном виде, сохраняющем отличные от литературной нормы черты произношения и грамматики (долгие твердые шипящие, цоканье, стяженные формы глаголов и прилагательных и т. п.). Отсутствие транскрибированной расшифровки аудиозаписей компенсируется возможностью доступа к звуковым файлам. Отмечаются нераспознанные фрагменты звучащей речи, вопросы и реплики собирателей материала при диалогическом общении с информантами; даются комментарии диалектологов, способствующие пониманию ситуации и содержания текста. При наличии соответствующих материалов предполагается также дополнение текстовой части рисунками, фотографиями.

Некоторые электронные базы данных (в частности, корпус грузинских диалектов) используют для расширения материала иллюстрации из опубликованных областных словарей [Беридзе, Надараиа, 2011]; вологодский корпус также включает тексты местной публицистики и беллетристики [Задумина, 2004]. Хотя среднеобский регион является одним из наиболее полно отраженных в диалектной лексикографии, такой способ пополнения ТДК не рассматривался: иллюстративные материалы словарей не отвечают принципу включения целостных, связных текстов. Вместе с тем идея связки корпус - словарь может быть реализована в другом виде. Планируется перевод опубликованных диалектных толковых словарей изучаемого региона в электронный формат, создание поисковой системы по этим словарям и ее привязка к текстовому корпусу. Это позволит в перспективе и решить задачу представления семантики областных слов в ТДК, и более эффективно использовать корпус для развития лексикографической базы (уточнение значения зафиксированных слов, пополнение иллюстративной части словарей, включение новых словарных статей). Таким образом, архитектоника корпуса, который на первом этапе разработки будет включать дешифрованные тексты, звуковые материалы и сканированные блокнотные записи, впоследствии дополнится лексикографическим разделом. Аналогичный подход представлен, например, в Болгарском диалектном корпусе, где имеется перевод на английский язык, и в диалектных корпусах, созданных на материале различных языков народов России, - например вепсского языка, где имеется перевод на русский.