Статья: Проект создания Томского диалектного корпуса в свете тенденций развития корпусной лингвистики

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Принципы разметки в ТДК имеют как достаточно стандартные черты, так и нововведения. Каждый вводимый в корпус текст подвергается трем типам разметки: паспортной, тематической и разметке по типу текста.

Паспортная разметка отражает экстралингвистические данные о времени, месте и характере записи, языковой личности информанта. Она включает дату сбора материала, населенный пункт, основные (ФИО, пол, год рождения) и дополнительные (образование, род занятий, места длительного проживания, информация о родителях и предках) сведения о диалектоносителе, архивный номер тетради.

Тематическая разметка в ТДК менее традиционна. Ее осуществление тесно связано с разработкой принципов тематического членения устной речи вообще и диалектной в том числе, представляющей собой сложную теоретическую задачу. В рамках корпусной лингвистики она еще только начинает решаться.

Существует точка зрения, что содержание включенных в корпус текстов не представляет интереса для лингвистов http://www.ruscorpora.ru/corpora-intro.html. Однако представляется, что в свете новых задач коммуникативной диалектологии оно не менее важно, чем формальные параметры дискурса. Отмечается и значимость разнообразия тематики корпуса для семантических исследований [Москвина, 2014].

Наиболее простым способом представления отдельных тем диалектного дискурса является вычленение его фрагментов по принципу тематических блоков (как в лингвокультурологических кубанском и вологодском корпусах) или моно- тематического сборника (как, например, в электронной базе данных «Устные рассказы о Великой Отечественной войне» http://nocpskoviana.pskgu.ru/war.php); при этом отражение тем оказывается избирательным. Создатели НКРЯ опираются на общий для всех частей корпуса достаточно обобщенный список тем, исходя из тезиса о том, что в речи диалекто- носителей «набор тем текстов мало отличается от литературного, но, естественно, гораздо более ограничен», а «диалектные тексты посвящены почти исключительно быту и обычаям» [Летучий, 2005, с. 230]. Это положение не может, на наш взгляд, рассматриваться как аксиома, а должно быть результатом анализа обширного материала народной речи. Кроме того, излишняя обобщенность выделения тем плохо соотносится с конкретностью мышления, характерной для диалектоно- сителей. Все включенные в национальный корпус диалектные тексты практически монотематичны, поскольку представляют собой сегменты полевых записей. Саратовские исследователи в основном следуют перечню тем национального корпуса с целью унификации данных при последующем сопоставлении. Вместе с тем они делают большой шаг вперед, исходя из реальности политематичной коммуникации, и указывают при разметке весь перечень затронутых в тексте тем в виде списка [Гольдин, Крючкова, 2006].

Текстовая разметка ТДК отличается как методикой, так и выделенным в конечном итоге составом тем. В качестве общих принципов разметки среднеобского диалектного дискурса по составу тем можно назвать следующие: вычленение тематики текста осуществлялось в направлении от частного к общему; иерархическое структурирование тем не превышало трех уровней (макротема - частная тема - коммуникативно значимая подтема); номинации тем по возможности соотносились с лексиконом рядового говорящего; при разметке использовалось «мягкое» членение, допускающее частичное наложение границ вычленяемых текстов. Состав тем также оказался иным, чем в диалектном подкорпусе НКРЯ и Саратовском диалектном корпусе: выделено 16 макротем («Работа», «Быт», «Еда», «Природа», «Происшествия» и др.) и 64 темы более частного порядка; в состав макротемы «Работа», например, входят темы «Обработка почвы», «Выращивание растений», «Заготовка кормов», «Выращивание животных», «Лесозаготовка», «Охота», «Ловля рыбы», «Шишкобой», «Сбор дикоросов», «Обработка льна», «Женские работы по дому», «Мужские работы по дому», «Прочие работы»; как высокочастотная в теме «Женские работы по дому» вынесена подтема «Рукоделие»). Отдельно маркировались атематические фрагменты, не отвечающие признакам связного текста, а также ситуативные включения, отражающие специфику устной коммуникации.

Кроме того, в ТДК введены виды разметки, которые пока не применяются в известных нам электронных базах данных. Получившая условное название «разметка по типам текста» отражает:

метатекстовые фрагменты - «вербализованные суждения о языке как результат осознания языковой действительности» [Ростова, 2000, с. 55]. Высказывания такого рода дают представление об отношении носителей говоров к своей речи, восприятии речи окружающих, значении диалектных слов, их системных связях и функциональных характеристиках (мотивированное/немотивированное, новое/устаревшее, узуальное/неузуальное для говора, нейтральное/сниженное и т. п.);

целенаправленную беседу с информантом по вопросникам. В данном случае маркируются фрагменты дискурса, наиболее далекие от естественной коммуникации диалектоносителей, но дающие лингвисту ценные сведения о семантике и употреблении лексических единиц, которые трудно выявить за короткие сроки в экспедиционных условиях. В комментарии отмечается характер вопросника: «Вопросник по теме “Растения”, "Обряды», "Рельеф”», «Вопросник для выявления мотивационных связей слов» и т. п.;

диалог или полилог диалектоносителей. Это фрагменты дискурса, наиболее приближенные к естественной коммуникации жителей села;

наиболее частотные речевые жанры бытовой коммуникации: автобиографический рассказ, рассказы о других лицах, рассказ о случае, воспоминание;

встречающиеся в текстах разновидности фольклорных жанров: песни, частушки, пословицы и поговорки, приметы.

В настоящее время разработана концепция Томского диалектного корпуса, техническая документация и программное обеспечение к нему; создан электронный архив диалектных текстов, включающий сканированные ручные записи экспедиций 40-80-х гг. (более 1 000 единиц хранения), аудиотеку и видеотеку; переведенные в компьютерный набор экспедиционные записи в объеме около 2 млн словоупотреблений; начат ввод текстов в корпус и их разметка.

Новый ресурс может быть использован при изучении русских народных говоров Сибири, обеспечивая доступ научной общественности к разнообразным материалам диалектологических экспедиций в Среднем Приобье, облегчая для исследователя трудоемкие задачи выборки данных и их системного анализа. Результаты работы над проектом внедряются в учебный процесс (практика по коммуникативистике для студентов-филологов, научно-исследовательская деятельность при обучении бакалавров, магистров и аспирантов), будут способствовать совершенствованию существующих диалектных словарей и созданию новой лексикографической продукции. Думается также, что Томский диалектный корпус внесет свой посильный вклад в исследование феномена народной речи во всем многообразии ее свойств.

Список литературы

Александров О. А. Диалектология восприятия: инновации в зарубежной лингвистике // Вестн. Иркут. гос. лингвистического ун-та. 2013. № 3(24). С. 52-58. URL: https://lib.mgpu.ru/materials/10/10912 .pdf

Беридзе М. М., Надараиа Д. В. Словарь как текстовый компонент корпуса (Корпус грузинских диалектов) // Тр. междунар. конф. «Корпусная лингвистика- 2011», 27-29 июня 2011 г., С.-Петербург. СПб., 2011. С. 92-97. URL: https:// events.spbu.ru/eventsContent/files/corpling/corpora2011/Beridze_92.pdf

Гольдин В. Е., Крючкова О. Ю. Тематическая разметка и тематический анализ диалектного текстового корпуса // Языковая личность - текст - дискурс: Теоретические и прикладные аспекты исследования: Материалы междунар. научн. конф.: В 2 ч. Ч. 1. Самара, 2006. С. 71-80.

Ерофеева Е. В., Вардёй Б., Краузе М., Пост М. Звуковой корпус региональной русской речи как инструмент изучения региолектов и их оценки наивными носителями языка // Русский язык и литература в пространстве мировой культуры: Материалы XIII конгр. Междунар. ассоциации преподавателей рус. яз. и литературы (МАПРЯЛ), 13-20 сент. 2015 г., Гранада, Испания. СПб.: МАПРЯЛ; Гранада, 2015. Т. 2. С. 84-88.

Задумина П. Н. О некоторых особенностях создания мультимедийного корпуса региональных текстов // Молодые исследователи - регионам: Материалы меж- дунар. науч. конф. Т. 3. Вологда, 2004. С. 194-196.

Захаров В. П. Корпусная лингвистика: Учеб.-методич. пособие. СПб., 2005. 48 с.

Качинская И. Б., Сичинава Д. В. Диалектный подкорпус сегодня // Тр. Ин-та рус. яз. им. В. В. Виноградова. Т. 6. М., 2015. С. 142-162.

Крючкова О. Ю. Электронный корпус русской диалектной речи и принципы его разметки // Изв. Саратов. ун-та. Новая сер. Филология. Журналистика. 2007. Т. 7, вып. 1. С. 30-34. URL: http://sarteorlingv.narod.ru/dialekt/elektr_korpus.html

Крючкова О. Ю., Гольдин В. Е. Корпус русской диалектной речи: концепция и параметры оценки // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегод. междунар. конф. «Диалог», 25-29 мая 2011 г., Бекасово. Вып. 10(17). М., 2011. С. 359-367. URL: http://www.dialog-21.ru/media/ 1437/36.pdf

Летучий А. Б. Корпус диалектных текстов: задачи и проблемы // Национальный корпус русского языка: 2003-2005. Результаты и перспективы. М., 2005. C. 215-233. URL: http://ruscorpora.ru/sbornik2005/13letuchy.pdf

Москвина Т. Н. Методы и подходы корпусной лингвистики в исследованиях семантики диалектной лексики // Современные проблемы науки и образования.

2014. № 6. URL: http://www.science-education.ru/ru/article/view?id=15784 (дата обращения 10.05.2017).

Резанова З. И. Лингвистический корпус «Томский региональный текст»: типологически релевантные параметры сбалансированности и репрезентативности // Вестн. Том. гос. ун-та. Филология. 2015. № 1(33). С. 38-50.

Ростова А. Н. Метатекст как форма экспликации метаязыкового сознания. Томск: Изд-во Том. ун-та, 2000. 193 с.

Русские говоры Среднего Приобья / Под ред. В. В. Палагиной. Ч. 1. Томск: Изд-во Том. ун-та, 1984. 208 с.

Русский язык повседневного общения: особенности функционирования в разных социальных группах / Отв. ред. Н. В. Богданова-Бегларян. СПб.: Лайка, 2016. 244 с.

Томская диалектологическая школа: Историографический очерк / Под ред. О. И. Блиновой. Томск: Изд-во Том. ун-та, 2006. 392 с.

Трегубова Е. Н. Многоуровневая тематическая разметка как инструмент этнолингвистической репрезентации диалектного дискурса в электронном текстовом корпусе // Вестн. Том. гос. ун-та. Филология. 2015. № 1(33). С. 66-77.

Anders C. A., Hundt M., Lasch A. Perceptual Dialectology. Neue Wege der Dialectologie. Berlin: Degruyter, 2010. 449 p.

Johannessen J. B., Priestley J., Hagen K., N0klestad A., Lynum A. The Nordic dialect corpus // Proc. of the Eighth Intern. Conf. on Language resources and Evaluation. 2012. P. 3387-3392. URL: http://www.lrec-conf.org/proceedings/lrec2012/pdf/ 773_Paper.pdf

Newman J., Lin J., Butler T., Zhang Е. The Wenzhou spoken corpus // Corpora. 2008. Vol. 2, iss. 1. P. 97-109. URL: http://dx.doi.org/10.3366/cor.2007.2.1.97

Perkuhn R., Keibel H., Kupietz M. Korpuslinguistik. Paderborn: Wilhelm Fink Verl., 2012. 144 p.

Zu Y., Chen Y., Zhang Y., Zhou L., Shen M., Huang J. A Super phonetic system and multi-dialect Chinese speech corpus for speech recognition // Proc. of Intern. Conf. on Spoken Language Processing. 2002. URL: http://www.colips.org/conferences/ iscslp2006/anthology/2002/Papers/048.PDF

References

Aleksandrov O. A. Dialektologiya vospriyatiya: innovatsii v zarubezhnoy lingvistike [Dialectology of perception: innovations in foreign linguistics]. ISLU Philological Review. 2013, no. 3(24), pp. 52-58.

Anders C. A., Hundt M., Lasch A. Perceptual Dialectology. Neue Wege der Dialec-tologie. Berlin, Degruyter, 2010, 449 p.

Beridze M. M., Nadaraia D. V. Slovar' kak tekstovyy komponent korpusa (Korpus gruzinskikh dialektov) [Dictionary as the text component of the corpus (corpus of Georgian dialects)]. In: Tr. mezhdunar. konf. “Korpusnaya lingvistika-2011", 27-29 iyunya 2011 g. S.-Peterburg [Proceedings of the international conference “Corpus linguistics-2011” (June 2729, 2011, St. Petersburg)]. St. Petersburg, 2011, pp. 92-97. URL: https://events.spbu.ru/ eventsContent/files/corpling/corpora2011/Beridze_92.pdf

Erofeyeva E. V., Vardey B., Krauze M., Post M. Zvukovoy korpus regional'noy russkoy rechi kak instrument izucheniya regiolektov i ikh otsenki naivnymi nositelyami yazyka [Sound corpus of the Russian regional speech as a tool for study regiolects and their evaluation by naive speakers]. In: Russkiy yazyk i literatura v prostranstve mirovoy kul'tury: Materialy XIII kongr. Mezhdunar. assotsiatsii prepodavateley rus. yaz. i litera-tury (MAPRYAL), 13-20 sent. 2015 g., Granada, Ispaniya [Russian language and literature in the space of world culture: Proceedings of the 13th congress of MAPRYAL Sept. 13-20, 2015, Granada, Spain]. St. Petersburg, MAPRYAL, Granada, 2015, vol. 2, pp. 84-88.

Gol'din V. E., Kryuchkova O. Yu. Tematicheskaya razmetka i tematicheskiy analiz dialect- nogo tekstovogo korpusa [Theme markup and thematic analysis of the dialect text corpus]. In: Yazykovaya lichnost' - tekst - diskurs: Teoreticheskiye i prikladnyye aspekty issledovaniya: Materialy mezhdunar. nauchn. konf.: V2 ch. Ch. 1 [Linguistic personality - text - discourse: theoretical and applied aspects of research: proceedings of the intern. sci. conf.: in 2 pts. Pt 1]. Samara, 2006, pp. 71-80.

Johannessen J. B., Priestley J., Hagen K., Noklestad A., Lynum A. The Nordic dialect corpus. In: Proc. of the Eighth Intern. Conf. on Language resources and Evaluation. 2012, pp. 33873392. URL: http://www.lrec-conf.org/proceedings/lrec2012/pdf/ 773_Paper.pdf

Kachinskaya I. B., Sichinava D. V. Dialektnyy podkorpus segodnya [Dialect subcorpus today]. Proceedings of the V.V. Vinogradov Russian Language Institute. 2015, vol. 6, pp. 142-163.

Kryuchkova O. Yu., Gol'din V. E. Korpus russkoy dialektnoy rechi: kontseptsiya i parametry otsenki [The Corpus of Russian dialect speech: the concept and parameters of evaluation]. In: Komp'yuternaya lingvistika i intellektual'nyye tekhnologii: Po materialam ezhegod. mezhdunar. konf. “Dialog", 25-29 maya 2011 g., Bekasovo. Vyp. 10(17) [Computer linguistics and intellectual technologies: Based on materials of annual intern. conf. “Dialogue”, May 25-29, 2011, Bekasovo. Iss. 10(17)]. Moscow, 2011, pp. 359-367. URL: http://www.dialog-21.ru/media/ 1437/36.pdf

Kryuchkova O. Yu. Elektronnyy korpus russkoy dialektnoy rechi i printsipy ego razmetki [Electronic corpus of Russian dialect speech and the principles of its markup]. Izvestiya of Saratov University. New Series. Series: Philology. Journalism. 2007, vol. 7, iss. 1, pp. 30-34. URL: http://sarteorlingv.narod.ru/dialekt/elektr_korpus.html

Letuchiy A. B. Korpus dialektnykh tekstov: zadachi i problemy [Corpus of dialect texts: tasks and problems]. In: Natsional'nyy korpus russkogo yazyka: 2003-2005. Rezul'taty i perspektivy [The National Corpus of the Russian language: 2003-2005. Results and prospects]. Moscow, 2005, pp. 215-233. URL: http://ruscorpora.ru/sbornik2005/13letuchy.pdf

Moskvina T. N. Metody i podkhody korpusnoy lingvistiki v issledovaniyakh semantiki dialektnoy leksiki [Methods and approaches of corpus linguistics in studies of the semantics of dialect vocabulary]. Sovremennyye problemy nauki i obrazovaniya. 2014, no. 6. URL: http:// www.science-education.ru/ru/article/view7idM5784 (accessed 10.05.2017).

Newman J., Lin J., Butler T., Zhang E. The Wenzhou spoken corpus. In: Corpora. 2008, vol. 2, iss. 1, pp. 97-109. URL: http://dx.doi.org/10.3366/cor.2007.2.1.97