Статья: Методы анализа корпусной лингвистики

Скачать файл

Заказать новую работу

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Казанский (Приволжский) федеральный университет

Кафедра немецкой филологии

Методы анализа корпусной лингвистики

д. филол. н., доцент

Галина Васильевна Колпакова

Аннотация

В статье рассматриваются проблемы количественного и качественного анализа в современной корпусной лингвистике, степень эффективности метода интроспекции, характеризуются уровни категоризации и аннотации, представляющие собой интерпретацию корпусных данных, анализируется понятие «экспериментального материала» в корпусной лингвистике.

Ключевые слова и фразы: корпус; качественный анализ; количественный анализ; интроспекция; категоризация; аннотация; экспериментальные данные.

Annotation

The author considers the problems of quantitative and qualitative analysis in modern corpus linguistics, the effectiveness degree of introspection method, characterizes the levels of categorization and annotation representing corpus data interpretation, and analyzes the notion of “experimental material” in corpus linguistics.

Key words and phrases: corpus; qualitative analysis; quantitative analysis; introspection; categorization; annotation; experimental data.

Корпусная лингвистика сформировалась в самостоятельное научное направление, достижения которого знаменуют новый этап в развитии научной мысли. В современной лингвистике заметна тенденция создания объемных корпусов текстов, поддерживаемая крупными научно-исследовательскими проектами. Цели этих исследовательских проектов различны: от сбора и документации труднодоступного материала исчезающих языков до дальнейшего развития теории корпусных исследований и методов анализа больших корпусов текстов.

Использование корпусов при проведении исследований привело к теоретической и методической переориентации лингвистики. Широкую известность получили количественный и качественный виды анализа корпусов текстов. Эти методы анализа применимы как к тексту корпуса, так и к уровням аннотации в корпусе. Аннотацией в понимании К. Шерер является дополнительная грамматическая или структурная информация, выходящая за рамки текста в корпусе и кодированная в тексте с помощью специальных средств (маркировок) [3, S. 21]. С помощью аннотации имплицитная информация, содержащаяся в тексте, переводится в эксплицитную форму, что ускоряет процесс сбора информации. Аннотация не должна разрушать оригинальный текст, после удаления маркировок текст должен предстать в изначальном виде.

Лингвистическая аннотация может быть представлена на различных уровнях языка: на уровне слова, предложения, текста, звука, значения. На уровне звука копируются признаки произношения (фонетическая аннотация), а также ударение и интонация (просодическая аннотация). На уровне слова добавляется информация о флективных признаках или части речи (морфологическая аннотация), на уровне предложения - информация о типе фраз или синтаксических функциях (синтаксическая аннотация). На уровне значения кодируются семантические признаки слов или семантические отношения между элементами в тексте (семантическая аннотация). Аннотация в дискурсе или тексте включает такие феномены как маркировка вежливости и такие лингвистические явления как пролепсис. Такого рода корпуса получили название «аннотированных корпусов» [Ibidem, S. 21-22].

Любой вид аннотации, отмечает А. Люделинг, является категоризацией и представляет собой неизбежную контролируемую потерю информации. Каждый способ категоризации одновременно является также интерпретацией данных [2, S. 30]. В больших корпусах каждому уровню аннотации сопутствует уровень интерпретации. Наряду с линейно аннотированными корпусами получили распространение многоуровневые модели корпусов, в которых все уровни аннотации сохраняются независимо от текста.

В диахронической лингвистике ученые традиционно использовали данные корпусов текстов, не имея иных источников экспериментального материала. В синхронической лингвистике корпуса текстов, рассматриваемые как банк данных (источник материала), все в большей степени находят применение в теоретических исследованиях. Наряду с использованием корпусов как банка данных при проведении качественного анализа, лингвисты все чаще применяют методику количественного анализа: статистические тесты, анализ коллокаций, т.е. сочетаемости лексем, мультивариантные методики. Но основой любого количественного анализа является качественный анализ или категоризация данных. В исследованиях, базирующихся на количественном анализе корпусов, нередко отсутствуют сведения о проведенной категоризации, применяемых категориях, критериях выделения и надежности этих категорий, что не позволяет считать результаты количественного анализа достоверными [Ibidem, S. 28-29].

Широкий спектр технических возможностей для создания электронных корпусов и необозримое множество экспериментальных данных, языковых высказываний, в электронном виде побуждает лингвистов к поиску точной дефиниции лингвистического феномена «экспериментальные данные». Ввиду кардинального изменения состояния исследований в области создания языковых корпусов невозможно оставить без внимания результаты этого развития. С другой стороны, влияние этих результатов ощущается и в области теоретических исследований. По мнению Л. М. Айхингера, даже те лингвистические теории, авторы которых всецело доверяли интроспекции как исследовательскому методу, а реальные факты рассматривали как «неточные рефлексы» абстрактных принципов, видят в анализе корпусов дальнейшую возможность расширения теоретического знания о языке. Подобный подход в наибольшей степени отвечает интересам лингвистов, прокладывающих путь к эмпирическому лингвистическому познанию посредством подтверждения выдвигаемой гипотезы корпусом примеров. Но стремление к документации языковой реальности выглядит при различных подходах к анализу языковых фактов по-разному, отмечает Л. М. Айхингер. Сбор данных, осуществляемый исследователем для подтверждения выдвигаемой им гипотезы, и еще в большей степени метод интроспекции, апеллирующий к собственно языковой компетенции и ее надежности, основываются на лишь относительной независимости производства речевых высказываний от говорящего субъекта. Корпусные же исследования представляют собой попытку приблизиться к языковой реальности посредством статистического анализа и математического моделирования в отвлечении от субъекта, его языковой компетенции и метода интроспекции [1, S. 2]. корпусный лингвистика интроспекция

В меньшей степени методы корпусной лингвистики находят применение в области синтаксического анализа, если таковой не сводится к созданию инвентаря правил и примеров для подтверждения предварительно сформулированных гипотез. Здесь преобладают описания, служащие скорее банком данных для анализа синтаксических образцов. Вопрос лишь в том, как и на этом уровне можно использовать преимущества корпуса, позволяющие выявить закономерности сочетаемости слов, исходя из самого корпуса, без предваряющей этот анализ интерпретации. Настоящим достижением с позиций корпусной лингвистики могло бы стать обнаружение повторяемости структур чисто статистическими методами. Возможно, это позволило бы обнаружить неожиданные образцы сочетаемости. Лишь правильно выбранный метод исследования позволит установить, каких результатов можно достичь, исследуя корпуса. Чем объемнее корпус, тем более ценным, с одной стороны, может быть результат познания, но, с другой стороны, интуитивная доступность и возможность осмысления результатов снижаются в той же степени, в какой возрастает объем корпуса. Так, слишком длинный ряд примеров делает его необозримым и лишает нас возможности его анализа. Вне зависимости от этой проблемы существует необходимость лингвистической интерпретации корпусных данных и качественной оценки феноменов в корпусе [Ibidem, S. 4-5].

Новым, поворотным моментом в исследовании корпусов текстов явилось требование изучать закономерности организации больших массивов текстов и особенностей естественного речевого употребления, опираясь на статистические методы (методы количественного анализа), минуя этап предварительно сформулированного предположения-гипотезы и осуществляя качественный анализ (интерпретацию корпусных данных) лишь на последующем (конечном) этапе.

Список литературы

1. Eichinger L. M. Linguisten brauchen Korpora und Korpora Linguisten // Sprachkorpora - Datenmengen und Erkenntnisfortschritt / Institut fuer Deutsche Sprache. Berlin - New York: Walter de Gruyter, 2007. Jahrbuch 2006. S. 1-8.

2. Luedeling A. Das Zusammenspiel von qualitativen und quantitativen Methoden in der Korpuslinguistik // Sprachkorpora - Datenmengen und Erkenntnisfortschritt / Institut fuer Deutsche Sprache. Berlin - New York: Walter de Gruyter, 2007. Jahrbuch 2006. S. 28-48.

3. Scherer C. Korpuslinguistik // Kurze Einfuehrungen in die germanistische Linguistik. Heidelberg, 2006. Bd. 2. 98 S.

Смотрите также:


«ДОХОДЫ, РАСХОДЫ И ПРИБЫЛЬ КОММЕРЧЕСКОГО БАНКА.»
«ДОХОДЫ, РАСХОДЫ И ПРИБЫЛЬ КОММЕРЧЕСКОГО БАНКА.»
__RGR2
__RGR2
_11_А. Франс для эл версии
_индив анализ данных
!Фармакология препаратов для терапии заболеваний дыхательных путей
...Тянет нас вверх: топос в заключительных строках Фауста Гёте
...Тянет нас вверх: топос в заключительных строках Фауста Гёте