Казанский (Приволжский) федеральный университет
Кафедра немецкой филологии
Методы анализа корпусной лингвистики
д. филол. н., доцент
Галина Васильевна Колпакова
Аннотация
В статье рассматриваются проблемы количественного и качественного анализа в современной корпусной лингвистике, степень эффективности метода интроспекции, характеризуются уровни категоризации и аннотации, представляющие собой интерпретацию корпусных данных, анализируется понятие «экспериментального материала» в корпусной лингвистике.
Ключевые слова и фразы: корпус; качественный анализ; количественный анализ; интроспекция; категоризация; аннотация; экспериментальные данные.
Annotation
The author considers the problems of quantitative and qualitative analysis in modern corpus linguistics, the effectiveness degree of introspection method, characterizes the levels of categorization and annotation representing corpus data interpretation, and analyzes the notion of “experimental material” in corpus linguistics.
Key words and phrases: corpus; qualitative analysis; quantitative analysis; introspection; categorization; annotation; experimental data.
Корпусная лингвистика сформировалась в самостоятельное научное направление, достижения которого знаменуют новый этап в развитии научной мысли. В современной лингвистике заметна тенденция создания объемных корпусов текстов, поддерживаемая крупными научно-исследовательскими проектами. Цели этих исследовательских проектов различны: от сбора и документации труднодоступного материала исчезающих языков до дальнейшего развития теории корпусных исследований и методов анализа больших корпусов текстов.
Использование корпусов при проведении исследований привело к теоретической и методической переориентации лингвистики. Широкую известность получили количественный и качественный виды анализа корпусов текстов. Эти методы анализа применимы как к тексту корпуса, так и к уровням аннотации в корпусе. Аннотацией в понимании К. Шерер является дополнительная грамматическая или структурная информация, выходящая за рамки текста в корпусе и кодированная в тексте с помощью специальных средств (маркировок) [3, S. 21]. С помощью аннотации имплицитная информация, содержащаяся в тексте, переводится в эксплицитную форму, что ускоряет процесс сбора информации. Аннотация не должна разрушать оригинальный текст, после удаления маркировок текст должен предстать в изначальном виде.
Лингвистическая аннотация может быть представлена на различных уровнях языка: на уровне слова, предложения, текста, звука, значения. На уровне звука копируются признаки произношения (фонетическая аннотация), а также ударение и интонация (просодическая аннотация). На уровне слова добавляется информация о флективных признаках или части речи (морфологическая аннотация), на уровне предложения - информация о типе фраз или синтаксических функциях (синтаксическая аннотация). На уровне значения кодируются семантические признаки слов или семантические отношения между элементами в тексте (семантическая аннотация). Аннотация в дискурсе или тексте включает такие феномены как маркировка вежливости и такие лингвистические явления как пролепсис. Такого рода корпуса получили название «аннотированных корпусов» [Ibidem, S. 21-22].
Любой вид аннотации, отмечает А. Люделинг, является категоризацией и представляет собой неизбежную контролируемую потерю информации. Каждый способ категоризации одновременно является также интерпретацией данных [2, S. 30]. В больших корпусах каждому уровню аннотации сопутствует уровень интерпретации. Наряду с линейно аннотированными корпусами получили распространение многоуровневые модели корпусов, в которых все уровни аннотации сохраняются независимо от текста.
В диахронической лингвистике ученые традиционно использовали данные корпусов текстов, не имея иных источников экспериментального материала. В синхронической лингвистике корпуса текстов, рассматриваемые как банк данных (источник материала), все в большей степени находят применение в теоретических исследованиях. Наряду с использованием корпусов как банка данных при проведении качественного анализа, лингвисты все чаще применяют методику количественного анализа: статистические тесты, анализ коллокаций, т.е. сочетаемости лексем, мультивариантные методики. Но основой любого количественного анализа является качественный анализ или категоризация данных. В исследованиях, базирующихся на количественном анализе корпусов, нередко отсутствуют сведения о проведенной категоризации, применяемых категориях, критериях выделения и надежности этих категорий, что не позволяет считать результаты количественного анализа достоверными [Ibidem, S. 28-29].
Широкий спектр технических возможностей для создания электронных корпусов и необозримое множество экспериментальных данных, языковых высказываний, в электронном виде побуждает лингвистов к поиску точной дефиниции лингвистического феномена «экспериментальные данные». Ввиду кардинального изменения состояния исследований в области создания языковых корпусов невозможно оставить без внимания результаты этого развития. С другой стороны, влияние этих результатов ощущается и в области теоретических исследований. По мнению Л. М. Айхингера, даже те лингвистические теории, авторы которых всецело доверяли интроспекции как исследовательскому методу, а реальные факты рассматривали как «неточные рефлексы» абстрактных принципов, видят в анализе корпусов дальнейшую возможность расширения теоретического знания о языке. Подобный подход в наибольшей степени отвечает интересам лингвистов, прокладывающих путь к эмпирическому лингвистическому познанию посредством подтверждения выдвигаемой гипотезы корпусом примеров. Но стремление к документации языковой реальности выглядит при различных подходах к анализу языковых фактов по-разному, отмечает Л. М. Айхингер. Сбор данных, осуществляемый исследователем для подтверждения выдвигаемой им гипотезы, и еще в большей степени метод интроспекции, апеллирующий к собственно языковой компетенции и ее надежности, основываются на лишь относительной независимости производства речевых высказываний от говорящего субъекта. Корпусные же исследования представляют собой попытку приблизиться к языковой реальности посредством статистического анализа и математического моделирования в отвлечении от субъекта, его языковой компетенции и метода интроспекции [1, S. 2]. корпусный лингвистика интроспекция