Правительство Российской Федерации
Федеральное государственное бюджетное образовательное учреждение высшего образования
"Санкт-Петербургский государственный университет"
Выпускная квалификационная работа
на тему:
Научно-исследовательский комплекс предобработки текстов и постобработки результатов в системе sketchengine
Огай Андрей Александрович
Санкт-Петербург 2018
Оглавление
Введение
Глава 1. Путь к веб-корпусу
1.1 Этапы становления и развития корпусной лингвистики
1.2 Развитие программно-лингвистического инструментария
Глава 2. Работа системы SketchEngine
2.1 Предобработка
2.2 Постобработка и визуализация
Глава 3. Рабочий процесс
3.1 Предобработка
Заключение
Литература
Аннотации
Система SketchEngine (сайт sketchengine.co.uk), созданная британским лингвистом Адамом Килгариффом, изучает грамматическое и коллокационное поведение слов на основе данных веб-корпусов, показывая с помощью статистических таблиц распространенность в языке тех или иных связей между разными словами. Данная работа посвящена способам работы с этой системой: рассмотрены и показаны различные разработанные автором инструменты, позволяющие автоматически измерять и сравнивать полученную с помощью SketchEngine статистическую информацию, а также качественно визуализировать ее.
Ключевые слова: sketchengine,визуализация, корпусная лингвистика, статистика, коллокации
The SketchEngine system (sketchengine.co.uk) created by British linguist Adam Kilgariff studies the grammatical and collocational behaviour of words based on the data collected from web corpora. Through statistic tables, it shows how frequent certain connections between words are in a language. This work is dedicated to the means of work with this system; multiple instruments developed by the author are shown, allowing to automatically compare and measure the statistical information gathered via SketchEngine, and to visualise it.
Keywords: sketchengine,visualisation,corpus linguistics,statistics,collocation
Введение
Сайт SketchEngine, созданный британским исследователем Адамом Килгариффом, является одним из самых широко используемых инструментов корпусной лингвистики. Это система с мощным функционалом, позволяющая исследовать языковые корпуса с разных точек зрения (от грамматических и синтаксических отношений до семантических связей), находящая применение как и среди людей, далеких от мира языкознания (в обучении языку), так и среди профессиональных лексикографов и лингвистов. Одним из первых SketchEngine открыл возможности Интернета в корпусной лингвистике, дав возможность не только изучать уже готовые корпуса, но и создавать их самим на основе интернет-данных.
Именно из-за важности и широте использования SketchEngine так актуальны проекты по созданию вспомогательных инструментов для этой системы, позволявших бы более эффективно работать с корпусными данными, как, например, SKELL. Сама система, созданная Килгариффом, была создана для того чтобы пользователю было легче воспринимать информацию, полученную из корпусов; вполне логично, что другие люди будут развивать его идею и находить новые способы ее обработки и визуализации. Для SketchEngine существует достаточно развитый API, позволяющий пользователю свободно работать с корпусными данными и использовать их в собственных программах, что дает нам большие возможности по созданию своего инструментария.
Целью этой работы является создание такого инструментария - научно-исследовательского комплекса, который позволит нам уточнять полученную из SketchEngine информацию, показывать ее с других сторон, на которые ранее не обращалось внимания, а также качественно её визуализировать.
Чтобы достигнуть этой цели, необходимо будет выполнить три задачи. Во-первых, в пределах этой работы исследован процесс построения корпусов в системе SketchEngine, рассмотрены его сильные и слабые стороны. Известно, что даже сбалансированный по временному промежутку, источникам, языкам корпус может быть неполным и содержать большое количество "шума" (Gabrielatos, 2007) - что же говорить о пользовательских корпусах, строящихся ad hoc? На основе этих данных делаются выводы о возможных методах предобработки языковых данных перед их добавлением в корпус.
Второй по счету задачей является непосредственно работа со корпусными данными, а в особенности с мерами, которые они используют. За свою историю SketchEngine использовала самые разные способы выявления коллокации: разные методы, являющиеся частью системы, задействуют разные меры, каждая из которых дает свои результаты (Mi, T-Score, Log-likelihood, etc.) и которые в дальнейшем приходится соотносить вручную; лингвистическая оценка получаемых данных (Хохлова, 2010) зачастую занимает много времени и сил. В этой работе рассмотрены разработанные автором инструменты, которые дают возможность сделать методы SketchEngine более точными и расширять их возможности.
Наконец, существует не так много хороших средств по визуализации итоговых данных, что не позволяет исследователю получить наглядные результаты своей работы, по которым сразу возможно было бы делать определенные выводы. Визуализировав коллокационные данные самостоятельно, мы сможем сделать нашу итоговую работу гораздо более наглядной и понятной. Исследователь сможет увидеть информацию в организованном и маркированном виде, сразу заметить общие тренды и исключения из них и таким образом обнаружить новые вещи в уже имеющихся данных.
Теоретическая значимость работы определяется подробным описанием слабостей системы SketchEngine, ранее не затрагиваемых в научной работе. Практическая значимость данного исследования заключается в инструментарии, отчасти компенсирующем эти слабости и делающем работу над SketchEngine более эффективной.
Данная работа состоит из введения, трёх глав, заключения, списка литературы и приложения. В первой главе описываются теоретические вопросы, связанные с историей веб-корпусов. Вторая глава посвящена методологии конкретно системы SketchEngine, ее основным возможностям, сильным и слабым сторонам и тому, где ее возможно улучшить с помощью нашего инструментария. В третьей главе описан процесс работы над инструментарием и его возможности; представлена оценка полученных результатов.
Глава 1. Путь к веб-корпусу
1.1 Этапы становления и развития корпусной лингвистики
На вопрос о том, что такое, собственно, "корпус", есть несколько ответов. Пожалуй, одно из самых широких определений дает словарь Merriam-Webster: "коллекция записанных высказываний, использующаяся для описательного анализа языка". Схожие определения дают Оксфордский словарь ("коллекция письменных текстов, особенно определенного автора или на определенную тему"), исследователи Тюменского государственного университета ("набор лингвистических данных из определённого языка в форме записанных высказываний или письменных текстов, доступный для анализа"). Общее у всех этих определений одно: корпусом может быть любой сборник текстов или высказываний.
Если отталкиваться от такого определения, то получается, что корпусная лингвистика, как и понятие корпуса вообще, уходит корнями в глубины истории. Если взять более близкие к нашему времени исторические периоды, то мы можем обратить внимание на использование эмпирических данных в лингвистике XIX века. Так, употребление слов изучалось и исследовалось на примере цитат из литературы в уже упомянутом выше Оксфордском словаре. Грамматика немецкого языка Г. Пауля широко опиралась на произведения немецких классиков; каждое фонологическое, морфологическое или синтаксическое положение так или иначе опиралось на какие-либо их произведения и подкреплялось цитатами из них. Другой немецкий языковед, V. Kдding, составил в 1897 году сборник из 11 миллионов слов (цифра внушительная даже по нынешним меркам!), на основе которого изучал дистрибуцию букв и их сочетаний в немецком письменном языке. лингвистика слово грамматический
Нельзя также забывать и об использовании корпусных методов в обучении иностранным языкам. Еще с начала XX века американские и британские исследователи начинают собирать языковые данные из учебников, детской литературы и других источников, на основе которых создаются частотные словари, служившие для помощи в изучении английского. Из этих исследователей самым заметным был, пожалуй, Edward Lee, собравший для своей работы A Teacher's Word Book of the Twenty Thousand Words Found Most Frequently and Widely in General Reading for Children and Young People корпус из 5 миллионов слов.
Рис. 1. Один из первых "протокорпусов"
Однако при всем этом даже самые большие "протокорпуса", собиравшиеся в тридцатых и сороковых годах, при всем своем многообразии не достигали объема, достаточного для адекватного отображения хотя бы небольшой части языка, а их использование в науке не было в нужной мере систематизировано. Корпусную лингвистику еще ожидал тот скачок, в ходе которого появятся современные корпуса - массивные, организованные сборники языковой информации, которые мы знаем сегодня и без которых современная лингвистика практически немыслима.
"Опорой" для этого скачка было развитие компьютерной техники. Возможность автоматически собирать, скомпоновывать, а затем анализировать тексты позволила лингвистам оперировать большими объемами языковых данных и в полной мере использовать их (при этом компьютер еще и оставался беспристрастным). Именно поэтому большая часть современных ученых определяют корпуса несколько уже, чем в тех определениях, что были рассмотрены в начале главы, понимая под корпусами лишь компьютеризированные сборники языковых данных.
Первой весточкой грядущих перемен стала работа Index Thomisticus, написанная священником Roberto Buza в 1951 и посвященная стихам Фомы Аквинского. В ней впервые на основе корпуса был построен автоматически (еще не на ЭВМ, с помощью перфокарт) сгенерированный конкорданс. Через десять лет появился уже первый полноценный компьютеризированный языковой корпус - Брауновский корпус - включавший 500 текстов из американских газет, журналов и книг, по 2000 словоупотреблений каждый. Созданный для системного изучения английского языка, Брауновский корпус также содержал частотный и алфавитно-частотный словари, различные статистические распределения. За этими первопроходцами последовали корпус Ланкастер-Осло-Берген британского английского в 1961 году, Колхапурский корпус индийского английского в 1978 году, Ланкастерский корпус китайского-путунхуа в 1991 году и многие другие.
Разумеется, активный рост корпусной лингвистики не был гладким: некоторые представители научного сообщества восприняли её в штыки и отказывались принимать как достойную изучения дисциплину. В частности, против использования корпусов высказывался такой видный деятель в лингвистике ХХ века, как Ноам Хомский, в основном из-за того, что корпуса использовались для изучения языкового производства (language performance), а не языковой компетенции (language competence), исследование которой (путем интроспекции, а не с помощью анализа уже построенных высказываний) Хомский считал гораздо более важной задачей. "Корпусная лингвистика не значит ничего," - сказал он в своем интервью в 1997 году, "...Представьте, что физики и химики решат, что вместо того, чтобы опираться на эксперименты, они будут записывать на видео все происходящее в мире.. ..Наука не занимается таким."
Конечно, Хомский лукавил. Во-первых, науки, работающие почти исключительно с больших размеров "корпусами" данных, уже существовали - астрономия и геология. Во-вторых, корпуса не обязательно должны быть основным инструментом в исследовании языка: они вполне эффективны в качестве вспомогательного средства, имеющего репрезентативную роль, источника той информации, которую не может дать интроспекция (например, частотных данных). В дальнейшем корпусные исследования не только дали науке новые знания, недоступные интроспективным методам Хомского, но и прямо противоречили его интроспективным данным. Так, исследования Т. МакЭмери и Э. Уилсона опровергли интуитивное предположение Хомского, что английский глагол perform не может брать в качестве объекта неисчисляемые существительные, обнаружив в корпусных данных часто встречающиеся коллокации perform magic, perform labour.
В таком ключе, собственно, и продолжила развиваться корпусная лингвистика. За первыми, еще относительно маленькими корпусами последовали массивные национальные корпуса, ставившие своей задачей в полной мере отобразить все богатство национального языка - Американский национальный корпус в 1990 году, Британский национальный корпус в 1994 году, Национальный корпус русского языка в 2004 году.
Последним крупным скачком для корпусной лингвистики стало развитие всемирной сети, начавшееся в конце прошлого века: здесь первопроходцем стал британский лингвист Адам Килгарифф, написавший в 2001 году статью "Web as Corpus", в которой онуказал на почти безграничные возможности Интернета для нужд корпусной лингвистики. "Теперь у нас есть всемирная сеть," - пишет он - "способная дать нам доступ к колоссальным объемам текста, скольких угодно жанров и форм, по одному нажатию кнопки и бесплатно." (Kilgarriff 2001: 344)