Дипломная работа: Научно-исследовательский комплекс предобработки текстов и постобработки результатов в системе sketchengine

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Заключение

В ходе данной работы было проведено исследование разных сторон системы SketchEngine, были сделаны попытки улучшить и расширить ее функционал и справиться с имеющимися у нее проблемами. Хотя итоговый результат далек от совершенства, все же созданный инструментарий позволяет исследователю работать со SketchEngine так, как этого раньше не происходило, с учетом большего количества факторов и новыми, ранее не использованными способами.

Помимо практической пользы от собственно инструментария был также исследован процесс лемматизации языковых данных, которые в итоге приводят к созданию корпуса SketchEngine. Из собранных теоретических данных можно сделать вывод, что лемматизатор чаще всего "спотыкается" в двух случаях.

Во-первых, неправильно лемматизируются слова, которые не включаются в обычные словари, либо по причине их просторечности, либо из-за того, что они являются производными от более распространенных слов. Такие слова при этом могут встречаться весьма и весьма часто, из-за чего их неверная лемматизация и является большой проблемой. К системе можно подключать сторонние лемматизаторы, способные служить подспорьем для ограниченных возможностей самого SketchEngine.

Второй частой ошибкой для лемматизатора являются составные слова. Здесь решение проблемы не столь однозначно. Хотя расширение словаря может помочь с более устойчивыми составными словами ("диван-кровать"), все возможные составные слова учесть невозможно, так как сложение слов с помощью дефиса является продуктивным способом словообразования. Усугубляет проблему также то, что такие слова могут склоняться по-разному (иногда склоняются обе части, иногда - только последняя). Потенциальным решением может служить разделение составных слов надвое: в отдельности их части легче лемматизировать, при этом во многих случаях их семантическое значение примерно сохранится. "Диван-кровать" - примерно то же самое, что диван и кровать вместе, "Ростов-на-Дону" - действительно Ростов на Дону: во всяком случае, было бы вполне логично, если бы эти слова появлялись при поиске коллокаций по леммам "диван" и "дон".

Автор надеется, что эта работа продолжит развиваться и в будущем затронет и эти проблемы.

Литература

1. В.П. Захаров, С.Ю. Богданова, Корпусная лингвистика, СПб, 2013

2. Копотев М. Введение в корпусную лингвистику: Учебное пособие для студентов, Прага, 2014

3. Д.В. Сеченова. К задаче создания корпусов русского языка, Москва

4. Хохлова М.В., Исследование лексико-синтаксической сочетаемости в русском языке с помощью статистических методов, СПбГУ, Санкт-Петербург, 2010

5. Allan, Keith, the Oxford Handbook of the History of Linguistics (History of Corpus Linguistics), 2013

6. Allen, William. Making Corpus Data Visible: Visualising Text With Research Intermediaries, University of Oxford, Оксфорд, 2015

7. Barrs, Keith: Using the Sketch Engine Corpus Query Tool for Language Teaching : The Language Teacher - Issue 40.2; March 2016, Хиросима, Hiroshima Shudo University, 2016

8. Few S, Information Dashboard Design: The Effective Visual Communication of Data, Sebastopol, 2006

9. Gabrielatos, C. (2007). Representation of refugees and asylum seekers in UK newspapers, 1996-2005: Report on the corpus-based analysis. Joint meeting of the Corpus Research Group (CRG) and the Language Ideology and Power Research Group (LIP), Department of Linguistics and English Language, Lancaster University, 15 January 2007.

10. Gatto, Maristella, Web As Corpus: Theory and Practice, Bloomsbury Academic, London, 2014

11. Golik, Bossy, Ratkovic and Nйdellec, Improving term extraction with linguistic analysis in the biomedical domain

12. Kantner, Cathleen; Kutter, Amelie, How to get rid of the Noise in the Corpus: Cleaning Large Samples of Digital Newspaper Texts, Stuttgart, 2011

13. Kilgarriff, Marcowitz, Smith, Thomas: Corpora and Language Learning with the Sketch Engine and SKELL

14. Kilgariff, Adam; Baroni, Marco, WebBootCaT: a web tool for instant corpora, Brighton, 2006

15. Adam Kilgarriff, VнtBaisa, Jan Buљta, MiloљJakubниek, VojtмchKovvбш, Jan Michelfeit, PavelRychlэ, VнtSuchomel. TheSketchEngine: tenyearson. Lexicography, 1: 7-36, 2014.

16. Adam Kilgarriff, PavelRychlэ, PavelSmrћ, David Tugwell. Itri-04-08 the sketch engine. Information Technology, 2004.

17. Kilgarriff, Finding Terms in Corpora for Many Languages with the Sketch Engine, Lexical Computing Ltd., United Kingdom

18. Meunier F., Gilquin Gaлtanelle, Paquot Magali, A Taste for Corpora: In Honour of Sylviane Granger, John Benjamins Publishing Company

19. Nesselhauf, Nadja, Corpus Linguistics: A Practical Introduction, Гейдельберг, 2005

20. Talianovб, Dominika. Visualization of Corpus Data, Брно, 2014

21. Sophie Aubin, Thierry Hamon. Improving Term Extraction with Terminological Resources. Tapio Salakoski, Filip Ginter, Sampo Pyysalo, Tapio Pahikkala. 2006, Springer, pp.380, 2006, LNAI 4139. <hal-00091444>

22. Statistics used in Sketch Engine, https://www.sketchengine.co.uk/documentation/statistics-used-in-sketch-engine/

23. Zakharov V.P, Automatic Collocation Extraction: Association Measures Evaluation and Integration, Saint-Petersburg State University, Saint-Petersburg, Russia

24. Computational Linguistics and Intellectual Technologies, Papers from the Annual International Conference, "Dialogue" (2010) Issue 9 (16)