(30) ... члкг [n^]|ku... живыи бли Оби|толи стго.
... сущ мест... прил сущ сущ прил DOT
(31) и глше ВОЛА гид чл дл вХдё.
союз гл прич прич сущ част гл DOT
Смешение существительных с инфинитивами. Видимо, из-за фонетического сходства падежных форм (и даже просто основ) некоторых склонений существительных с глагольной формой инфинитива на -ти зафиксированы случаи неверной разметки такого рода:
(32) сїе... предл^о кг ре|в'иости послХшл|телё.
Мест... гл пред инф сущ DOT
(33) в^дХфИ во стость| жид ё. прич союз сущ инф мест DOT
Общий итог ручной проверки
Как можно видеть, в основе неудачных морфологических разборов с большой долей вероятности лежат ошибки модели, связанные либо с неверным обобщением закономерностей линейного положения («за элементом A с большей вероятностью следует элемент B, чем элемент C»), либо со сходством словоформ, причем как в крайней левой (приставка w-), так и в крайней правой (различные фонетически подобные суффиксы и флексии) позиции. Ошибки, возникающие при сходстве словоформ, объясняются тем, что BERT использует сжатие данных BPE, при котором в словарях хранятся не целые слова, а части слов (подтокены).
Следует упомянуть, что тексты СКАТ могут содержать символы -- разделители строк, но из размеченного корпуса, на основе которого проводилась настройка модели, разделители строк были удалены. Однако это не повлияло на конечный результат: при обработке вариантов текста с разделителями и без них модель производит разметку примерно одинаково.
морфологический анализатор нейросетевой текст
Выводы
Опыт использования нейросетевой модели с языковым переносом для частеречной разметки древнерусских текстов можно считать в целом успешным, учитывая, что в эксперименте применялись небольшие дистиллированные модели, которые быстро обучаются и не требуют больших ресурсов. Предложенный подход позволяет использовать предобученные языковые модели для дообучения на материале малоресурсных языков, т. е. языков, для которых трудно собрать большие корпусы. Описанная модель может использоваться для частеречной разметки других текстов в рамках корпуса СКАТ и -- в перспективе -- за его пределами.
Литература
1. Поляков А.Е. Грамматический словарь церковнославянского языка (по материалам корпуса).
2. Алексеева Е.Л., Азарова И.В., Рогозина Е.А., Сипунин К.В. Корпусное выделение библейских цитат в севернорусских житийных текстах XVI-XVII вв. В сб.: Источниковедение литературы и языка (археография, текстология, поэтика): Памяти Елены Ивановны Дергачевой-Скоп. Новосибирск: ГПНТБ СО РАН, 2022. С. 237-242.
3. Алексеева Е.Л., Миронова Д.М. Компьютерная текстология. В кн.: Прикладная и компьютерная лингвистика. Николаев И.С., Митренина О.В., Ландо Т. М. (ред.). М.: URSS, 2017. C. 259-272.
4. Букия Г.Т., Протопопова Е.В. Машинное обучение в лингвистике. В кн.: Прикладная и компьютерная лингвистика. Николаев И. С., Митренина О. В., Ландо Т М. (ред.). М.: URSS, 2017. С. 121-137.
5. Васильев Ю. Обработка естественного языка Python и SpaCy на практике. СПб.: Питер, 2021.
6. В.П. Захаров. Корпусная лингвистика В кн.: Прикладная и компьютерная лингвистика. Николаев И.С., Митренина О.В., Ландо Т.М. (ред.). М.: URSS, 2017. С. 138-155.
7. Николенкова Н.В. Некоторые принципы синтаксической организации церковнославянского текста: на примере житийных текстов XI-XIII веков: дис.... канд. филол. наук. М., 2000.
8. Поляков А.Е. Корпус церковнославянских текстов: проблемы орфографии и грамматики. Przeglqd Wschodnioeuropejski. 2014 (1): 245-254.
9. Akbik A., Blythe D., Vollgraf R. Contextual String Embeddings for Sequence Labeling. In: Proceedings of COLING 2018. The 27th International Conference on Computational Linguistics. Santa Fe, New Mexico, 2018. P. 1638-1649.
10. Azarova I., Alekseeva E., Lavrentiev A., Rogozina E., Sipunin K. Content Structuring in the St Petersburg Corpus of Hagiographic Texts (SCAT) Scripta & e-Scripta. The Journal of Interdisciplinary Mediaeval Studies. 2021, (21): 69-78.
11. Dereza O.V., Kayutenko D.A., Fenogenova A.S. Automatic Morphological Analysis for Russian: a Comparative Study. Computational Linguistics and Intellectual Technologies. In: Proceedings of the International Conference Dialogue 2016. Computational linguistics and intellectual technologies. Student session (online publication). 2016.
12. Haug D.T.T. Treebanks in historical linguistic research. In: Viti, Carlotta (eds), Perspectives on Historical Syntax. Amsterdam: John Benjamins Publishing Company. P. 185-202.
13. Jurafsky D., Martin J.H. Chapter 7. Neural Networks and Neural Language Models. In: Speech and Language Processing. Draft of December 30, 2020. P. 137-147.
14. Kuratov Yu., Arkhipov M. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language 2019.
15. McCulloch W. S., Pitts W. A logical calculus of ideas immanent in nervous activity. Bulletin of Mathematical Biophysics. 1943 (5): 115-113.
16. Mitrenina O. The Corpora of Old and Middle Russian Texts as an Advanced Tools for Exploring an Extinguished Language. Scrinium. 2014, (X): 455-461.
17. Neural Morphological Tagging.
18. Podtergera I., Mocken S., Besters-Dilger J. SlaVaComp -- COM Putergesttitzte Untersuchung von VAriabilitat im kirchenSLAvischen. Forschungsergebnisse. Freiburg: Universitatsbibliothek Freiburg, 2016.
19. Sokolov E.G. The project of a deeply tagged parallel corpus of Middle Russian translations from Latin. Journal of Applied Linguistics and Lexicography. 2019, (2): 337-364.
References
1. Alekseyeva Ye.L., Azarova I.V., Rogozina E.A., Sipunin K.V. Corpus selection of biblical quotations in northern Russian hagiographic texts of the 16th-17th centuries. In.: Istochniko-vedenie literatury i iazyka (arkheografiia, tekstologiia, poetika): Pamiati Eleny Ivanovny Dergachevoi-Skop. Novosibirsk: GPNTB SO RAN Publ., 2022. P. 237-242. (In Russian)
2. Alekseyeva Ye.L., Mironova D.M. Digital text studies. In: Prikladnaia i kompiuternaia lingvistika. Nikolayev I.S., Mitrenina O.V, Lando T.M. (red.). Moscow: URSS Publ., 2017. P. 259-272. (In Russian)
3. Bukiya G.T., Protopopova Ye.V. Deep learning applications in linguistics. In: Prikladnaia i kompiuternaia lingvistika. Nikolayev I.S., Mitrenina O.V., Lando T.M. (red.). M.: URSS Publ., 2017. P. 121-137. (In Russian)
4. Vasilyev Yu. Natural language processing in Python and SpaCy. A practical introduction. St Petersburg: Piter Publ., 2021. (In Russian)
5. Zakharov V.P. Corpus linguistics. In: Prikladnaia i kompiuternaia lingvistika. Nikolayev I.S., Mitrenina O.V., Lando T.M. (eds). Moscow: URSS Publ., 2017. P. 138-155. (In Russian)
6. Nukolenkova N.V. Some principles of the syntactic organization of the Church Slavonic text: On the example of hagiographic texts of the 11th-13th centuries. Thesis for PhD in Philological Sciences. Moscow, 2000. (In Russian)
7. Polyakov A.Ye. Church Slavonic corpus: Issues in orthography and grammar. Przeglqd Wschodnioeuropejski. 2014 (1). P. 245-254. (In Russian)
8. Akbik A., Blythe D., Vollgraf R. Contextual String Embeddings for Sequence Labeling. In: Proceedings of COLING 2018. The 27th International Conference on Computational Linguistics. Santa Fe, New Mexico, 2018. P. 1638-1649.
9. Azarova I., Alekseeva E., Lavrentiev A., Rogozina E., Sipunin K. Content Structuring in the St. Petersburg Corpus of Hagiographic Texts (SCAT) Scripta & e-Scripta. The Journal of Interdisciplinary Mediaeval Studies. 2021, (21): 69-78.
10. Dereza O.V., Kayutenko D.A., Fenogenova A.S. Automatic Morphological Analysis for Russian: a Comparative Study. Computational Linguistics and Intellectual Technologies. In: Proceedings of the International Conference Dialogue 2016. Computational linguistics and intellectual technologies. Student session (online publication).
11. Haug D.T.T. Treebanks in historical linguistic research. In: Viti, Carlotta (eds), Perspectives on Historical Syntax. Amsterdam: John Benjamins Publishing Company. P. 185-202.
12. Jurafsky D., Martin J.H. Chapter 7. Neural Networks and Neural Language Models. In: Speech and Language Processing. Draft of December 30, 2020. P. 137-147.
13. Kuratov Yu., Arkhipov M. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language 2019.
14. McCulloch W.S., Pitts W. A logical calculus of ideas immanent in nervous activity. Bulletin of Mathematical Biophysics. 1943 (5): 115-113.
15. Mitrenina O. The Corpora of Old and Middle Russian Texts as an Advanced Tools for Exploring an Extinguished Language. Scrinium. 2014, (X): 455-461.
16. Neural Morphological Tagging.
17. Podtergera I., Mocken S., Besters-Dilger J. SlaVaComp -- COMPutergesttitzte Untersuchung von VAriabilitat im kirchenSLAvischen. Forschungsergebnisse. Freiburg: Universitatsbibliothek Freiburg, 2016.
18. Sokolov E.G. The project of a deeply tagged parallel corpus of Middle Russian translations from Latin. Journal of Applied Linguistics and Lexicography. 2019, (2): 337-364.