В настоящее время в ряде работ (преимущественно на материале англоязычных текстов) достаточно определенно доказано, что носителю языка могут быть свойственны определенные пунктуационные привычки, которые проявляются в частотностях знаков препинания (как отдельных, так и в целом), а также в выборе названных знаков в определенной синтаксической позиции, что позволяет говорить о возможности использования пунктуационных выборов в качестве одного из признаков ортологического параметра идиолекта.
Выводы о стабильности пунктуационных привычек носителей языка содержатся, в частности, в работе [Baayen 2002], доказывающей, что частотность пунктуационных знаков является одним из эффективных лингвистических признаков, используемых в кросс-топиковом и кросс-жанровом сценариях (то есть в тех случаях, когда тестовые и контрольные образцы принадлежат разным темам и/или жанрам).
Вывод об устойчивости пунктуационных выборов пишущего представлен в работе известного американского судебного лингвиста К. Часки [Chaski 2001], в которой показано, что синтаксически обоснованные пунктуационные выборы пишущего (syntactically-classified punctuation) в качестве параметров классификатора дают большую точность, чем просто частоты знаков препинания, демонстрирующие различия разных авторов (inter-author identification), а также позволяют установить авторство текстов, созданных одним и тем же автором (intra-author identification). Разные пишущие могут использовать одни и те же знаки препинания с одинаковой частотой, но при этом в разных позициях. Важно отметить, что в работах К. Часки использован весьма узкий круг пунктуационных знаков и синтаксических позиций: анализируются знаки конца предложения, знаки в словосочетаниях (фразах) и знаки в словах (дефис). Также в работе используется ограниченный корпус текстов (5 авторов).
В исследовании [Sapkota 2015] был использован обширный корпусный материал, а также современные алгоритмы машинного обучения для идентификации продуцента текста. Авторы экспериментировали с разными типами н-грамм символов (т. е. последовательностью символов) с учетом позиции символов в слове и выявили, что наивысшая точность моделей достигается для комбинации affix + punct n-grams, т. е. n-грамм (последовательностей), содержащих префиксы и суффиксы, и n-грамм, содержащих, кроме прочих символов, знаки препинания, при этом n-граммы, содержащие знаки пунктуации, лучше всего работают в кросс- топиковом сценарии, что со всей очевидностью доказывает устойчивость пунктуационных привычек носителей языка.
Таким образом, предыдущие работы использовали в качестве признака частоты пунктуационных знаков, в том числе с учетом их синтаксической позиции и контекста в широком понимании (n-граммы символов).
Нами [Litvinova 2019] был расширен список признаков, основанных на автоматическом анализе пунктуационных выборов пишущего. Помимо признаков, использованных в работе [Sapkota 2015], были апробированы три группы признаков:
- триграммы токенов и пунктуационных знаков (как минимум 1 пунктуационный знак в триграмме), при этом слова заменяются обозначением их грамматических категорий, например триграмма Ты где? представляется в следующем виде: PRON ADV? (группа признаков PunctPOS);
- n-граммы (n = {3, 4, 5}) токенов и пунктуационных знаков (как минимум 1 пунктуационный знак в н-грамме), при этом слова заменяются знаком * (StarMark) (группа признаков StarMark);
- n-граммы (n = {3, 4, 5}) токенов и пунктуационных знаков (как минимум 1 пунктуационный знак в н-грамме), при этом слова заменяются знаком *, пунктуационный знак заменяется на `PNCT' (группа признаков StarPunct).
Эксперименты по идентификации автора проводились нами на материале текстов форума «Кавказчат» (внесен в Федеральный список экстремистских материалов). Нами были проведены эксперименты по идентификации автора текста в рамках одной темы, а также в кросс-топиковом сценарии. Была выявлена эффективность всех групп «пунктуационных» признаков, при этом их эффективность не падала даже в кросс-жанровом сценарии, что позволяет говорить о стабильности пунктуационных признаков идиолекта, причем выделенные нами группы признаков учитывают не только частотность знаков препинания и контекст, как n-граммы из работы [Sapkota 2015], но и расстояния между ними (в словах), т. е. дополняют существующие в современной науке группы признаков идиолекта, используемые в идентификационных исследованиях [Литвинова 2015].
В дальнейшем мы планируем расширить наши исследования пунктуационных выборов пишущего в двух направлениях.
Во-первых, мы предполагаем извлечь новые группы признаков в зависимости от тех синтаксических позиций, которые в отечественной традиции связываются с понятием «пунктограмма» и предполагают использование определенных нормативных пунктуационных знаков, в том числе как обязательных, так и факультативных, в следующих позициях: 1) конец предложения; 2) границы предикативных частей сложного предложения; 3) границы обособленных членов предложения; 4) границы слов, грамматически не связанных с предложением; 5) границы пунктуационно не разделяемых и не выделяемых членов предложения (главные члены, второстепенные члены, однородные члены, актанты разных типов).
Мы предполагаем, что именно в таких позициях выбор того или иного пунктуационного знака, его замена и даже нарушение пунктуационной нормы чаще всего являются следствием индивидуальных предпочтений автора текста.
Разметка в таком случае может выполняться только вручную специалистом-лингвистом, что, безусловно, требует трудовых и временных затрат, однако сочетание ручных и автоматизированных методов анализа языкового материала является, как показывает наш опыт работы по моделированию личности автора письменного текста, обязательным методологическим принципом корпусной идиолектологии.
Вторым направлением работ является расширение корпусного материала. В настоящее время мы работаем с материалами корпуса «Кавказчат» как реальным языковым материалом, который, в силу своего содержания, нуждается в идентификационном анализе, а также мы используем материалы и возможности созданного в Лаборатории корпуса естественных письменных текстов Ruspersonality с метаданными о социально-демографических и личностных характеристиках авторов текстов (пол, возраст, уровень образования, данные психологического тестирования, профессия и т. д.) (подробнее о корпусе см.: [“RusPersonality”: A Russian corpus... 2016]).
В настоящее время нами проводится сбор корпуса текстов RusIdioStyle одних и тех же авторов в различных языковых модусах (формах существования национального русского языка и его функциональных разновидностях) и различных жанрах, продуцированных в условиях специального эксперимента, а также в «реальных» условиях. Представляется, что материалы названного корпуса окажутся наиболее значимыми для проведения статистического анализа, ориентированного на определение уровня стабильности и вариативности пунктуационных выборов автора русского письменного текста, и существенно дополнят представления о зонах квантифицируемых признаков идиолекта, на основании которых могут быть построены надежные методики идентификационной автороведческой экспертизы.
Следует отметить, что изучение стабильности и вариативности пунктуационных выборов автора русского письменного текста как компонентов ортологического параметра идиолекта и использование соответствующего параметра для идентификации продуцента текста представляется особенно перспективным ввиду типологических особенностей системы пунктуации в русском языке, а также специфики самой пунктуационной нормы, которая, по мнению многих современных специалистов в области русского синтаксиса и русской пунктуации, по самой своей сущности является коммуникативнопрагматической, т. е. регулирующей употребление пунктуационных знаков во многих случаях не в соответствии с предписаниями, а в соответствии в теми условиями, которые устанавливаются в конкретной коммуникативной ситуации. Вместе с тем широкие возможности пунктуационных выборов, заложенные в самой пунктуационной норме русского языка, требуют от исследователей, работающих в рассматриваемой области, не только глубокого осмысления синтаксических явлений, передаваемых теми или иными пунктуационными знаками, но и поиска новых подходов к предварительной обработке языковых материалов, разметке текстов и их анализу с помощью современных методов корпусной лингвистики и математической статистики.
ЛИТЕРАТУРА
1. Баранов А. Н. Теория лингвистических экспертиз как направление прикладной лингвистики // Компьютерная лингвистика и интеллектуальные технологии : материалы еже- год. конф. «Диалог». -- М. : Наука, 2004. С. 27--31.
2. Галяшина Е. И. Речеведческие экспертизы в судопроизводстве // Законы России: опыт, анализ, практика. 2011. № 12. С. 12--29.
3. Галяшина Е. И., Приводнова Е. В. Автороведческая экспертиза в российском судопроизводстве // Lex Russica. 2006. № 4. С. 55--61.
4. Головко Н. В. Значение судебных экспертиз для успешного расследования уголовных дел о торговле детьми и использовании их рабского труда // Вестн. Акад. 2016. № 2. С. 101--104.
5. Загоровская О. В. Нормы русского литературного языка: типология и основания для классификации // Изв. Воронеж. гос. пед. ун-та. 2016а. № 3 (272). С. 129--134.
6. Загоровская О. В. Языковая норма в современной русской визуально-письменной речи, функционирующей в ин- тернет-коммуникации: к постановке проблемы // Изв. Воронеж. гос. пед. ун-та. 2017. № 4 (277). C. 168--172.
7. Загоровская О. В. Языковая норма и норма литературного языка как лингвистические понятия // Изв. Воронеж. гос. пед. ун-та. 2016б. № 2 (271). С. 161--165.
8. Загоровская О. В., Литвинова Т. А. Корпус текстов RusPersonality как основа исследований «реальной» языковой нормы в современной русской письменной речи // Современные проблемы лингвистики и методики преподавания русского языка в вузе и школе / под ред. О. В. Загоровской. Вып. 28. -- Воронеж : ИПЦ «Научная книга», 2018а. С. 51--57.
9. Загоровская О. В., Литвинова Т. А. Электронная база данных о языковой норме и ее вариантности как основа научных исследований ортологического параметра идиолекта // Изв. Воронеж. гос. пед. ун-та. 2018б. № 3 (280). С. 138--143.
10. Кулешов Р. В. Роль судебно-автороведческой экспертизы в расследовании преступлений экстремистской и террористической направленности: типичные задачи, особенности назначения, соотношение со смежными видами экспертиз // Юридическая наука и правоохранительная практика. 2016. № 3 (37). С. 147--152.
11. Лебедева Н. Б. Естественная письменная русская речь: проблемы изучения // Русский язык: исторические судьбы и современность : Междунар. конгр. исследователей русского языка : труды и материалы. -- М., 2001. С. 260--261.
12. Литвинова Т. А., Литвинова О. А. Идентификация и моделирование личности автора письменного текста. -- Воронеж : Изд-во ВГПУ, 2015. 322 с.
13. Маркова Г. Д. Идентификационные признаки письма в советской криминалистической экспертизе : автореф. дис. ... канд. юрид. наук. -- Харьков, 1956. 24 с.
14. Моштылева Е. С. Классификационное место речеведче- ских экспертиз в теории и практике судебной экспертизы // Вестн. ННГУ. 2018. № 4. С. 131--135.
15. Напреенко Г. В. Идентификация текста по его авторской принадлежности на лексическом уровне (формально-количественная модель) // Вестн. Томск. гос. ун-та. 2014. № 379. С. 17--23.
16. Панина Н. А. О роли судебной автороведческой экспертизы при расследовании преступлений, связанных с доведением до самоубийства «группами смерти» // Традиции и новации в системе современного российского права : сб. тезисов 17-й Междунар. науч.-практ. конф. молодых ученых. -- М. : ООО «Проспект». 2018. С. 848--850.
17. Романченко Т. Н. Методы атрибуции в автороведческой экспертизе // Вестн. СГЮА. 2013. № 2 (91). С. 228--233.
18. Соколова Т. П. Роль специальных знаний в судебной автороведческой экспертизе // Вестн. Ун-та им. О. Е. Кутафина. 2018. № 7 (47). С. 123--131.
19. Чулахов В. Н. Криминалистическое учение о навыках и привычках человека / под ред. Е. Р. Россинской. -- М. : Юр- литинформ, 2007. 285 с.
20. "RusPersonality": A Russian corpus for authorship profiling and deception detection / T. Litvinova [et. al.] // Proceedings of the International FRUCT Conference on Intelligence, Social Media and Web (ISMW FRUCT 2016). IEEE. С. 1-7.
21. Authorship Attribution for Social Media Forensics / A. Rocha [et al.] // IEEE Transactions on Information Forensics and Security. 2017. Vol. 12, Iss. 1. P. 5-33.
22. Baayen H., Halteren van H., Neijt A., Tweedie F. An experiment in authorship attribution // Proc. of 6th JADT. 2002. Р. 29--37.
23. Chaski C. Empirical evaluations of language-based author identification techniques // Forensic Linguistics. 2001. Vol. 8. P. 1-65.
24. Crankshaw R. The validity of the Linguistic Fingerprint in forensic investigation. Diffusion: the UCLan Journal of Undergraduate Research. 2012. Vol., 5 Iss. 2. URL: http://bcur.org/ journals/index.php/Diffusion/article/view/92 (last accessed:
17.01.2019).
25. Litvinova T.A., Panicheva P.V., Litvinova O.A. Authorship Attribution of Russian Extremist Forum Texts with Different Types of N-gram Features // Submitted for CICLING 2019.
26. Litvinova T.A., Seredin P.V., Litvinova O.A. Assessing the Level of Stability of Idiolectal Features across Modes, Topics and Time of Text Production // S. Balandin, T. Cinotti, F. Viola, T. Tyutina (eds). Proceedings of the 23rd Conference of Open Innovations Association FRUCT. -- IEEE, 2018. P. 223-230.
27. New Machine Learning Methods Demonstrate the Existence of a Human Stylome / H.V. Halteren [et al.] // Journal of Quantitative Linguistics. 2005. № 12. Р. 65-77.
28. On the Stability of Some Idiolectal Features / T. Litvinova [et. al.] // Lecture Notes in Computer Science. 2018. Vol. 11096. C. 331--336.
29. Overview of the author identification task at PAN-2018: cross-domain authorship attribution and style change detection / M. Kestemont [et al.] // Working Notes Papers of the CLEF 2018 Evaluation Labs. Avignon, France, September 10-14, 2018 / L. Cappellato [edit.]; et al. 2018. С. 1-25.
30. Rozz Y., Menezes R. Author Attribution Using Network Motifs // Cornelius S. et al. (eds). Complex Networks IX: Proceedings of the 9th Conference on Complex Networks. -- Springer, 2018. P. 199-207.
31. Sapkota U., Bethard S., Montes M., Solorio T. Not all character n-grams are created equal: A study in authorship attribution // Proceedings of the 2015 conference of the North American chapter of the association for computational linguistics: Human language technologies. Р. 93-102.
REFERENCES
1. Baranov A. N. The Theory of Linguistic Expertise as a Direction of Applied Linguistics // Computational Linguistics and Intellectual Technologies : materials of annually conf. “Dialogue”. -- Moscow : Science, 2004. P. 27--31. [Teoriya ling- visticheskikh ekspertiz kak napravlenie prikladnoy lingvistiki // Komp'yuternaya lingvistika i intellektual'nye tekhnologii : materialy ezhegod. konf. «Dialog». -- M. : Nauka, 2004. S. 27-- 31]. -- (In Rus.)