Статья: Пунктуационные выборы как составляющая ортологического параметра идиолекта носителя современного русского языка в аспекте идентификационной автороведческой экспертизы

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Пунктуационные выборы как составляющая ортологического параметра идиолекта носителя современного русского языка в аспекте идентификационной автороведческой экспертизы

Литвинова Татьяна Александровна, кандидат филологических наук, зав. лабораторией теоретической и прикладной идиолектологии, Воронежский государственный педагогический университет

АННОТАЦИЯ

В настоящее время в связи с развитием интернет-коммуникации и появлением массива текстовых данных, часть которого содержит вредоносный контент, проблема идентификации автора текста, в том числе как задача судебной экспертизы, стала особенно актуальной. Однако точных и объективных методик атрибуции текста, которые могли быть использованы при проведении автороведческой экспертизы, до сих пор не выработано, причем как исследователи, так и эксперты-практики отмечают особую сложность автороведческого анализа текстов интернет-коммуникации. Статья посвящена проблемам создания инструментария автороведче- ской экспертизы текста на основе квантифицируемых признаков идиолекта как индивидуальной реализации языковой системы. Предметом рассмотрения являются результаты пунктуационного выбора пишущего как одна из составляющих ортологического параметра идиолекта. Обосновывается правомерность использования данного признака для идентификации автора. Анализ научной литературы по атрибуции текста, а также наши собственные экспериментальные исследования, выполненные на материале текстов экстремистского форума, показывают, что выбор пишущим знаков пунктуации, представленный рядом квантифицируемых признаков, в том числе впервые предложенных нами, достаточно устойчив к изменению темы текста (топика), что позволяет использовать данный параметр в кросс-топиковом сценарии. Нами также сформулированы направления дальнейших исследований, связанные прежде всего с формированием специализированного корпуса текстов, содержащего различные типы речевых произведений авторов (тексты разных жанров, модусов и т. д.), а также с извлечением новых признаков, характеризующих результаты выбора автором текста пунктуации.

КЛЮЧЕВЫЕ СЛОВА: автороведческая экспертиза; русский язык; идиолекты; атрибуция текста; ортологические параметры идиолектов; пунктуационные знаки; лингвистика; корпус текстов.

T. A. Litvinova

Punctuation Choice as a Component of Orthological Parameter of the Modern Russian Speaker's Idiolect in Forensic Authorship Analysis

ABSTRACT. Currently, due to the development of Internet communication and the emergence of an array of text data, part of which contain malicious content, the problem of identifying the author of the text in forensic settings has become particularly urgent. However, exact and objective methods of text attribution, which could be used in forensic authorship analysis, have not yet been worked out, and both researchers and experts emphasize the particular complexity of the authorship analysis of the texts of Internet communication. The paper deals with the issues of creation of the tools offorensic authorship analysis based on quantitative markers of an idiolect as individual realization of the language system. The author analyzes punctuation choice of the writer as one of the components of the orthological parameter of an idiolect and justifies the relevance of the analysis ofpunctuation choice for authorship identification. Analysis of the scientific literature on text attribution, as well as the author of the paper's own experimental studies carried out on the material of extremist forum texts, shows that the punctuation choice of the writer represented by a number of quantifiable idiolect features, including those first suggested by the author of this article, are quite resistant to topic change, which allows them to be used for assessment of crosstopic scenarios. The author also formulates areas for further research, primarily related to the development of a specialized corpus containing texts of different genres, modes etc. by the same authors, as well as to the detection of new features characterizing the punctuation choice of the author of the text.

KEYWORDS: forensic authorship analysis, Russian language; idiolects, text attribution; orthological parameters of idiolects, punctuation marks, linguistics, text corpus. автороведческая экспертиза текст языковой

Переход общества к новым коммуникативным технологиям, появление новых форм и модулей существования языка, широкое распространение виртуального общения привели к резкому увеличению количества анонимных текстов, в том числе содержащих прямые и скрытые угрозы, призывы к противоправной деятельности, включая террористическую, героизирующих суицид, скрывающих криминальные намерения педофилов и т. п. Такие тексты являются орудием преступления, в связи с чем закономерно возросла потребность в развитии методик идентификации авторов подобных текстов. Установление факта авторства текста или его опровержение относится к одной из задач судебно-автороведческой экспертизы (САЭ) [Галяшина 2011: 14], которая «отпочковалась от почерковедческой в самостоятельный вид исследования» [Чулахов 2007: 23]. Наряду с лингвистическими и фоноскопическими, она относится к классу су- дебно-речеведческих экспертиз [Моштылева 2018: 133], что указывает на особую специфику автороведческого исследования текста в сравнении с другими видами лингвистического анализа [Соколова 2018: 125]. САЭ используется при расследовании уголовных дел, связанных с торговлей детьми и использованием рабского труда [Головко 2016], с доведением до самоубийства «группами смерти» [Панина 2016], экстремизмом и терроризмом [Кулешов 2016], а также с клеветой, оскорблением, нарушением авторских и смежных прав, незаконным изготовлением и оборотом порнографических материалов или предметов и др. [Галяшина 2011: 14].

Задача идентификации автора текста решается отечественными лингвистами, юристами, а в последние годы -- и специалистами по информационным технологиям, однако значительного прогресса в этой области сделано не было, что связано во многом с отсутствием интеграции методов указанных направлений, а также ориентированностью исследований лингвистов и специалистов по информационным технологиям на анализ текстов большого объема, преимущественно художественных, использованием лингвистами преимущественно невери- фицируемых, субъективных методик анализа языкового материала.

Следует отметить, что в последнее время лингвистами осознается необходимость широкого применения более объективных, количественных методов для решения задачи речеведческих экспертиз, и в частности, задачи атрибуции текста [Баранов 2006; На- преенко 2014], однако лингвистические работы, как правило, не учитывают всего многообразия и возможностей современных методов анализа данных. Усилиями специалистов по информационным технологиям создаются программные комплексы для атрибуции автора текста (см. обзор: [Романченко 2013]), однако, как справедливо отмечается в указанной работе, существующие программные решения ориентированы на тексты большого объема и не применимы в экспертной практике. Кроме того, как лингвисты, так и специалисты по информационным технологиям, как правило, не знакомы с основами общей теории судебной экспертизы и не учитывают требований, предъявляемых к экспертным заключениям. На отсутствие разработанных методик объективной автороведческой экспертизы текстов и несовершенство используемых в названной экспертизе методов неоднократно указывали и ученые, и эксперты-практики. Ср., например, мнение профессора Института судебной экспертизы Московской государственной юридической академии имени О. Е. Кутафина Е. И. Галяшиной [Галяшина 2006]; ср. также критический анализ экспертных заключений, выполненных учеными-филологами без учета требований, предъявляемых к такого рода исследованиям, в работе [Соколова 2018].

В рамках названной научной области зарубежными исследователями (прежде всего специалистами по информационным технологиям) активно проводятся работы, ориентированные на решение задачи атрибуции текста как одной из задач классификации с использованием инструментария информационного поиска (information retrieval) и добычи данных (data mining), проводятся хака- тоны по выявлению самых точных классификаторов [Overview of the author identification task at PAN-2018... 2018], однако, как показано в обзорной работе [Authorship Attribution for Social Media Forensics 2017], специально посвященной анализу текстов социальных сетей в идентификационном аспекте, в этой области требуется разработка новых методов, связанных с малым размером текстов, сложностью их автоматической обработки, обусловленной языковыми особенностями естественных письменных текстов. Отметим также нерешенность многих теоретико-прикладных вопросов, связанных с выбором параметров текста при кросс-жанровой атрибуции (типичная ситуация, с которой сталкивается эксперт-авторовед), определением минимального объема текста, необходимого для проведения автороведческо- го исследования; возможным отсутствием автора в тестовой выборке и многих других.

Очевидно, что без теоретической основы, как и без использования больших корпусов текстов вкупе с современными методами добычи данных невозможно создание обоснованных и доказательных методик САЭ, однако, как показывает анализ научной литературы, до настоящего времени в науке не сложилось междисциплинарного направления, в которым бы сочетались указанные подходы. На наш взгляд, таким направлением может стать развиваемая нами междисциплинарная область -- корпусная идио- лектология, объектом которой является идиолект как индивидуальная реализация национальной языковой системы. Теоретические проблемы, разрабатываемые в рамках указанного направления, связаны прежде с построением комплексной многофакторной параметрической модели идиолекта, определением степени интериндивидуальной и интраиндивидуальной вариативности идиолектных признаков, определением вклада разных факторов в варьирование идиолектных признаков и т. д. Без решения этих и многих других вопросов невозможно решить и прикладные задачи, такие как идентификация и моделирование личности автора текста, анализ текста на заимствования, выявление в тексте намеренно искаженной информации и т. д.

Следует отметить прежде всего отсутствие общепринятого подхода к определению самого термина «идиолект». В российской науке нет четкой дифференциации между терминами «идиолект» и «идиостиль», причем оба термина преимущественно используются в контексте исследования языка писателя, ученого и других лиц, профессионально владеющих языком. На наш взгляд, идиостиль, т. е. идиолект лица, профессионально владеющего языком, имеющего уникальный авторский стиль, является объектом идиостилистики, тогда как идиолект, т. е. индивидуальный вариант языка, присущий каждому его носителю, должен являться отдельным объектом исследования. Нами предлагается исследовать идиолект в рамках корпусной идиолектологии. Развитие Интернета привело к появления уникального по объему массива непрофессиональных текстов, и их исследование в аспекте авторства логично проводить в рамках названного направления. Именно исследование «естественных» письменных текстов разных жанров [Лебедева 2001] и -- шире -- идиолектов рядовых носителей языка, которому до последнего времени уделялось мало внимания в сравнении с текстами, созданными мастерами слова, является особенно актуальным для судебной лингвистики [Соколова 2018: 128].

В современной зарубежной лингвистике, в том числе судебной, идиолект понимается прежде всего как совокупность языковых привычек индивида (паттернов), который по- своему использует языковую систему, общую для многих людей, как автоматическое и бессознательное поведение (см., например, [Chaski 2001: 8]), однако общепринятого определения, пригодного для решения задач судебного автороведения, также не выработано [Crankshaw 2012]. Заметим, что исследователи, занимающиеся проблемой идентификации автора текста, исходят из идеи о стабильности и уникальности идиолекта, однако специальных исследований по интра- и интериндивидуальной стабильности признаков идиолекта крайне мало [On the Stability of Some Idiolectal Features 2018; Litvinova et al. 2018]).

В современных исследованиях (преимущественно англоязычных) идиолект, наряду с голосом, походкой и другими уникальными формами человеческого поведения, рассматривается в рамках поведенческой биометрии [Rozz 2018]), основной задачей которой является идентификация личности. На наш взгляд, такой подход является более обоснованным, чем сравнение идиолекта с ДНК или отпечатками пальцев, как это делается в ряде работ [New Machine Learning Methods... 2005], поскольку идиолект явля

ется формой поведения, а не физиологической характеристикой.

В настоящее время научные работы в области изучения идиолекта носителей русского языка активно ведутся в Лаборатории теоретической и прикладной идиолектологии (ранее -- Лаборатория корпусной социолингвистики и автороведческих исследований) (RusProfilingLab), созданной на базе Воронежского государственного педагогического университета под руководством автора статьи (http://rusprofilinglab.ru).

Исследования названной лаборатории ориентированы на изучение идиолекта носителя русского языка как «структуры стабильных и вариативных его параметров, репрезентируемых в тексте», или -- иначе -- «как совокупности устойчивых и вариативных квантифицируемых языковых признаков, обладающих неодинаковыми различительными способностями в аспекте идентификации личности» [Litvinova 2018]) с использованием корпусных данных и методов компьютерной лингвистики.

Как показывают наши исследования, перспективным является рассмотрение идиолекта как набора параметров разного уровня. Одним из важных параметров идиолекта является ортологический (от греч. ortos `правильный') параметр, связанный с отношением продуцента текста к языковой норме и выбору ее вариантов [ср.: Загоров- ская 2018б]. Правомерность включения названного параметра в структуру идиолекта носителя русского языка подтверждается и реальной практикой специалистов в области судебного автороведения, учитывающих однотипность ошибок, связанных с нарушением языковых норм, при атрибуции текстов (см. об этом, например: [Маркова 1956]), и достижениями современной теоретической лингвистики, теории языковой нормы и русской ортологии, доказавших особую значимость нормативных/ненормативных выборов в организации языковой личности и языкового сознания носителя русского языка [Заго- ровская 2016а; Загоровская 2016б; Загоров- ская 2017]. Наши исследования позволяют также утверждать, что в зависимости от вида языковых норм и норм русского литературного словоупотребления (как известно, виды норм могут разграничиваться на разных основаниях, но для исследований в области лингвистической экспертизы текста наиболее значимым является их типология в соответствии с уровнями языковой системы и формой реализации речи, что предполагает выделение прежде всего норм орфоэпических, лексических, стилистических, грамматических и норм правописания, включающих орфографические и пунктуационные нормы) ортологический параметр идиолекта может репрезентироваться в различных составляющих и предполагать в том числе пунктуационный выбор продуцента текста [Заго- ровская 2018а; Загоровская 2018б].