Статья: Эмоционально нейтральные интернет-тексты: в поисках специфики

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Эмоционально нейтральные интернет-тексты: в поисках специфики

А.В. Колмогорова

Рассматривается специфика эмоционально нейтральных интернет-текстов. По результатам анализа двух подкорпусов - вики-текстов и текстов из паблика «Подслушано» в ВКонтакте, размеченных асессорами как нейтральные, делается вывод о том, что в интернет-коммуникации категория эмоциональной нейтральности представляет собой континуум, верхнюю границу которого очерчивают информационно-справочные тексты, а нижнюю - тексты жанра «интернет-откровение». Однако и для тех, и для других существует ряд общих вербальных «маркеров нейтральности».

Ключевые слова: интернет-тексты; сентимент-анализ; эмоционально нейтральные тексты; корпусные методы в лингвистике; вики-тексты.

Введение

Современная коммуникация в интернете характеризуется в исследовательской литературе как дискурсивное пространство новой чувствительности [1], которая призвана освободить человека цифровой эры от переживаний, связанных с насилием и эксплуатацией, вернув ему интерес к собственным инстинктивным экзистенциальным ощущениям [2. Р. 54]. Однако слоган «ты то, чем ты делишься» [3. С. 46], став основой идеологии новых медиа, породил волну так называемого киберэксбиционизма [4], в том числе и эмоционального. Гипертрофированная резкость оценок и откровенность эмоций, став непременной характеристикой интернет-коммуникации, спровоцировали желание социальных стейкхолдеров параметризировать чувства и эмоции в интернете в целях их последующего мониторинга. Возникла исследовательская парадигма сентимент-анализа [5], а затем - эмоционального анализа текстовых данных [6].

Выполняемый исследовательской группой проект находится в рамках последнего из упомянутых направлений. Цель проекта - разработка компьютерного классификатора, способного автоматически определять ведущую эмоцию, вербализованную в интернет-тексте на русском языке.

За основу была взята восьмичленная классификация эмоций, предложенная шведским исследователем Г. Лёвхеймом [7], так называемый «куб Лёвхейма». Семь эмоций в данной классификации имеют двойную номинацию, где первая часть является обозначением слабой степени выраженности эмоционального состояния, а вторая - самой сильной (исключение составляет эмоция удивления): Интерес / Возбуждение; Удовольствие / Радость; Удивление; Страдание / Тоска; Гнев / Ярость; Страх / Ужас; Презрение / Отвращение; Стыд / Унижение.

На первом этапе проекта определены морфологические, синтаксические, лексические и семантические группы вербальных маркеров текстов, принадлежащих восьми эмоциональным классам [8]. Однако опыт организации эмоциональной разметки корпуса текстов с помощью группы асессоров, а также тестирование пилотной версии классификатора продемонстрировали необходимость создания 9-го класса текстов - нейтрального.

Серия исследовательских вопросов, раскрываемых в той части исследования, результаты которой будут изложены в данной публикации, сформулирована следующим образом: имеют ли нейтральные тексты свою собственную языковую специфику относительно эмоциональных текстов? зависит ли эта специфика от жанра интернет-текста? насколько «далеко» отстоят тексты, оцениваемые информантами как нейтральные, от тех, которые ими же классифицируются как эмоциональные?

В попытке ответить на поставленные вопросы мы последовательно рассмотрим материал и методы исследования (п. 2), три аспекта категории нейтральности, нашедшие отражение в лингвистических штудиях, - нейтральность стилистическая, оценочная и эмоциональная (п. 3); проведем корпусный лингвистический анализ двух подкорпусов нейтральных текстов разной жанровой принадлежности и сравним полученные результаты с теми, что были получены при анализе эмоционально окрашенных текстов (п. 4); наконец, сделаем вывод о наличии / отсутствии собственных дискриминантных черт у класса нейтральных текстов, зависимости этих черт от жанра текстов и о специфике категории нейтральности в интернет- коммуникации.

Материал и методы

Цель данной публикации - описать результаты исследования, направленного на выявление вербальных маркеров эмоционально нейтральных текстов.

Материалом исследования послужили три корпуса интернет-текстов: тексты из Википедии, рассматриваемые a priori как эмоционально нейтральные и составившие корпус данных в объеме 136 184 токенов (далее - НТ a priori); тексты из пабликов «Карамель», «Подслушано», «Палата № 6» русскоязычной социальной сети «ВКонтакте», размеченные асессорами как нейтральные в процессе эмоциональной разметки датасета эмоциональных текстов - корпус a posteriori нейтральных текстов (далее - НТ a posteriori); наконец, 8 подкорпусов эмоциональных текстов (далее - ЭТ) из указанных выше пабликов в объеме 1 092 327 токенов, которые служат фоном для контрастивного описания специфики нейтральных текстов.

Выбор Википедии в качестве источника данных для класса НТ a priori обусловлен принадлежностью текстов к информационному дискурсу, предполагающему стремление авторов текстов избегать оценочно- сти. Так, по словам В.В. Дементьева, «Википедия старается избегать давать оценки - любые» [9. С. 241]. Кроме того, исследователи отмечают, что в Википедии образовалась критическая среда для развития коллективного мышления постнеклассического идеала рациональности [10].

Нейтральные тексты a posteriori были отобраны по итогам процедуры асессмента, проведенной на одной из краудсорсинговых платформ. Зарегистрированным на данной платформе 2 тыс. информантам было предложено разметить 3 920 текстовых фрагментов объемом от 80 до 120 слов, т.е. по 490 образцов из восьми эмоциональных классов текстов, согласно восьми базовым эмоциям, выделенным Г. Лёвхеймом.

Упомянутые 8 классов текстов были первоначально сформированы путем сплошной выборки постов со страниц проектов «Подслушано», «Карамель», «Палата № 6» русскоязычной социальной сети ВКонтакте. Выборка производилась по хештегам, содержащим вербализованную отсылку к соответствующему эмоциональному состоянию (например, #_фуу - эмоция отвращения или #Грустненько) или номинацию ситуации, обычно вызывающей определенную эмоцию (#Предательство или #Одиночество). Общий объем выборки составил 15 тыс. текстов, из которых затем случайным образом были отобраны уже упомянутые 3 920 текстов.

В процессе аннотирования информанты должны были разметить тексты, пользуясь шкалой и инструкцией.

Инструкция: Внимательно прочитайте текст. Если необходимо, прочитайте его несколько раз. Какие эмоции автор выражает в тексте? На каждой из шкал поставьте отметку ближе к той эмоции, которая сильнее выражена в тексте. Поставьте отметку настолько близко, насколько очевидна и сильна эта эмоция в тексте. Например, один шаг от центра - оттенок эмоции присутствует, но выражен слабо; три шага - если эмоция явно присутствует; пять шагов - если эмоция, без сомнения, доминирует. Если в тексте нет эмоций, обозначенных на шкале, оставьте отметку в среднем положении.

Далее информантам предлагалось 4 шкалы, между полюсами которых можно было ставить отметку-маркер: Грусть - Радость, Гнев - Отвращение, Стыд - Оживление, Страх - Удивление. Такое конструирование шкал было обусловлено моделью эмоций «Куб Лёвхейма», согласно которой данные эмоции на биохимическом уровне формируют оппозиции. Так, например, Грусть «запускается» при условии низкого уровня гормонов серотонина и дофамина в крови человека, в то время как Радость инициируется высоким уровнем этих нейротрансмитеров.

В результате проведенной аннотации мы получили ограниченный 412 фрагментами, но, тем не менее, показательный корпус текстов, размеченный информантами как «нейтральные тексты», объемом 14 тыс. токенов.

Подчеркнем, что в предварительную выборку данные тексты были включены как «эмоциональные», но информанты расценили их как нейтральные.

Для анализа мы намеренно взяли два корпуса интернет-текстов разной жанровой принадлежности: a priori нейтральные тексты из Википедии и a posteriori нейтральные тексты из паблика «Подслушано». Первые репрезентируют информационный жанр «справочная информация», а вторые - жанр «интернет-откровение» [11]. Предполагается, что необходимо выделить, с одной стороны, такие дискриминантные черты нейтральных текстов, которые не зависят от жанра, а с другой - посмотреть, зависят ли вообще маркеры нейтральности от жанра.

В качестве ведущего используется метод корпусного лингвистического анализа, предполагающий исследование коллокаций, ключевых слов, конструкций, окружения исследуемой единицы, а также использование квантитативных методов [12. С. 20]. Технологический базис исследования составил корпусный менеджер Sketch Engine - поисковая система для работы с данными корпуса, получения статистической информации и предоставления пользователю результатов в удобной форме [13. С. 141]. Помимо множества функций, статистических методов, поддержки большого количества языков и удобного интерфейса, корпусные менеджеры позволяют исследователю работать с большими собственными коллекциями данных, которые предварительно индексируют для ускорения процесса поиска.

Объектом анализа является категория эмоционально нейтральных текстов, а предметом - их дискриминантные черты. Последние понимаются как такие доступные параметризации характеристики группы текстов, которые отличают ее от других групп текстов. В нашем проекте дискриминантные черты текстов каждого из эмоциональных классов используются в качестве дополнительных факторов для формирования функций-предикторов в процессе машинного обучения по прецедентам, которое проходит компьютерный классификатор текстов на основе размеченной выборки.

1. О понятии нейтральности в лингвистике

Понятие нейтральности в лингвистике далеко неоднозначно. В целом следует констатировать, что для лингвистов категория нейтральности (будь то в стилистике, семантике или эмотиологии) практически всегда является точкой отсчета для описания какого- то иного объекта, качества или характеристики: стилистического значения лексемы, степени экспрессивности или оценочности конструкции, выраженности эмоционального концепта. Однако практически никогда нейтральность не рассматривалась как самостоятельный объект исследования. Тем не менее есть определенная доля истины в известном афоризме - «чтобы быть эксцентричным, надо знать, где находится центр». Рассмотрим специфику трактовки категории нейтральности в трех аспектах: стилистическая нейтральность, оценочная нейтральность и эмоциональная нейтральность.

1.1 Стилистическая нейтральность

В традициях стилистики нейтральность текста или составляющих его единиц трактуется в самом общем смысле как их «невыделенность», создающая фон для появления у некоторой единицы или совокупности единиц некоторой стилистической окраски или стилистического значения.

Так, М.В. Панов отмечает [14. С. 179], что только окрашенные единицы создают стилистическую характерность текстов, - «нейтральные же единицы, встречаясь в любом тексте (курсив наш. - А.К.), не могут быть носителями характерности», однако первые проявляют свою характерность, только находясь в сочетании со вторыми.

Р.Г. Пиотровский сужает границы нейтральных текстов, специфицируя их невыделенность новым ограничением - это должны быть некие типовые, стереотипные контексты, где лексические единицы встречаются в своем привычном окружении, поскольку «даже наиболее стилистически нейтральные слова, словосочетания и грамматические конструкции при перенесении их в другую речевую среду становятся стилистически окрашенными» [15. С. 22].

Эти «обычность» и «невыделенность» являются в том числе следствием соблюдения в нейтральных текстах базовых норм языка, предопределяющих отсутствие каких бы то ни было препятствий к их пониманию [16. С. 275]. И наоборот, всякое нарушение норм языка, согласно стилистике отклонений [17], трактуется его носителем - реципиентом некоторого текста как «отклонение», уже этим привлекает к себе внимание читателя, становясь «выделенным», а значит, приобретая стилистическую окраску.

Невыделенность, типизированность контекста и стереотипность ситуации употребления, нормативность, отсутствие проблем понимания - основные признаки нейтрального текста, рассмотренного в стилистической перспективе.

1.2 Оценочная нейтральность

Оценка, по мнению Н.Д. Арутюновой, является результатом соотнесения человеком мира реального и его идеализированной самим же человеком модели [18. С. 182-183], что порождает «разнообразные иллокутивные силы» - «оценочное высказывание стремится повлиять на адресата, а через него и на ход практической жизни». Следовательно, оценка находится в зоне прагматики языкового знака. Рассматривая ее в лексикографическом аспекте, Ю.Д. Апресян [19. С. 66-69] выделял два типа информации, составляющей данную зону: 1) культурные коннотации и семантические ассоциации, фиксирующие отношение национально-лингво-культурного коллектива к обозначаемой словом сущности; 2) «модальную рамку», отражающую оценку описываемой конкретной ситуации говорящим или слушающим.