Статья: Сентимент-анализ читательского интернет-комментария к политическому тексту

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Сентимент-анализ читательского интернет-комментария к политическому тексту

Гималетдинова Гульнара Камилевна, кандидат филологических наук, доцент кафедры романо-германской филологии, Казанский федеральный университет

Довтаева Эмили Хамзатовна, студентка Института филологии и межкультурной коммуникации, Казанский федеральный университет

Аннотация

Статья посвящена изучению эмоциональной составляющей читательского комментария как субжанра интернет-коммуникации. Актуальность проведенного исследования обусловлена повышенным вниманием к вопросам интернет-коммуникации в области политической лингвистики, что в свою очередь продиктовано активной социальной позицией современного пользователя Глобальной сети, его стремлением принять участие в общественно-политической жизни. В исследовании читательский комментарий рассматривается как способ самовыражения личности в интернет-пространстве. Электронные версии газетных статей (англ. «news articles») и комментарии читателей к ним (англ. «reader comments») структурно и семантически рассматриваются как единое целое -- интерактивная газетная статья (англ. «participatory news article»), при этом комментарий ввиду своей спонтанности обладает большей экспрессивностью и эмоциональностью. В целях определения тональности текста англоязычных и русскоязычных читательских комментариев (N = 2050) к новостным статьям (N = 38) в исследовании применен метод сентимент-анализа (количественный анализ автоматизированным способом при помощи прикладного программного интерфейса «ParallelDots API»).

Интерпретация полученных данных позволяет говорить о преобладании негативной тональности в текстах русскоязычных комментариев (59,3 %) и нейтральной тональности в англоязычных (46,1 %). Проведенный сопоставительный экспертный анализ с акцентом на культурологические особенности выявил в целом больший интерес к вопросам политической тематики в англоязычных комментариях по сравнению с русскоязычными. Исследование показало, что использование сентимент -анализа позволяет получить объективные данные об эмоциональной тональности текста, следовательно, описанный в работе опыт изучения читательских комментариев может послужить примером для дальнейших лингвистических исследований текста с применением автоматизированных методов анализа.

КЛЮЧЕВЫЕ СЛОВА: интернет-коммуникация; субжанры; читательские комментарии; сентимент-анализ; политические тексты; интернет-дискурс.

Abstract

G.K. Gimaletdinova

E.Kh. Dovtaeva

Sentiment Analysis of the Reader's Internet Commentary on a Political Text

The article is devoted to the study of the emotional constituent of the reader's commentary as a subgenre of Internet communication. The urgency of the study is substantiated by heightened attention to Internet communication in the field of political linguistics, which, in turn, is dictated by the active social position of the modern user of the global network and their desire to participate in socio-political life. The study looks at the reader's commentary as a way of self-expression of a personality in the Internet environment.

Electronic versions of newspaper articles (news articles) and readers' commentaries (reader comments) are structurally and semantically considered as a single whole (a participatory news article), where the reader's commentary, due to its spontaneity, is more expressive and emotional. In order to determine and compare the emotionality of English and Russian reader's commentaries N=2050) on news articles (N=38), the study uses the method of sentiment analysis (automated quantitative analysis based on the application programming interface ParallelDots API). Interpretation of the data obtained allows speaking about the prevalence of negative tonality in the texts of Russian-language commentaries (59.3%) and neutral tonality in the English-language commentaries (46.1 %). A comparative expert analysis with an emphasis on cultural features has revealed a generally greater interest in political issues in English commentaries compared to Russian ones. The study shows that the use of sentiment analysis allows the researcher to obtain objective data; therefore, the experience of studying reader's commentaries described in this work can serve as an example forfurther linguistic investigation of the text based on automated analysis methods.

KEYWORDS: Internet communication; subgenres; readers' commentaries; sentiment analysis; political texts; Internet discourse.

Введение

В связи с повышением значимости интернет-коммуникации в жизни современного человека актуальными становятся исследования, посвященные способам самовыражения личности в интернет-пространстве. Возникновение новых форм сетевого общения способствует жанровой дифференциации такого явления, как комментарий читателя (читательский комментарий). В зависимости от конкретного направления лингвистических исследований (медийная коммуникация, прагматика, стилистика и т. д.), объектом специального изучения становятся специфика, цели и речевые особенности комментария как жанра интернет-коммуникации [Фенина 2015].

В данной статье комментарий читателя (англ. reader comment) изучается в неразрывной связи с газетной (новостной) статьей (англ. news article), к которой он оставлен в режиме онлайн. Наличие смысловых, структурных и семантических связей между газетными статьями и читательскими комментариями к ним диктует необходимость использования специального термина, позволяющего рассматривать газетную статью и читательский комментарий как единое целое. Вслед за Яном Брюсом авторы используют термин интерактивная газетная статья (англ. participatory news article) [Bruce 2010; Гималетдинова 2012]. Таким образом, виртуальная коммуникация в рамках интерактивной газетной статьи строится по схеме: событие (общественно-политическое и т. д.) ^ новостная статья (отклик на событие) ^ комментарий читателя (отклик на событие, отклик на новостную статью, отклик на комментарии других читателей и т. д.).

Для лингвистических исследований определенный интерес представляет эмоциональная составляющая читательского комментария, поскольку особенностями последнего являются спонтанность, диалогичность, экспрессивность и лаконичность [Гималетдинова 2012; Топчий 2019; Щипицина 2015]. Наиболее существенные результаты относительно качественного и количественного анализа эмоциональности читательских комментариев могут быть получены путем автоматизированной обработки текстового материала. Для решения данных задач в компьютерной лингвистике используется метод сентимент-анализа, или метод анализа тональности текста (англ. sentiment analysis), где под тональностью, или сентиментом, понимается выраженная в тексте эмоциональная оценка [Pang, Lee 2008]. Определение тональности текста англоязычных и русскоязычных читательских комментариев (в сопоставительном аспекте) с применением автоматизированного метода сентимент- анализа позволит получить новые данные об исследуемом субжанре интернет-коммуникации.

В статье представлены результаты анализа тональности текста на материале читательских комментариев к газетным статьям. Назовем наиболее существенные достижения проведенного исследования.

1. Предпринята попытка изучения эмоциональной составляющей читательского комментария посредством автоматизированного метода сентимент-анализа.

2. Выявлены особенности выражения эмоциональности в текстах читательских комментариев представителями разных языковых культур (англоязычной и русскоязычной).

Обзор литературы по проблеме

В современных исследованиях комментарий читателя изучается в рамках теории интернет-коммуникации и виртуального жанроведения [Горошко 2015], а также дискурса общественного мнения (ДОМ), под которым понимается «форма использования языка в процессе формирования и выражения общественного мнения в реальном времени в совокупности содержания высказывания с экстралингвистическими факторами и персональными особенностями коммуникантов» [Красильникова 2011: 136]. Для обозначения комментария как жанра интернет- дискурса используются различные термины: сетевой комментарий или «коммент» (англ. online comment) [Степанова 2013; Щипицина 2015], интернет-комментарий (англ. internet comment) [Дахалаева 2013; Карпоян 2015; Камененева 2016; Ляпун 2016; Топчий 2019], а также читательский комментарий / комментарий читателя (англ. reader comment) [Bruce 2010; Гималетдинова 2012; Бирюкова 2018]. Отмечается, что интернет-комментарии способствуют непрерывности и интерактивности интернет-общения [Дахалаева 2013], обладают высокой степенью эмоциональности [Ляпун 2016; Топчий, 2019] и выступают существенным индикатором политической и социальной активности населения [Дахалаева 2013].

В исследованиях, посвященных вопросам виртуального жанроведения, высказывается мысль о том, что интернет- комментарий формируют субжанр, обладающий в структурно-семантическом плане относительной несамостоятельностью и зависимостью от исходного (комментируемого) текста, в связи с чем комментарий следует рассматривать в составе макротекстового образования [Щипицина 2015]. В случае с читательским комментарием таким макро-текстовым образованием можно считать интерактивную газетную статью [Bruce 2010; Гималетдинова 2012]. Тематика и контент статьи журналиста обусловливают ответную реакцию, выраженную в читательском комментарии; в частности, доказано, что отрицательная оценочность и негативная эмоциональность присущи комментариям к политическим статьям, а положительная оценочность и позитивная эмоциональность -- к статьям культурной тематики [Каменева 2016].

Стремление обработать большие объемы текстового материала на предмет его эмоциональной составляющей привел исследователей к необходимости использования автоматизированных способов обработки текстовой информации. На таблице 1 представлены данные по ряду научных проектов, целью которых явился анализ того или иного жанра интернет-коммуникации [Дахалаева 2013; Гурин 2015; Каменева 2016; Бирюкова 2018; Топчий 2019; Колмогорова 2019; Посевкин 2019].

Таблица 1 Данные о проведенных исследованиях отдельных жанров интернет-коммуникации с применением автоматизированных и неавтоматизированных методов

Автор(ы) исследования

Жанр текста

Цель анализа

Метод(ы) и инструменты анализа

Эмпирическая база исследования

Дахалаева Е. Ч.

Комментарий к новостным постам интернет- портала «Новости Mail.Ru».

Классификация типов комментариев; анализ прагматических функций

Неавтоматизированный, экспертный (метод сплошной выборки, метод дискурсивного анализа, интерпретационный метод анализа)

1112 комментариев

Гурин К. Е.

Комментарий в социальной сети «ВКонтакте»

Дискурсивный анализ сетевой структуры коммуникации (социологический подход)

Сеть в программе для визуализации и анализа графов Gephi (версия 0.8.2).

73 комментариев, отобранных из 1434

Каменева В. А.

Интернет-комментарий к статьям политической и культурной тематики

Установление иерархии коммуникативных целей комментария к статьям выбранной тематики

Неавтоматизированный, экспертный, метод сплошной выборки

400 комментариев

Бирюкова Е. В., Собянина В. А., Волкова Ю. В.

Читательский комментарий к новостным статьям

Классификация языковых средств выражения экспрессивности и оценочности; анализ лингвопрагматических особенностей интернет- комментариев

Неавтоматизированный, экспертный

467 комментариев

Топчий И. В.

Интернет- комментарий официального паблика «Медузы» ВКонтакте

Анализ речевых тактик и средств выражения эмоциональной оценочности

Неавтоматизированный, экспертный, метод сплошной выборки

17 233 комментариев

Колмогорова А. В.

Жанр «интернет-откровение» в публичной группе «Подслушано» социальной сети «ВКонтакте»

Автоматизированная оценка текстов, вербализующих эмоции(по теории Левхейма)

Сентимент-анализ, метод классификации -- технология машинного обучения по прецедентам, классификация эмоций Г. Левхейма («куб Левхейма»)

1 092 327 токенов

Посевкин Р. В., Бессмертный И. А.

Отзывы и обсуждения документов в сети

Интернет

Автоматизированная оценка общественного мнения

Сентимент-анализ, метод классификации -- составление тонального словаря для русскоязычного текста (списки паттернов)

35 000 слов в тональном словаре, 100 предложений (для экспериментального использования)

Анализ представленных в таблице 1 данных позволяет заключить, что использование неавтоматического (ручного) способа обработки текстового материала не позволяет проанализировать существенный объем комментариев. Более качественный анализ эмоциональной составляющей читательских комментариев возможен в случае применения метода сентимент-анализа, который позволяет классифицировать тексты по тональности (эмоциональной оценочности, или сентименту), при этом примерами тональных оценок могут быть негативная, позитивная и нейтральная. На сегодняшний день существует два основных метода решения задач автоматического определения тональности:

1) статистический метод, основанный на использовании заранее размеченных по тональности коллекций (корпусов) текстов, на которых далее происходит обучение модели, с помощью которой определяется тональность выбранного отрезка текста;

2) метод, основанный на составлении специальных семантических тезаурусов (тональных словарей) позитивных и негативных слов и выражений. Этот метод может использовать как списки паттернов, так и правила соединения тональной лексики внутри предложения, основанные на грамматическом и синтаксическом разборе. Данные словари необходимы при составлении специальных компьютерных программам, целю которых является решение той или иной задачи методом сентимент-анализа [Pang, Lee 2008].

Кроме социологических исследований (маркетинговые, рекламные и т. д.), сентимент-анализ может применяться и для проведения исследований в области лингвистики. Поскольку выражение эмоций и наличие эмоциональности представляется неотъемлемой частью читательского комментария, определение и разграничение его тональности, в том числе в сопоставительном аспекте, применительно к представителям разных языковых культур, может послужить толчком к дальнейшему изучению лингвистической составляющей читательского комментария и выявлению закономерностей доминирования позитивной, негативной и нейтральной тональности в тексте. Проведение настоящего исследования является шагом в данном направлении.

Материал и методы исследования

В исследовании использовался метод анализа тональности текста (метод сентимент-анализа), целью которого является автоматизированное выявление в анализируемых текстах эмоционально окрашенной лексики (положительной, отрицательной) и эмоциональной оценки авторов (мнений) по отношению к упоминаемым в текстах объектам.

Исследование проводилось в три этапа.