Дипломная работа: Автоматическое выявление вербальной агрессии в Интернет-коммуникации

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

О.А.Михайлова также исследовала способы реализации речевой агрессии в СМИ. В своем учебном пособии «Лингвокультурологические аспекты толерантности» О.А.Михайлова выделяет несколько способов реализации речевой агрессии в СМИ. Например, это может быть немотивированное использование иноязычных слов, экспансия лексики малых социальных групп, языковая демагогия, метафоризация и т.д. [27]

Н.А.Паламарчук в научном труде «Способы выражения вербальной агрессии в текстах Интернет-комментариев» исследовала лексические и синтаксические лингвистические единицы, выражающие вербальную агрессию, в текстах Интернет-комментариев. Целью данной работы было проведение анализа вербальной агрессии на предмет выявления средств языка и особенностей речи, за счет которых достигается агрессия в коммуникации на примерах текстов комментариев российских Интернет пользователей. Н.А.Паламарчук предлагает следующую классификацию способов выражения вербальной агрессии:

· Вербальная агрессия на лексико-семантическом уровне, которая выражается следующими способами:

1. Слова, выражающие обвинение, осуждение или недоверие по отношение к адресату (например, «бандит», «жулик»);

2. Сравнение адресата с предметами материального мира, животным, персонажем фольклора;

3. Прямое оскорбление и унижение адресата (например, «фашист», «америкос» и др.);

4. Слова, выражающие сомнения насчет интеллектуальных и физических способностей адресата (например, «дурак»);

5. Слова с измененной интонацией, содержащие агрессивные намерения субъекта. Примерами таких слов могут быть эрративы и людемы. Например, выражение «я же мать» в устной речи часто произносится с интонацией, передающей иронию говорящего, что в письменном виде проявляется в искажении его формы - «яжемать».

· Вербальная агрессия на грамматическом уровне может быть выражена следующими путями:

1. Использование псевдо-императивных конструкций для выражения угрозы;

2. Фразеологические обороты с отрицательной окраской (например, «как воды в рот набрал» и т.д.);

3. Использование вопрос с целью упрекнуть или задеть адресата;

4. Использование прагматически окрашенных единиц для выражения угрозы, неодобрения и т.д.;

5. Грамматические людемы (например, парцелляция);

6. Использование в Интернет-коммуникации местоимение 2-го л. ед.ч. «ты» с целью выразить неуважение к адресату;

7. Использование местоимений 3-го л. «он», «она», «оно» и «они» по отношению к лицам как участникам интеракции или же просто как присутствующим при коммуникативном акте;

8. При помощи суффиксов негативной оценки с оттенками пренебрежения, иронии и т.д. (например, «дурачина»). [32]

В ходе анализа записей Интернет-пользователей в блогах большое внимание будет уделяться лексическим единицам, содержащих вербальную агрессию, т.к. они в дальнейшем войдут в тональный словарь.

1.7 Основные положения корпусной лингвистики

Понятия корпусной лингвистики

В настоящее время любое лингвистическое исследование, которое предполагает анализ огромного объема эмпирических данных, может быть осуществлено при помощи методологии корпусной лингвистики. Корпусная лингвистика - это «раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с применением компьютерных технологий» [12].

Предметом корпусной лингвистики является корпус текстов - большой, унифицированный, структурированный, филологически компетентный и размеченный массив языковых данных для решения конкретных лингвистических задач [11: с.4-5]. Такие корпуса текстов используются современными исследователями для проверки лингвистических гипотез и теорий, а также для работ с различным языковым материалом (например, в качестве массивов тестов для выявления языковых явлений).

Стоит отметить, что не всякое собрание текстов можно считать корпусом. Как отмечали Байбер, Конрад и Реппен, корпусом является собрание текстов, отобранных по определенным принципам [53]. Из этого следует, что собрание текстов будет считаться корпусом тогда и только тогда, когда это собрание является репрезентативной выборкой изучаемого явления, т.е. в данном собрании текстов данное явление наблюдается довольно часто и в разных его формах.

Об этом же говорит Рыков В.В., утверждая, что корпус текстов - это некоторое собрание текстов, основанное на логическом замысле, логической идее, объединяющей эти тексты и воплощающейся в правилах их организации в корпус, алгоритме и программе анализа корпуса текстов, связанной с этим методологии и идеологии [33].

Э. Вилсон и Т.МакЭнри понимают под корпусом «собрание языковых фрагментов, отобранных в соответствии с четкими языковыми критериями для использования в качестве модели языка» [69].

Согласно определениям корпуса, данными выше, можно выделить два основных аспекта корпусной лингвистики - создание корпуса с размеченными данными и лингвистический анализ текстов на основе созданного корпуса.

Языковый корпус может быть представлен как письменными, так и устными текстами. Для письменного корпуса тексты могут быть отсканированы, напечатаны или выгружены из Интернета. Кроме того, каждый текст в корпусе должен сопровождаться информацией о самом тексте (контексте, типе, его авторе и т.д.). Для более удобного анализа в больших корпусах может быть проведена разметка по частям речи (тегирование) или разноуровневая разметка самого текста (заголовки, параграфы).

Среди базовых методов работы с корпусами можно выделить такие, как составление конкорданса, подсчет абсолютной частотности, анализ ключевых слов и анализ кластеров. Использование этих методов позволяет создать лексико-грамматический профиль слов, содержащий информацию о типичном контексте их употребления относительно частоты их встречаемости в корпусе, возможных синтаксических и семантических ограничениях и т.д. [6: с.3-4]

Используя методы корпусной лингвистики, можно провести целый ряд исследований, направленных на установление общих и отдельных фактов между языками, диалектами или вариантами языка в ходе сопоставительного изучения, а также на определение тональности используемого словесного материала.

Создание корпуса

Прежде чем преступить к созданию корпуса, важно установить тематику жанровой структуры корпуса: необходимо определить, чем в корпусе является текст, в каких хронологических рамках опубликованы эти тексты и другие вопросы.

Важно помнить, что корпус разрабатывается для решения самых различных лингвистических задач. В рамках данного исследования создание корпуса происходит с целью составления словаря языковых единиц, которые могут указывать на вербальную агрессию в тексте, и дальнейшей проверки словаря во время проведения классификации текстов корпуса на отрицательные и положительные.

В связи с этим процесс создания корпуса для решения данной задачи можно описать следующим образом:

1) Скачивание текстов с источника;

2) Преобразование текстов в формат, понятный машине;

3) Предварительная обработка текстов;

4) Разметка текста, сопровождающаяся информацией о самом тексте и его компонентах (например, о дате публикации);

5) Распределение текстов корпуса в положительный и отрицательный подкорпуса.

Обработка текстов корпуса

Для повышения качества корпуса, а в дальнейшем тонального словаря и алгоритма классификации необходимо провести целый ряд операций. В первую очередь речь идет о токенизации. Под токенизацией понимается процесс разбиения длинных строк текста на отдельные значимые единицы (токены). Токенизация текста необходима для определения границ слов, однако решение этой задачи усложняется пунктуацией в тексте.

Следующим этапом обработки текстов корпуса является удаление стоп-слов. Стоп-слова - это те слова, которые не несут смысловой нагрузки. Их также называют шумовыми словами. Чаще всего к стоп-словам относятся предлоги, частицы, союзы, междометия, вводные слова и т.д.

Говоря об обработке текста, стоит также упомянуть лемматизацию - процесс образования начальной формы слова на основе его других словоформ. Похожим процессом является стемминг, в ходе которого находится основа слова. Основная идея стемминга состоит в том, что от корня слова отрезаются аффиксы и окончания, чтобы оставшаяся часть (основа слова) была одинаковой для всех грамматических форм слова. Однако, в русском языке при стемминге возникает ряд ошибок при поиске основы слова, связанные с всевозможными изменениями корня слова (беглые гласные и др.). С точки зрения корректного выделения основы это является минусом алгоритма: он часто отсекает слово больше необходимого, что затрудняет получение правильной основы слова. Например, основой слова кошками является кош. Таким образом, слово обрабатывается без знания контекста, тем самым дифференциация слов с разными значениями становится невозможной. В отличие от стемминга лемматизация приводит к смысловой начальной форме слова.

Наконец, для обработки текстов также используется парсинг. Парсингом называют процесс сопоставления последовательности слов с их формальной грамматикой, результатом которого является синтаксическое дерево.

Анализ тональности

Цель данной работы, заключающаяся в выявлении вербальной агрессии в тексте, прежде всего приводит нас к анализу тональности текста. В последние несколько лет вокруг проводится все больше исследований, посвященных анализу тональности текстов. Можно выделить несколько основных подходов к рассмотрению данной проблемы.

Статистический подход основывается на оценке наиболее частотных слов, маркирующих оценку слова, подсчета расстояний между ними, оценке частотных n-грамм и т.д. [64, 72, 73].

Другие исследователи кроме статистического подхода пользуются также парсингом, тем самым анализируя синтаксическую зависимость и наиболее встречаемые вершины именных, предложных и глагольных групп. Слова же, синтаксически не связанные с оценочными словами, не принимаются во внимание [72].

Кроме того, для анализа тональности текстов также используется машинное обучение, в котором выделяют обучение без учителя (unsupervised learning) и обучение с учителем (supervised learning). В первом случае какая-либо разметка исходных данных отсутствует. Алгоритм самостоятельно выделяет признаки для определения тональности на основе разделения исходных данных на кластеры. Такой подход является менее затратным в отличие от, например, ручной разметки данных. Среди таких алгоритмов обучения без учителя можно выделить скрытое распределение Дирихле [54]. Стоит отметить, что точность определения тональности таких алгоритмов часто уступает моделям обучения с учителем.

Во втором случае речь идет о наличии уже размеченных данных. В данном случае алгоритм вычисляет определенную зависимость между имеющимися данными и их маркерами. Примерами моделей обучения с учителем могут послужить скрытые марковские модели, логистическая регрессия, наивный байесовский классификатор и другие. [65]

В связи с более высокими показателями точности определения тональности моделей обучения с учителем большинство методов анализа тональности текстов в той или иной мере опираются на использование списков оценочной лексики, поэтому многие работы, посвященные данной проблеме в определенной предметной области концентрируются либо на дополнении уже существующих списков, либо создании собственных тональной словарей, более подходящих под проблематику изучаемого вопроса. Тональные словари создаются в два этапа: сначала компилируется список потенциально оценочных слов, а после этого каждой позиции из этого списка приписывается значение полярности. Это может быть сделано как автоматически, так и вручную.

Работа Turney and Littman является ярким примером применения корпусного подхода к созданию тонального словаря. В данной работе исследователи применили метрики семантической близости для того, чтобы определить для ранее не встречавшегося слова корреляцию с уже «помеченными» словами [79].

Другим подходом к определению тональности является предположение, что слова, находящиеся в схожем контексте, принадлежат к одному и тому же оценочному классу. Sattam Almatarneh и Pablo Gamallo придерживались именно этого подхода в своем исследовании. В их статье описано, как исследователи использовали корпус отзывов о фильмах для определения тональности текста. Оценочным словам ученые приписывали веса, отражающие их тональность. Данные веса основаны на относительной частоте встречаемости (relative frequency) в текстах с одной и той же оценкой и среднем ее значении в отрицательных, положительных и нейтральных текстах. Далее эти слова были использованы в системе, основанной на обучении с учителем, а именно методе опорных векторов (SVM) для классификации текстов по полярности [51].

Алгоритмы машинного обучения также были использованы в работе И.И. Четверкина и Н.В. Лукашевич, в ходе которой оценочные слова выявлялись на основе их статистических и лингвистических признаков. Как и в работе Almatarhneh и Gamallo модель Четверкина и Лукашевич была построена для определения тональности отзывов о фильмах, а затем была применена в других предметных областях. Полученные в ходе работы модели словари были в последствии объединены в общий тональный словарь для применения к более широкому спектру товаров. Слова с частотой встречаемости выше 3 по всему корпусу были вручную аннотированы как оценочные и неоценочные для обучения алгоритма классификации [57].