Дипломная работа: Автоматическое выявление вербальной агрессии в Интернет-коммуникации

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Приведем еще несколько отрывков из одной записи блога того же авторства, опубликованной 23 февраля 2017 года.

Название: Как отдохнуть в Крыму недорого и без регистрации

Отрывки текста:

За событиями на майдане я следил внимательно через призму ленты.ру. нужно заметить, что на тот момент это был откровенно русофобский ресурс (после смены состава они, хотя бы, пытаются это скрывать). у них был корреспондент на майдане, который писал восторженную хуйню, но фотографии с бандерой и прочие прелести от меня не укрылись. мне с самого начала было примерно понятно, чем всё кончится. тем более, я много работал с хохлами, и знал, чего от них можно ожидать.

узнав, что я из России, водитель лет 45 из днепропетровска всю дорогу рассказывал, как он будет убивать русских со своими сыновьями из засад, какие мы лохи и все умрем. Я врубал пацифиста и продолжал движение, ломая голову над тем, дать этой скотине в конце 100 гривен или выпустить кишки под руль.

В РФ любое "патриотическое" движение где-нибудь, да прячет свастику, и занимается канализацией этого самого патриотического движения…

он уработал этого урода отличной двоечкой…

Если бы я тогда знал, что сделает эта гнида в будущем, мамой клянусь, воткнул бы ему и нож в спину.

нужно было видеть животный страх этой скотины. удивительно, как такое чмо дослужилось до генерала. После этого я спокойно упал в строй, а трусливого "шрека" увели отмываться в его двухсотый лендкрузер.

Такое же чмо, как наши питерские резники и шишкины. генетический мусор. Особенно доставляла бабка, которая падала и орала, что её бьют, а наши её каждый раз аккуратно поднимали и отряхивали.

Немецкой свинье было по барабану…

В данном тексте также можно выделить языковые единицы, которые указывают на нетерпимое отношение автора при описании отдельных личностей или организаций: русофобский ресурс, какие мы лохи, этой скотине, этого урода, такое чмо и т.д. Автор или люди, которых автор упоминает, эксплицитно выражают свое отношение к другим людям, предметам или явлениями с использованием, в частности, табуированной лексики.

Кроме того, можно выделить отрезки текста, в которых автор явно проявляет свое негативное отношение при описании собственных действий или действий других действующих лиц: выпустить кишки под руль, занимается канализацией, будет убивать русских и т.д.

Исходя из приведенных отрезков записи, можно утверждать, что данный текст содержит языковые единицы, которые указывают на проявление вербальной агрессии и в дальнейшем могут войти в тональный словарь.

Автор: dimagrib

Дата публикации: 9 апреля 2019 года

Название: Женщины должны получать меньше мужчин

Отрывки текста:

На дворе 21 век, великое время для открытий и свершений. Вместо этого люди срутся по половому признаку. Это самое тупое, что происходило с человечеством за последнее время после расизма, который был, есть и будет, когда в одном месте скапливаются разные люди.

Раньше они были шлюхами, а теперь инстаграмщицы и модели.

Мужик не родит ребенка и не вскормит его грудью, хотя и сможет отвесить знантных люлей местным гопникам.

В записи явно прослеживается позиция автора на тему феминизма. Вербальная агрессия в данном тексте реализуется за счет использования оскорбительных слов («шлюха»), а также языковых единиц, негативно характеризующих человека («гопник», «тупое», «срутся»).

Стоит также привести пару примеров текстов, вошедших в «положительный» корпус.

Автор: varlamov

Дата публикации: 1 марта 2017

Название: Нужны ли в России пешеходные улицы?

Отрывок текста:

В начале этого года из Мичуринска, что в Тамбовской области, пришла скверная новость: власти задумали временно открыть движение по пешеходной улице в центре города. Жители разделились на две стороны: одни считают, что это спасёт от пробок, и хотят ехать по улице на машине, а другие - спокойно ходить. К вопросу также привлекают сотрудников ГИБДД, которых многие по ошибки считают экспертами в области транспорта, хотя это просто полицейские-юристы…

Давайте разберёмся, что это за принципы, и рассмотрим самые популярные заблуждения насчёт пешеходных улиц.

В данном тексте автор приводит свои размышления по вопросу, поставленного в заголовке записи. Весь текст можно разделить на несколько структурных частей: сначала автор описывает суть самой проблемы, затем приводит несколько фактов, сопровождающиеся мультимедийным материалом, а в конце выражает свое собственное мнение. На протяжении всего текста языковых единиц, которые могут указывать на вербальную агрессию, обнаружено не было, поэтому данный текст вошел в состав «положительного» корпуса.

Автор: colonelcassad

Дата публикации: 11 января 2017

Название: Малоизвестные уроки Гренады

Отрывок текста:

Малоизвестные уроки Гренады: 68,4% как символ объективности и здравомыслия международного сообщества.

В прошлом году на фоне многочисленных знаковых дат и текущих событий совершенно незамеченной прошла очередная годовщина американского вторжения в Гренаду. Между тем кризис в Гренаде чрезвычайно нагляден - причем даже не в качестве доказательства очевидного вмешательства США в дела суверенных государств (это уже ни для кого не новость), а с точки зрения реакции международного, и прежде всего западного, сообщества на действия американцев - особенно показательной в контексте отношения этого сообщества к появлению советских войск в Афганистане несколькими годами ранее (за этот шаг, названный «актом агрессии», Советский Союз на Западе в то время не осудил только ленивый). Сегодня это выглядит удивительным, но реакция эта и в том, и в другом случае была практически идентичной. Не вдаваясь в детали военных операций, предпринятых Советским Союзом и Соединенными Штатами Америки соответственно в Афганистане и в Гренаде, а также в нюансы предшествовавших и сопутствовавших этим операциям обстоятельств, просто сравним, как развивались события на международном уровне в обеих упомянутых ситуациях.

Структура данного текста ничем не отличается от структуры текста, приведенного в пример выше. Сначала автор описывает суть проблемы, затем приводит несколько фактов, в данном случае сопровождающиеся статистическими данными после проведения голосования, а в самом конце автор выражает собственное мнение. В отличие от предыдущего текста, в начале данного отрезка можно выделить языковую единицу, которая указывает на отсутствие вербальной агрессии в тексте: символ объективности и здравомыслия. Несмотря на то, что на протяжении всего текста можно выделить слова с отрицательной коннотацией (например, ленивый), в самом тексте не было обнаружено проявлений вербальной агрессии.

Стоит отметить, что большинство записей, вошедших в «положительный» корпус, имеет подобную структуру. В вошедших в «отрицательный» корпус записях их авторы склоны не приводить каких-либо конкретных фактов, описывающих существующую проблему, а выражают собственное мнение, часто прибегая к использованию эмоционально-окрашенной лексики.

Составление тонального словаря для автоматического определения вербальной агрессии

Выбор языковых единиц для дальнейшего составления тонального словаря проводился в ходе анализа частотного словаря, составленного корпусным менеджером AntConc. С помощью данной программы можно составить списки используемых слов, которые можно отсортировать по частоте их встречаемости в корпусе (Word List), выявить ключевые слова, т.е. неожиданно частотные слова на основе опорного корпуса (Keyword List), проанализировать лексические единицы в контексте (Concordance) и визуализировать их употребление в корпусе (Concordance Plot) и многое другое.

В ходе данного исследования был проведен анализ списка слов в корпусе, отсортированных по их частоте встречаемости, который позволил выявить те лингвистические единицы, которые довольно часто встречаются в тренировочном корпусе.

Помимо этого, был изучен ближайший контекст языковых единиц, указывающих на проявления вербальной агрессии в текстах. Это было сделано с целью исключения из тонального словаря таких лингвистических единиц, которые сами по себе имеют негативную коннотацию, но в конкретном контексте не были употреблены для выражения нетерпимого отношения автора.

Чтобы правильно интерпретировать полученные результаты, необходимо учесть, что не все слова лемматизируются правильно, а также у программы могли возникнуть проблемы с распознаванием некоторых русский символов.

Опираясь на освещенные в Главе 1 пункте 2.3 лингвистические аспекты вербальной агрессии, в частности на классификацию способов выражения вербальной агрессии, предложенной Н.А.Паламарчук, в тональный словарь были отобраны следующие языковые единицы:

1. Языковые единицы с негативной коннотацией:

1.1 Слова, негативно характеризующие человека, группу лиц или их действия: «феминистский», «агрессор», «лицемерный», «жалкий», «ватник», «фашист». Например, «…венгро-американский фашист Себастиан Горка…»;

1.2 Оскорбительные слова: «негр», «гомосек», «урод», «животное» и «шавка». Например, «На Трампа сейчас натравлена целая орава медийных шавок»;

1.3 Абстрактные понятия с негативной коннотацией: «неадекватность», «эгоизм», «русофобия», «клоунада». Например, «Помимо агрессивной риторики и подержания градуса русофобии Киев пытается интенсифицировать контакт с руководством республиканской партии»;

1.4 Ненормированная лексика;

1.5 Слова, выражающие насмешку: «стеб», «анекдот», «юморист», «улыбнуть». Например, «Юмористы из следственного комитета РФ заявили, что…»;

1.6 Слова, содержащие следующие лингвистические маркеры:

1.6.1 Приставка анти- со значением «против» (антиамериканизм, антироссийский);

1.6.2 Приставки бес-/без- со значением «отсутствие чего-либо» при условии, что слово без этих приставок имеет положительную коннотацию (бесполезный, бездарный);

1.6.3 Отрицательные приставка не- при условии, что коннотация слова без приставки является положительной (неадекватный, недалекий, нелепый);

1.6.4 Приставка недо- со значением «неполнота» (недоразвитый);

1.6.5 Суффиксы -ист/-изм, указывающие в некоторых случаях на принадлежность человека к какому-нибудь направлению или идеологии, а также характеризующие его с отрицательной стороны (идиотизм, нацизм, гегемонист).

2. Языковые единицы с положительной коннотацией, содержащие иронию или сарказм («дорогой», «родной», «молодец», «блестящий», «забавный», «веселый»). Например, «…да наши дорогие эффективные и инновационные бизнесмены буржуи, а также министры нашего родного и любимого буржуазного правительства…», «В прессе наблюдается забавная истерика…».

Таким образом, в тональный словарь вошло 408 языковых единиц. В Приложении 5 приведена часть списка языковых единиц, вошедших в тональный словарь.

Несмотря на то, что объем тренировочного корпуса маленький, а также авторы записей иногда прибегает к словотворчеству, в данной работе не рассматривались языковые единицы, которые встречались в данном корпусе меньше трех раз. Это было сделано с той целью, чтобы программа, реализующая наивный байесовский классификатор, не переобучалась.

2.4 Проверка качества тонального словаря

Проверка качества составленного тонального словаря проводилась при помощи программы, автоматически определяющей вербальную агрессию в тестовом корпусе. Данная программа (см. Приложение 6) реализует наивный байесовский классификатор, основанный на применении теоремы Байеса с «наивными» предположениями о зависимости переменных. В программе были также использованы метод сглаживания и логарифмическое пространство.

Метод сглаживания необходим для того, чтобы вероятностная оценка такой языковой единицы, которой не было в тестовом корпусе, не обратилась в ноль. Это важно, так как при перемножении нулевая оценка одной языковой единицы приводит к потере информации о вероятностях языковых единиц, вошедших в тональный словарь. Вычисление логарифмов также необходимо для того, чтобы избежать слишком маленьких результатов произведений вероятностей.

Для работы данной программы были использованы библиотеки re и math. Каждая из языковых единиц, составляющих тональный словарь, была изъята из файла list.txt и записана в список как отдельная переменная. Функция extract_features составляет список частот языковых единиц из тонального словаря для каждой записи из тестового корпуса. Сглаживание реализуется при помощи функции add1_sm, которая добавляет единицу к каждому значению в списке частотности языковых единиц для «положительного» и «отрицательного» корпусов. Как говорилось ранее, это необходимо для избавления от нулей.

Функция train_nbc считает коэффициент встречаемости каждой языковой единицы в тональном словаре в «положительном» и «отрицательном» корпусах. В функции classify_log происходит вычисление произведения вероятностей нахождения вербальной агрессии в тексте для каждой записи из тестового корпуса и дальнейшее суммирование их логарифмов, после чего происходит присвоение класса этим записям.

Для оценки качества тонального словаря были подсчитаны следующие метрики: аккуратность (accuracy), точность (precision), полнота (recall) и F-мера (F-score). Подсчет происходит в функции evaluate. Мера аккуратности подсчитывает процент правильных предсказаний, мера точности - процент верных предсказаний среди таких, которые программа отнесла к одному из классов. Способность классификатора угадывать большое количество верных ответов характеризуется мерой полноты, а гармоническое среднее между точностью и полнотой - F-мерой.

Следует упомянуть, что на результат подсчета данных метрик может повлиять ожидаемое соотношение количества «отрицательных» записей к количеству «положительных» в тестовом корпусе, которое заносится в переменную priors. При таком же соотношении, как и в тренировочном корпусе - 42% «отрицательных» записей и 58% «положительных» - были получены следующие результаты: accuracy = 0.7, precision = 0.721, recall = 0.7, f-score = 0.673. При равном соотношении записей в тестовом корпусе показатели немного улучшились: accuracy = 0.707, precision = 0.713, recall = 0.707, f-score = 0.692. толерантность лингвистический вербальный агрессия