Кубанский государственный технологический университет
Разработка вербальной модели кибердевианта при исследовании онлайн-сообществ на основе мультиномиальной логистической регрессии
Черкасов А.Н., Туркин Е.А., Чемулова А.В.
Аннотация
Теоретический анализ актуальности существующих работ по изучению человеческого фактора в сфере информационной безопасности позволил разработать модель мультиномиальной логистической регрессии, позволяющей выполнять задачи классификации пользователей на злоумышленников различного ранга на основе текстовой аналитики Интернет-форума. С учетом особенностей полученных данных разработан алгоритм автоматического извлечения ключевых слов из сообщений с помощью алгоритма деревьев решений. В процессе обучения точность данного алгоритма достигла наиболее высокого по сравнению и другими алгоритмами (SVM, k-NN) значения - 78,74%. Произведенное моделирование позволило создать анкету для проведения психолингвистического эксперимента по определению уровня склонности человека к совершению киберпреступления. Ключевой аспект значимости проведенной работы заключается в апробации применения нетрадиционного для современной науки исследовательского подхода, который состоит в интеграции социологии, психолингвистики и статистического моделирования.
Ключевые слова: информационная безопасность, человеческий фактор, мультиномиальная логистическая регрессия, Интернет-форум, кибердевиант, классификация
Cherkasov A.N. Turkin E.A. Chemulova A.V.
Kuban State University of Technology
Development of a verbal cyber deviant model in the study of online communities based on multinomial logistic regression
Abstract
A theoretical analysis of the relevance and existing works on the study of the human factor in the field of information security has been carried out. On its basis a model of multinomial logistic regression has been developed, which performs tasks of classification of users into intruders of different rank based on text analysis of the Internet forum. Taking into account the peculiarities of the obtained data, the algorithm of automatic extraction of keywords from messages using the decision tree algorithm has been developed. During the training process, the accuracy of this algorithm reached the highest value in comparison with other algorithms (SVM, k-NN) - 78.74%. The modelling carried out allowed creating a questionnaire for carrying out a psycho- linguistic experiment to determine the level of tendency of a person to commit cybercrime. A key aspect of the significance of the work carried out was to test the adoption of a research approach that was unconventional for modern science, which consisted in the integration of sociology, psycholinguistics and statistical modeling.
Keywords: information security, human factor, multinomial logistic regression, Internet forum, cyberdeviant, classification
Введение
В условиях автоматизации бизнес-процессов, развития новых технологий, а также построения новых каналов передачи информации риски информационной безопасности становятся ключевой проблемой для организаций. В частности, анализируя последние данные статистики, стоит отметить, что, по оценкам Positive Technologies, число целенаправленных атак уже превысило количество массовых и продолжает расти (59% во II квартале 2019 г.) [1]. При этом более половины всех киберпреступлений совершаются с целью кражи информации, а персональные данные - основной тип украденной информации в атаках на юридические лица (29%).
По данным опроса Egres, который был проведен среди руководящего персонала отделов кибербезопасности 500 IT-компаний, все чаще встречаются случаи возникновения угроз от инсайдеров компании. Половина случаев взлома кибербезопасности произошла по вине сотрудников. Обращаясь к проблеме нахождения путей решения данных происшествий, проведённое компанией Bitdefender исследование показало, что 38% руководителей компаний в области ИТ согласны с тем, что лучший способ защититься от сложных атак - это, прежде всего, эффективная работа с персоналом. Все вышеперечисленное предопределило необходимость моделирования новых путей анализа и прогнозирования роли человеческого фактора в сфере информационной безопасности.
В настоящее время исследования, позволяющие понять коренные особенности поведения тех людей, которые намерены совершить противоправные действия, являются не только междисциплинарной, но и малоизученной областью, особенно в российской практике. На данный момент такие крупные компании, как SearchInform, Infowatch, Positive Technologies, ИнфоТеКС, уже разрабатывают платформы, системы поддержки принятия решений для мониторинга поведенческих моделей сотрудников компании, также используя как новые методы текстовой аналитики, например, в рамках DLP-систем, так и в рамках ситуационных центров крупных корпораций [2].
Но основным недостатком подобных систем является отсутствие долговременного прогнозирования в области выявления потенциальных нарушителей информационной безопасности.
В свою очередь, в масштабах мирового пространства исследования информационной безопасности уже активно интегрируются в сферу социальной психологии, психолингвистики, а также социологии. Работы по использованию data- и text-mining, в частности анализ онлайн-сообществ, форумов, дают возможность построить социальнопсихологический портрет злоумышленника, например, хакера. Злонамеренные пользователи активно используют Интернет-форумы [3, 4]. Например, в исследовании [4] темы изучения сообщества злоумышленников делятся на три основных направления:
- качественный анализ для понимания и описания деятельности злоумышленника [5, 6];
- анализ сообществ теневой экономики [3, 6, 7];
- анализ и идентификация ключевых участников сообществ злоумышленников [8].
Одним из важных моментов, отмеченных в уже существующих исследованиях, является то, что часто участники Интернет-сообщества накапливают необходимые ресурсы, навыки и активы, чтобы сформировать группы для выполнения поставленной задачи-запроса [9, 10]. В группах разработчиков программного обеспечения, таких как форумы разработчиков iOS и Android, а также в сообществах злонамеренных пользователей относительно неопытные участники стремятся получить помощь от профессионалов и экспертов [3]. Существующие исследования анализируют поведение экспертов в области обхода информационных систем, но игнорируют изучение возможностей форума и моделей, основанных на текстовой аналитике [3, 11-13].
Профессионалы могут коммуницировать с другими пользователями социальных сетей через формирование однодольных и двудольных связей в этих форумах [14]. В рамках двудольных графов сами пользователи с другими пользователями не связаны. Связываются злоумышленники с группами на базе матрицы инциденций (связь между вершиной и ребром графа). Противоположностью двудольному графу является однодольный: в данный ситуации пользователи буду связаны в сети непосредственно с пользователями, а не с группами. Формируя подобные однодольные и двудольные связи, профессиональные злоумышленники пытаются найти лучших кандидатов на форумах.
В доступной литературе ([3, 4, 11]) функции форумов рассматривались только как основные факторы репутации и компетентности злоумышленников. Одним из главных недостатков существующих разработок является отсутствие разработанного инструмента психолингвистической оценки сотрудника на модель потенциального нарушителя с последующей классификацией и системой рекомендаций по работе с выявленным типом.
Таким образом:
- во-первых, лишь немногие исследования пытались классифицировать сообщества злоумышленников на основе их ролей и обязанностей, отдельно для каждой группы пользователей;
- во-вторых, не существует универсального вербального профиля злоумышленника, через который можно было бы анализировать его поведение; зачастую во внимание берется лишь поведенческая сторона профиля без лексических аспектов;
- в-третьих, проводится множество аналитических операций без проработанной схемы практического применения результатов, реального предотвращения киберпреступности.
Методы и материалы исследования
В связи с этим целью исследования стало конструирование анкеты для проведения лингвистического ассоциативного эксперимента. Анкета разработана на базе классификации вербальных профилей злоумышленников, которые формируются по результатам процедур интеллектуального анализа текста онлайн-форумов. Таким образом, исследование носит комплексный характер определения потенциального злоумышленника. Концептуальное представление схемы интеллектуального анализа текста онлайн- форумов представлено на рисунке 1.
Рис. 1. Концептуальное представление схемы интеллектуального анализа текста онлайн-форумов
мультиномиальная логистическая регрессия информационный
Для разработки дорожной карты исследования следует определить само понятие «нарушитель информационной безопасности». Согласно ГОСТ Р 50922-2006, пункт 2.6.4. - «нарушитель информационной безопасности организации; нарушитель ИБ организации: физическое лицо или логический объект, случайно или преднамеренно совершивший действие, следствием которого является нарушение информационной безопасности организации».
Фрагментарно базируясь на общепринятом варианте определения нарушителя информационной безопасности и исходя из специфики поставленных целей, было сформулировано новое понятие - «кибердевианта», которое легло в основу разработанной методической карты по выявлению потенциального нарушителя в организации. Кибердевиант - человек с отклоняющейся в отрицательную сторону моделью поведения (с намерениями обойти систему и совершить противоправное действие), имеющий определенные лидерские качества, а также знания в области информационной безопасности.
Для конструирования и оценки вербального профиля кибердевианта разработана модель, которая учитывает ключевые слова и индекс их средней тональности. Главная цель заключается в анализе и выявлении факторов, значимых в рамках определения вербальных характеристик злоумышленников.
Каждое опубликованное злоумышленником сообщение связано с темой обсуждения информационной безопасности. Посредством textmining создаётся лексический портрет злоумышленника. Затем извлекается содержание настроений сообщения форума и применяется для создания классификации злонамеренных пользователей на основе их поведенческих ролей посредством модели мультиномиальной логистической регрессии. Для того чтобы сделать модель более надежной, в зависимость добавляются не только ключевые слова и тональность, но и более детальные параметры (длина сообщения и т.д.), способные исключить погрешности и ошибки.
Существующие исследования подтверждают, что количество символов, затраченных на доставку сообщения, сильно влияет на контент, создаваемый пользователем [11, 14]. Часто средняя длина сообщения для каждого сообщения используется как ко- вариата (количественная независимая переменная-предиктор). В ходе первичного анализа было обнаружено, что относительно длинные сообщения имеют большую познавательную ценность и гораздо более важны для более широкой аудитории сообщества. Количество слов и длина сообщений значительно увеличиваются на всех типах информационных уровней с увеличением глубины сообщений на обучающей онлайн- платформе. Исследования также подтверждают, что пользователи обычных социальных сетей, таких как Facebook, получают больше просмотров и ответов на более длинные сообщения. Аналогичные результаты наблюдаются и среди корпоративных социальных сетей (ESN)-s [15]. В условиях предприятия длина сообщения увеличивается для менеджеров и значительно уменьшается для других сотрудников при использовании электронной почты в качестве средства коммуникации. Такая ролевая демаркация также может быть экстраполирована на форумы злоумышленников с учетом уровня компетентности пользователя. Таким образом, определяется средняя длина сообщения в рамках среднего содержания символов для каждого пользователя. Поэтому в рамках данного исследования предполагается следующее:
- средняя длина сообщения определяет опытность злоумышленника;
- количество публикуемых сообщений определяет компетентность злоумышленника;
- суммарное количество тематических блоков, в которых участвует пользователь, определяет компетентность злоумышленника.
Более того важно содержание ключевых слов в сообщении, которое потенциально может являться значимым фактором, определяющим компетентность пользователя.
Индекс настроений определяет общее отношение членов сообщества - положительное или отрицательное. Он также может объединять мнения, которые имплицитно выражаются в дискуссиях. Предполагается, что профессиональные злоумышленники будут распространять знания и, таким образом, публиковать сообщения с высоким индексом тональности (как положительных, так и отрицательных). Таким образом, главной исследовательской гипотезой является то, что положительные или отрицательные тональности сообщений определяют компетентность злонамеренных пользователей.
Для сбора данных использовалась онлайн-платформа, созданная Университетом Аризоны, на которой размещены собранные коллекции текстовых данных с различных форумов по разным тематическим направлениям. Исходя из целей исследования, были использованы данные с форума “HackhoundForum”, который содержит 4242 сообщения по различным темам взлома информационных систем и совершения вредоносных действий. Данные являются историческими и датируются с октября 2012 по сентябрь 2015 года.
Для классификации различных ролей злоумышленников в данном случае было решено использовать мультиномиальную логистическую регрессионную модель. В данной работе выделены 5 целевых классов для зависимой переменной и соответствующие им величины независимых переменных, определяющих вхождение пользователя в конкретный класс. Посчитанные средние значения независимых переменных, определяющих вхождение пользователя в конкретную категорию злоумышленника, представлены в таблице 1.
Таблица 1
Средние значения независимых переменных, определяющих вхождение пользователя в конкретную категорию злоумышленника
|
А - сред няя длина со- обще ния |
А - среднее количество сообщений, опубликованных пользовате лем |
А - среднее общее количество тематических потоков, в которых участвует пользователь |
А - среднее количество ключевых слов, относящихся к информационной безопасности |
А - средний индекс тональности опубликованного пользователем сообщения |
||
|
Эксперт=5 |
1374 |
145 |
14 |
252 |
0,861 |
|
|
Продвинутый член сообщества=4 |
928 |
95 |
9 |
197 |
0,354 |
|
|
Пользователь среднего уровня=3 |
535 |
56 |
5 |
134 |
0,134 |
|
|
Пользователь ниже среднего уров- ня=2 |
342 |
32 |
4 |
91 |
0,87 |
|
|
Новичок=1 |
110 |
11 |
1 |
37 |
0,25 |