Статья: Разработка вербальной модели кибердевианта при исследовании онлайн-сообществ на основе мультиномиальной логистической регрессии

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

В рамках независимых переменных ключевыми стали: среднее количество ключевых слов, относящихся к информационной безопасности, а также индекс тональности опубликованного пользователем сообщения. Для расчета данных переменных применялся комплекс взаимосвязанных операций, составление словаря ключевых слов. Словарь составлялся с помощью метода TF-IDF, при котором объединялись частота термина (tf) и обратная частота документа (idf), чтобы получить композитный вес для каждого термина в каждом корпусе для каждого пользователя. Для данных целей использовался нормализованный TF-IDF, вычисляемой по следующей формуле:

где tfi j является числом вхождений tt в документ dt, нормализованный по общему количеству терминов, idft j является обратным соотношением документов в рамках tt и всех документов в корпусе D. Далее применяется мера Overlap Score Measure как совокупная сумма баллов tf-idf по всем терминам, появляющимся в списке ключевых слов по кибербезопасности, умноженная на количество раз каждый встречаемости ключевых слов кибербезопасности в рамках d. Таким образом, общий вес рассчитывается по формуле:

Далее на базе сгенерированного списка ключевых слов, связанных с информационной безопасностью, были созданы списки положительных и отрицательных тональностей, после чего отобранные слова были присоединены к уже существующему списку ключевых слов в рамках программного обеспечения SentiStrengh, после чего каждому из слов был присвоен вес (от -5 до 5) в зависимости от близости отношения к теме информационных преступлений. Для автоматизации процесса извлечения ключевых слов из сообщений был настроен алгоритм деревьев решений. В процессе обучения точность данного алгоритма достигла наиболее высокого по сравнению с другими алгоритмами (SVM, k-NN) значения - 78,74%. Для определения интегрального индекса тональности сообщения использовалась следующая формула:

TotalSentiment = \PositiveSentiment\ + \NegativeSentiment\.

Таким образом, в результате работы с данными переменными была создана автоматизированная база для классификации модифицированной лексики злоумышленников.

Далее в таблице 2 приведены полученные коэффициенты (Coefficient - Coeff'.) и стандартные ошибки (Standard Error - S.E.) в рамках модели мультиномиальной логистической регрессии для двух из пяти классов: наиболее высокого (Эксперт) и наиболее низкого (Новичок) по рейтингу.

Таблица 2 Коэффициенты и стандартные ошибки в рамках модели мультиномиальной логистической регрессии для двух из пяти классов

Переменные

Эксперт=5

Новичок=1

Коэффициенты и стандартные ошибки

Coeff.

S.E.

Coeff.

S.E.

средняя длина сообщения: количество букв в каждом сообщении

-0,273

0,134

-0,685

0,112

количество сообщений, опубликованных

пользователем

-0,227

0,157

-0,468

0,123

общее количество тематических потоков, в которых участвует пользователь

-0,269

0,311

-0.567

0,054

количество ответов, публикуемых пользователем в каждом тематическом блоке

-0,411

0,146

-1,086

0,056

количество ключевых слов, относящихся к информационной безопасности

-0,132

0,131

-0,538

0,345

индекс тональности опубликованного пользователем сообщения

0,431

0,123

-0,088

0,208

Constant

-5,643

0,346

-2,546

0,173

Observations=99738

Log likelihood Chi-Sq=720,61 p<0.05

Таким образом, предлагаемая модель мультиномиального логита построена следующим образом: Rank of user=?1+?2+?3+?4+?5+?

Заключение

Подводя итог работы, следует отметить:

- осуществлен научный обзор существующих теоретических и практических разработок в отечественной и мировой практике в области анализа человеческого фактора в информационной безопасности;

- разработана дорожная карта для анализа форумов как площадок интеграции злонамеренных пользователей;

- создан словарь ключевых слов и их тональностей, определяющий вербальный профиль злоумышленника в области информационной безопасности;

- построена модель мультиномиальной логистической регрессии, в которую включены наиболее важные переменные для классификации злоумышленников;

- выявлена перспективная область изучения человеческого фактора в информационной безопасности на основе интеграции психолингвистики, социологии и статистического моделирования.

Список литературы

1. Positive Technologies // Актуальные киберугрозы: II квартал 2019 года. URL: https://www.ptsecurity.com/ru- ru/research/analytics/cybersecurity-threatscape- 2019-q2/

2. Симанков В.С., Черкасов А.Н. Оптимизация функционирования ситуационного центра при решении задач в различных предметных областях // Естественные и технические науки. 2011. № 4 (54). С. 430-433.

3. Fortune Media IP Limited // Hackett R. Facebook Awards Server-crushing Hacker with Its Biggest Ever Bounty: сайт. URL: http://fortune.com/2017/01/19/facebook-hacker- bug-bounty/

4. Examining Hacker Participation Length in Cybercriminal Internet-Relay-Chat Communities / V. Benjamin, B. Zhang, J.F. Nunamaker, H. Chen // Journal of Management Information Systems. 2016. No. 33. P. 482-510.

5. Benjamin V., Chen H. Developing understanding of hacker language through the use of lexical semantics // In Proceedings of the International Conference on Intelligence and Security Informatics (ISI). 2015. No. 5. P. 79-84.

6. An Analysis of underground forums / M. Moto- yama, D. McCoy, K. Levchenko [et al.] // In Proceedings of ACM SIGCOMM Conference on Internet Measures. 2011. No. 2. P. 71.

7. Holt T.J., Kilger M. Know Your Enemy: The Social Dynamics of Hacking // Honeynet Project. 2012. No. 2. P. 1-17.

8. Yip M., Shadbolt N., Webber C. Why Forums? An Empirical Analysis of the Facilitating Factors of Carding Forums // ACM Web Science. 2013. No. 2. P. 26-31.

9. Samtani S., Chinn R., Chen H. Exploring hacker assets in underground forums // In Proceedings of the International Conference on Intelligence and Security Informatics (ISI). 2015. No. 6. P. 31-36.

References

1. Positive Technologies // Актуальные киберугрозы: II квартал 2019 года. URL: https://www.ptsecurity.com/ru- ru/research/analytics/cybersecurity-threatscape- 2019-q2/

2. Simankov V.S., Cherkasov A.N. Optimization of the functioning of the situation center when solving problems in various subject areas // Natural and Technical Sciences. 2011. No. 4 (54). P. 430-433.

3. Fortune Media IP Limited // Hackett R. Facebook Awards Server-crushing Hacker with Its Biggest Ever Bounty: website. URL: http://fortune.com/2017/01/19/facebook-hacker- bug-bounty/

4. Examining Hacker Participation Length in Cybercriminal Internet-Relay-Chat Communities / V Benjamin, B. Zhang, J.F. Nunamaker, H. Chen // Journal of Management Information Systems. 2016. No. 33. P. 482-510.

5. Benjamin V., Chen H. Developing understanding of hacker language through the use of lexical semantics // In Proceedings of the International Conference on Intelligence and Security Informatics (ISI). 2015. No. 5. P. 79-84.

6. An Analysis of underground forums / M. Moto- yama, D. McCoy, K. Levchenko [et al.] // In Proceedings of ACM SIGCOMM Conference on Internet Measures. 2011. No. 2. P. 71.

7. Holt T.J., Kilger M. Know Your Enemy: The Social Dynamics of Hacking // Honeynet Project. 2012. No. 2. P. 1-17.

8. Yip M., Shadbolt N., Webber C. Why Forums? An Empirical Analysis of the Facilitating Factors of Carding Forums // ACM Web Science. 2013. No. 2. P. 26-31.

9. Samtani S., Chinn R., Chen H. Exploring hacker assets in underground forums // In Proceedings of the International Conference on Intelligence and Security Informatics (ISI). 2015. No. 6. P. 31-36.