Статья: Разработка вербальной модели кибердевианта при исследовании онлайн-сообществ на основе мультиномиальной логистической регрессии

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

В рамках независимых переменных ключевыми стали: среднее количество ключевых слов, относящихся к информационной безопасности, а также индекс тональности опубликованного пользователем сообщения. Для расчета данных переменных применялся комплекс взаимосвязанных операций, составление словаря ключевых слов. Словарь составлялся с помощью метода TF-IDF, при котором объединялись частота термина (tf) и обратная частота документа (idf), чтобы получить композитный вес для каждого термина в каждом корпусе для каждого пользователя. Для данных целей использовался нормализованный TF-IDF, вычисляемой по следующей формуле:

где tf_i j является числом вхождений t_t в документ d_t, нормализованный по общему количеству терминов, idf_t j является обратным соотношением документов в рамках t_tи всех документов в корпусе D. Далее применяется мера Overlap Score Measure как совокупная сумма баллов tf-idf по всем терминам, появляющимся в списке ключевых слов по кибербезопасности, умноженная на количество раз каждый встречаемости ключевых слов кибербезопасности в рамках d. Таким образом, общий вес рассчитывается по формуле:

Далее на базе сгенерированного списка ключевых слов, связанных с информационной безопасностью, были созданы списки положительных и отрицательных тональностей, после чего отобранные слова были присоединены к уже существующему списку ключевых слов в рамках программного обеспечения SentiStrengh, после чего каждому из слов был присвоен вес (от -5 до 5) в зависимости от близости отношения к теме информационных преступлений. Для автоматизации процесса извлечения ключевых слов из сообщений был настроен алгоритм деревьев решений. В процессе обучения точность данного алгоритма достигла наиболее высокого по сравнению с другими алгоритмами (SVM, k-NN) значения - 78,74%. Для определения интегрального индекса тональности сообщения использовалась следующая формула:

TotalSentiment = \PositiveSentiment\ + \NegativeSentiment\.

Таким образом, в результате работы с данными переменными была создана автоматизированная база для классификации модифицированной лексики злоумышленников.

Далее в таблице 2 приведены полученные коэффициенты (Coefficient - Coeff'.) и стандартные ошибки (Standard Error - S.E.) в рамках модели мультиномиальной логистической регрессии для двух из пяти классов: наиболее высокого (Эксперт) и наиболее низкого (Новичок) по рейтингу.

Таблица 2 Коэффициенты и стандартные ошибки в рамках модели мультиномиальной логистической регрессии для двух из пяти классов

Переменные	Эксперт=5	Новичок=1
Коэффициенты и стандартные ошибки	Coeff.	S.E.	Coeff.	S.E.
средняя длина сообщения: количество букв в каждом сообщении	-0,273	0,134	-0,685	0,112
количество сообщений, опубликованных пользователем	-0,227	0,157	-0,468	0,123
общее количество тематических потоков, в которых участвует пользователь	-0,269	0,311	-0.567	0,054
количество ответов, публикуемых пользователем в каждом тематическом блоке	-0,411	0,146	-1,086	0,056
количество ключевых слов, относящихся к информационной безопасности	-0,132	0,131	-0,538	0,345
индекс тональности опубликованного пользователем сообщения	0,431	0,123	-0,088	0,208
Constant	-5,643	0,346	-2,546	0,173
Observations=99738 Log likelihood Chi-Sq=720,61 p<0.05

Таким образом, предлагаемая модель мультиномиального логита построена следующим образом: Rank of user=?1+?2+?3+?4+?5+?

Заключение

Подводя итог работы, следует отметить:

- осуществлен научный обзор существующих теоретических и практических разработок в отечественной и мировой практике в области анализа человеческого фактора в информационной безопасности;

- разработана дорожная карта для анализа форумов как площадок интеграции злонамеренных пользователей;

- создан словарь ключевых слов и их тональностей, определяющий вербальный профиль злоумышленника в области информационной безопасности;

- построена модель мультиномиальной логистической регрессии, в которую включены наиболее важные переменные для классификации злоумышленников;

- выявлена перспективная область изучения человеческого фактора в информационной безопасности на основе интеграции психолингвистики, социологии и статистического моделирования.

Список литературы

1. Positive Technologies // Актуальные киберугрозы: II квартал 2019 года. URL: https://www.ptsecurity.com/ru- ru/research/analytics/cybersecurity-threatscape- 2019-q2/

2. Симанков В.С., Черкасов А.Н. Оптимизация функционирования ситуационного центра при решении задач в различных предметных областях // Естественные и технические науки. 2011. № 4 (54). С. 430-433.

3. Fortune Media IP Limited // Hackett R. Facebook Awards Server-crushing Hacker with Its Biggest Ever Bounty: сайт. URL: http://fortune.com/2017/01/19/facebook-hacker- bug-bounty/

4. Examining Hacker Participation Length in Cybercriminal Internet-Relay-Chat Communities / V. Benjamin, B. Zhang, J.F. Nunamaker, H. Chen // Journal of Management Information Systems. 2016. No. 33. P. 482-510.

5. Benjamin V., Chen H. Developing understanding of hacker language through the use of lexical semantics // In Proceedings of the International Conference on Intelligence and Security Informatics (ISI). 2015. No. 5. P. 79-84.

6. An Analysis of underground forums / M. Moto- yama, D. McCoy, K. Levchenko [et al.] // In Proceedings of ACM SIGCOMM Conference on Internet Measures. 2011. No. 2. P. 71.

7. Holt T.J., Kilger M. Know Your Enemy: The Social Dynamics of Hacking // Honeynet Project. 2012. No. 2. P. 1-17.

8. Yip M., Shadbolt N., Webber C. Why Forums? An Empirical Analysis of the Facilitating Factors of Carding Forums // ACM Web Science. 2013. No. 2. P. 26-31.

9. Samtani S., Chinn R., Chen H. Exploring hacker assets in underground forums // In Proceedings of the International Conference on Intelligence and Security Informatics (ISI). 2015. No. 6. P. 31-36.

References

1. Positive Technologies // Актуальные киберугрозы: II квартал 2019 года. URL: https://www.ptsecurity.com/ru- ru/research/analytics/cybersecurity-threatscape- 2019-q2/

2. Simankov V.S., Cherkasov A.N. Optimization of the functioning of the situation center when solving problems in various subject areas // Natural and Technical Sciences. 2011. No. 4 (54). P. 430-433.

3. Fortune Media IP Limited // Hackett R. Facebook Awards Server-crushing Hacker with Its Biggest Ever Bounty: website. URL: http://fortune.com/2017/01/19/facebook-hacker- bug-bounty/

4. Examining Hacker Participation Length in Cybercriminal Internet-Relay-Chat Communities / V Benjamin, B. Zhang, J.F. Nunamaker, H. Chen // Journal of Management Information Systems. 2016. No. 33. P. 482-510.

6. An Analysis of underground forums / M. Moto- yama, D. McCoy, K. Levchenko [et al.] // In Proceedings of ACM SIGCOMM Conference on Internet Measures. 2011. No. 2. P. 71.

7. Holt T.J., Kilger M. Know Your Enemy: The Social Dynamics of Hacking // Honeynet Project. 2012. No. 2. P. 1-17.

8. Yip M., Shadbolt N., Webber C. Why Forums? An Empirical Analysis of the Facilitating Factors of Carding Forums // ACM Web Science. 2013. No. 2. P. 26-31.

9. Samtani S., Chinn R., Chen H. Exploring hacker assets in underground forums // In Proceedings of the International Conference on Intelligence and Security Informatics (ISI). 2015. No. 6. P. 31-36.

Смотрите также:


«ДОХОДЫ, РАСХОДЫ И ПРИБЫЛЬ КОММЕРЧЕСКОГО БАНКА.»
«ДОХОДЫ, РАСХОДЫ И ПРИБЫЛЬ КОММЕРЧЕСКОГО БАНКА.»
Значение, сущность и содержание социально — педагогической деятельности в организации для детей-сирот и детей, оставшихся без попечения родителей
Проактивные методы PR-деятельности российских авиационных компаний «Россия», «Азимут»
__RGR2
__RGR2
_11_А. Франс для эл версии
_3 тема - Диффузия
_индив анализ данных