В период t у каждого агента есть свое мнение по тому или иному вопросу. Пусть у i-го агента есть мнение в виде вещественного числа . Данное мнение складывается на основе мнений агентов, которым данный агент доверяет:
Зная данное уравнение, возможно просчитать как и на каких агентов необходимо воздействовать, чтобы сформировать в сообществе определенное мнение по необходимому вопросу.
Все представленные классические модели - это, в первую очередь, уравнение или система уравнений, которая позволяет определить статус всех узлов на данный период времени. Они направлены в большей степени на описание процесса движения информации, а не на работу с графом, определением его значимых атрибутов на основе предыдущих процессов в сети и создании модели на их основе.
Текущие исследования распространения информации рассматривают способы преодоления ограничений анализа с точки зрения размеров и доступных характеристик сети в обучающей выборке. Ву, Чэнь, Сиань и Го (2016) представили новую модель движения информации - MScaleDP (рис. 4) - которая не зависит от размеров рассматриваемого графа. Авторы предлагают трехэтапный метод с предварительным анализом предыдущих взаимодействий. Первая стадия заключается в оценке характеристик сообщения и узлов: семантические факторы, временные параметры, структура сети. В дополнение к этим характеристикам также возможно было бы включить бинарную переменную “специфичности информации”. Бастос, Пиккарди, Леви, Макреберт и Любелл (2017) в ходе своего исследования заключили, что уровень специализированности позитивно коррелирует с централизованностью распространения информации. То есть, если тематика контента узко направлена, то скорее всего граф его распространения будет иметь ярко выраженный центр в виде лидера мнения. Таким образом, включение подобной переменной могло бы улучшить результаты MScaleDP в предсказании диаметра распространения информации.
Рис. 4. Этапы модели MScaleDP, Ву, Чэнь, Сиань и Го (2016)
На втором этапе метода, авторы оценивают вероятность каждого узла быть активированным. Операция основывается на данных о предыдущем движении информации в сети и собранных фичах. В своей работе авторы определяют эту операцию как проблему классификации и в ходе анализа заключают, что лучший способ для ее решения - это применение алгоритма “дерево решений”. На последнем этапе предлагаемого метода, оценивается активационный статус узла, прогнозируются размер и динамика распространения. В итоге, метод предоставляет граф движения информации, чья точность на различных размерах обучающего графа выше, чем при использовании других алгоритмов и их комбинации.
Эффективность использования данных о предыдущих взаимодействиях также была доказана Чжу, Инь, Ма и Ху (2016). Их исследование направлено на выявление главных путей в распространении информации. Авторы измеряют вес связей, используя частоту предыдущих взаимодействий между узлами. Далее они используют алгоритм LeaderRank, вместо анализа топологии сети, для того, чтобы выявить “влиятельные” узлы. На последнем этапе, оцениваются важности путей через анализ вероятности того, что сообщение пройдет через них. Метод главных путей представляется авторами как простой способ определить влиятельных пользователей в сети и предсказать таким образом процесс распространения информации.
Еще одно преимущество использования данных о предыдущих взаимодействиях - это то, что данный подход позволяет исследователям игнорировать профили пользователей. Несмотря на то, что Ву и др. (2016) использовали в своей модели MScaleDP данные пользователя в качестве переменных, все они в итоге остались незначимыми для итогового результата. Более того, Ли, Лин и Йе (2017) представили модель APR (рис. 5), которая предсказывает участников в распространении информации без использования характеристик сообщения и информации их профилей пользователей.
Рис. 5. Этапы модели ARP, Ли, Лин и Йе (2017)
Алгоритм основывается только на списке ранних последователей и информации о предыдущих взаимодействиях. В процессе компиляции алгоритма, все узлы в графе получают вероятность участия: вероятность того, что узел будет активирован сообщением. Данная величина зависит от вероятности принятия и вероятности достижения.
Вероятность принятия означает, что пользователь скорее примет сообщение, если ему уже нравился подобный контент или он желает принять его. Здесь авторы создали модель, которая оценивает вероятность или в единицу, если пользователь ранее публиковал подобное сообщение (в данном случае авторы анализировали хэштеги). Или вероятность оценивается через корреляцию между предыдущим поведением данного пользователя и ближайшими к нему ранними последователями нового сообщения (поведение определяется в хэштегах, которые использовали агенты). В целом система уравнений для определения вероятности принятия выглядит следующим образом:
Где - это вероятность принятия сообщения узлом , - набор хэштегов, который ранее употреблял узел , - это набор хэштегов ближайшего к данному пользователю раннего последователя, - кратчайший путь между данными узлами, - параметр гашения, который эмпирически был выставлен авторами равным 0.05.
Вероятность достижения означает, что если сообщение может легко достигнуть пользователя, то вероятность его принятия выше. В данном случае авторы использовали random-walk-ranking модель. Итоговая вероятность рассчитывается по формуле:
Где - это вектор вероятностей активации, который изначально считается как вероятность достижения, - нормализованная взвешенная матрица, связанная со смежным исходным графом G, - вектор вероятностей принятия. - это контрольный параметр, который балансирует две вероятности в выражении. Опытным путем авторы заключили, что наилучший результат выходит при .
Таким образом, современный анализ распространения сообщений предполагает алгоритм, состоящий из нескольких этапов. От классических моделей распространения информации новые унаследовали деление агентов на группы в зависимости от влияния на них сообщения и в целом представление о механизме движения информации. Но современные исследователи оценивают факторы с точки зрения сообщения и структуры сети, особенно касательно хабов и ранних последователей. В случае структуры графа, не достаточно только оценить отношения между узлами и их мощность. Необходимо также рассматривать предыдущий опыт распространения информации в данной сети.
В целом, по итогам анализа существующих теоретических источников, мы приходим к выводу, что мы будем анализировать влияние факторов на распространение информации в YouTube, используя анализ графов. Такой анализ позволит нам получить характеристики сети, которые можно будет использовать в качестве переменных в модели. Также в модель мы будем включать и переменные сообщения, основываясь на предыдущем опыте MScaleDP модели. Несмотря на то, что в результатах авторов эти данные оказались незначимыми, в условиях YouTube сообщение обязательно включает в себя метаданные, которые не связаны с его непосредственным движением (как, например, в случае Twitter, где количество репостов означает частично равно количеству узлов, активированных данным сообщением). Если же говорить об авторе сообщения, то его возможные факторы мы ограничим только теми, что обусловлены структурой сети. Выводы по модели главных путей мы надеемся использовать в нашей работе в качестве переменных кластера, кратчайшего пути и показателя PageRank. В итоге, основываясь на предыдущих исследованиях, в данной работе мы будем анализировать следующие факторы:
- Характеристики сообщения
- длина заголовка и описания видео
- % заглавных букв в заголовке
- количество ссылок в описании
- рекламный статус сообщения (бинарная переменная)
- количество просмотров, лайков, дизлайков и комментариев
- Характеристики автора сообщения
- количество подписчиков
- количество просмотров
- % просмотров данного видео в общем числе просмотров
- средний путь
- кластер автора
- PageRank
- Черты узла-получателя
- общее количество просмотров на канале
- количество подписчиков
- средний путь
- кратчайший путь до автора
- кластер
- PageRank
В следующей главе мы подробнее опишем структуру данных, способ их сбора и анализа.
Глава 2. Процесс сбора данных, построения графа и анализа
В данной главе мы рассмотрим данные, которые будут использоваться в исследовании, и методы анализа для выявления атрибутов и построения модели. Наше исследование сфокусировано на русскоязычном сегменте YouTube, поэтому преимущественно (за небольшой погрешностью) каналы в выборке будут русскоязычными. Выборка сообщений включает в себя 8 сообщений, которые можно разделить на рекламные и некоммерческие.
2.1 Выборка сообщений и их контекст
Под рекламными сообщениями мы понимаем те, которые профинансированы одним брендом и направлены на его рекламу. К таким сообщениям мы относим:
- рекламу Veet с Марьяной Ро (2017 и 2018 годов);
- серию видео от КЛИККЛАК для Клинского (2017 год);
- новогоднюю коллаборацию Кока-Колы и блогеров (2017 год).
Некоммерческие сообщения также могут содержать рекламу (как большинство видео на YouTube). Но мы отличаем их от рекламных тем, что они создаются не для продвижения конкретного бренда, а для продвижения или самого автора, или его проекта. Среди таких сообщений мы выбрали:
- клип “Блокеры” Джарахова (2017 год);
- клип “Мега звезда” Марьяны Ро (2017 год);
- дисс на Атеву Лиззки (2017 год);
- видео проекта HypeCamp (2017 год);
- видео Versus-баттла между Oxxxymiron и Славой КПСС (2017 год).
Все сообщения мы выбирали от 2017 года, т.к. это более релевантно к текущей ситуации на платформе как с точки зрения последних событий, так и с точки зрения контента, который может создаваться для распространения сообщения. В 2016-2017 годах на русскоязычном YouTube стал популярным формат обзоров и реакций, и именно их мы ожидаем увидеть в выборке сообщений-последователей. Но перед этим мы рассмотрим подробнее каждое из сообщений, чтобы понимать его контекст.
2.1.1 Реклама Veet с Марьяной Ро
Компания Veet представляет на рынок средства для депиляции: крема, бритвы и восковые полоски. И именно для продвижения последних среди подростков и молодой аудитории, бренд создал рекламу с участием популярной блогерши Марьяны Ро. Первое видео было опубликовано в апреле 2017 года и представляет собой клип на музыкальную композицию, описывающую всю простоту и преимущества депиляции с использованием восковых полосок. Рефреном в композиции стало слово “Вжух-вжух”, которое после и использовалось в названиях реакций и в пародиях на видео.
Видео было опубликовано на канале самой Марьяны Ро и стало довольно популярным. За год запись набрала более 21 миллиона просмотров. Количество лайков - 465 тысяч, а дизлайков - 292 тысячи. Такое соотношение статистики для Марьяны Ро нормальное, если посмотреть статистику ее канала. В целом отношение аудитории YouTube и блогера можно назвать сложными из-за ее отношений и последующего расставания с одним из самых популярных блогеров на русскоязычном YouTube - Ивангаем. После разрыва на девушку посыпался негатив, о чем она рассказывает в другом своем видео от 6 января 2017 года (видео набрало 15 миллионов просмотров, при обычной отметке от 2 до 4 миллионов). В целом фигура Марьяны Ро связана с негативом (или как его называют в YouTube сообществе - хейтом) и разного рода скандалами, которые периодически всплывают в интернет-пространстве и обсуждаются в течении нескольких дней в различных видеороликах.
Но поскольку первая реклама Veet с Марьяной Ро оказалась успешной, спустя год компания создала ее продолжение: “Вжух 2.0”. Видео вышло в середине апреля 2018 года и за 3 недели набрало больше 8 миллионов просмотров. Видео также было опубликовано на канале самой девушки. Но соотношение лайков к дизлайкам стало менее позитивным: 286 тысяч лайков к 275 тысячам дизлайков. Возможно, за год отношения девушки с публикой ухудшились, или это первая реакция на видео и спустя время ситуация со статистикой улучшится. В целом, мы не будем акцентировать внимание на данной статистике в анализе. Нас интересует динамика распространения первого и второго “Вжух” в первые недели после публикации основного видео.
2.1.2 Серия видео для Клинского от КЛИККЛАК
Клинское - это бренд пива компании «ИнтерБир». С мая 2015 года у них есть свой канал на YouTube, на котором сейчас примерно 295 тысяч подписчиков. Первые два ролик были опубликованы до 2017 года, и каждый их них набрал менее 100 тысяч просмотров. Но совершенно обратная ситуация происходит с роликами, которые были созданы при поддержке КЛИККЛАК: там количество просмотров переваливает за несколько миллионов.
КЛИККЛАК - это объединение петербургских блогеров и других профессионалов (например, сценаристов, монтажеров), таких как Илья Прусикин, Эльдар Джарахов, Старый, Юрий Музыченко, Ира Смелая, Руслан Усачев, Алина Пязок, которые создают различные юмористические шоу и видео-контент. Популярные форматы на канале: “Дай леща”, “Кажется нащупал”, “Треш-лото” и другие. Часть видео снимается вместе с приглашенными гостями: другими известными блогерами и знаменитостями.