Дипломная работа: Факторы, определяющие распространение рекламных сообщений на платформе YouTube

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Начнем с обычной линейной регрессии. В данном случае зависимой переменной будет степень активации узла. Построим модель для всех данных и получим следующий результат (оставлены только значимые переменные на 5% уровне значимости):

Residuals:

Estimate Std. Error t value Pr(>|t|)

channelViews 1.921e-11 8.461e-12 2.271 0.0232 *

channelVideo -1.994e-11 8.442e-12 -2.362 0.0182 *

shortest -2.108e-03 1.355e-04 -15.559 < 2e-16 ***

wcMatch 2.558e-03 6.303e-04 4.059 4.94e-05 ***

leMatch 6.349e-03 6.714e-04 9.456 < 2e-16 ***

ebMatch 2.467e-03 6.159e-04 4.005 6.21e-05 ***

---

Residual standard error: 0.05762 on 84032 degrees of freedom

Multiple R-squared: 0.005646, Adjusted R-squared: 0.005468

F-statistic: 31.81 on 15 and 84032 DF, p-value: < 2.2e-16

Модель получилась значима, но нельзя сказать, что она что-то объясняет: R-квадрат меньше 1%. Такой же результат дает нам использование логарифма статуса в качестве зависимой переменной. Поэтому дальше в моделях мы будем использовать обрезанный датасет, где будут присутствовать только активированные узлы. Большое количество “пустых” каналов не дают моделям работать.

На обрезанном датасете простая линейная регрессия дает следующие результаты:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -3.963e+06 3.345e+05 -11.847 <2e-16 ***

ad -1.428e+00 9.969e-02 -14.324 <2e-16 ***

authorPath 1.389e+06 1.172e+05 11.847 <2e-16 ***

authorSubs -8.722e-01 7.362e-02 -11.847 <2e-16 ***

authorPG -1.337e+09 1.129e+08 -11.847 <2e-16 ***

authorViews 1.134e-02 9.569e-04 11.847 <2e-16 ***

authorVideo -9.251e+03 7.808e+02 -11.847 <2e-16 ***

comment -2.599e-05 1.855e-06 -14.007 <2e-16 ***

---

Residual standard error: 0.231 on 823 degrees of freedom

Multiple R-squared: 0.3443, Adjusted R-squared: 0.3331

F-statistic: 30.87 on 14 and 823 DF, p-value: < 2.2e-16

В данном случае модель также значима и ее результат значительно выше: 34% объясненной дисперсии. И рассматривая значимые переменные для полного датасета и обрезанного, мы можем увидеть разницу между неактивированными узлами и активированными. Для того, чтобы узел принял сообщение, достаточно структурных факторов: кластер узла и автора, расположение узла в сети, и факторов самого узла: количество просмотров и видео (то есть показателей того, насколько активно пользователь ведет свой канал). При этом показатель среднего пути влияет отрицательно на быстроту реакции. Это не значит, что узлы на периферии реагируют быстрее. Скорее это значит, что узлы из среднего кольца реагируют оперативнее. У них больше связей, чем у крайних узлов, но при этом они не являются центрами или лидерами мнений, поэтому у них мало коротких связей.

Для того, чтобы повлиять на степень активации, учитываются уже характеристики автора и сообщения. Негативно на скорость реакции влияет рекламный статус видео и почти все характеристики автора. Кроме длины пути от узла до него и количества просмотров на канале автора. Просмотры сложно учитывать, т.к. Они включают в себя и просмотры возможно популярного ролика, на который узел еще только решает реагировать. Но ситуация с путем до автора сложна, т.к. получается, что чем дальше от автора находится узел, тем скорее он воспримет сообщение. Но если смотреть на данные, то ситуация не критична: минимальный путь равен 2, а максимальный 3. То есть скорее всего на ролик не реагируют в первую очередь те блогеры, которые плотно связаны с автором, если мы говорим о реакциях. Чаще всего ближайшие каналы к автору могут выложить бэкстейдж или другой, не критично настроенный контент, который не может быть у всех.

Модель делит степени на 3 группы: до 50%, примерно 70% и около 100% (рис. 11). Из положительного: видны группы значений, которые определяются близко к линии тренда. При использовании категории статуса активации в модели регрессии результаты получились хуже.

Рис. 11. Реальные и предсказанные значения в простой линейной регрессии.

Также результаты хуже показал алгоритм «случайный лес». На нашей выборке активированных сообщений он показал процент объясненной дисперсии - 28.04%. А на графике реальных-предсказанных значений (рис. 12) нет выраженного тренда. И если линейная регрессия выделяла группы узлов, то случайный лес наоборот, разделяет группы реальных данных на разные. Но опять в пределах 50%, 70% и почти 100%.

Рис. 12. Реальные и предсказанные значения при использовании случайного леса.

Далее мы рассмотрим алгоритмы классификации. Сначала мы проверили дерево решений при зависимой переменной классе степени активации. Получили хороший результат по R-квадрату - больше 40%. Но очень высокую ошибку. При смене зависимой переменной процент дисперсии упал до примерно 10%, ошибка так и осталась высокой, но меньше 1:

Variables actually used in tree construction:

authorSubs authorVideo comment

Root node error: 807/838 = 0.96301

Поэтому результаты данного алгоритма мы в итоге не рассматриваем.

Для следующего алгоритма - SVM (support vector machines) - выделим значимые независимые переменные с помощью алгоритма RFE (recursive feature elimination). Алгоритм выделяет «фичи» с помощью алгоритма линейной регрессии таким образом, чтобы достичь минимальной ошибки. В результате мы получили 15 характеристик, на основе которых будем строить следующую модель: authorPG, authorPath, authorVideo, ad, authorSubs, wcMatch, ebMatch, authorViews, shortest, leMatch, comment, channelSubs, channelVideo, channelViews, dislike.

SVM позволяет настроить ядро, с которым будет запускать алгоритм. Мы проверили результаты со всеми (рис. 13) и получили, что лучше всего модель работает с линейным или радиальным ядром.

А Б В Г

Рис. 13. результаты SVM: А - с линейным ядром, Б - с радиальным ядром, В - полиномиальное, Г - сигмоидное

В случае линейного ядра алгоритм точно разделяет степени на категории: 20, выше 30, выше 40, выше 60 и почти 100 процентные уровни активации. В случае с радиальным ядром алгоритм делает то же самое, но концентрирует данные у линии тренда и “размазывает” их вертикально. Это связано с функцией ядра - экспонентой, тогда как у линейного используется простая линейная функция. При этом у радиального ядра средняя ошибка меньше, но не значительно: 0.242 против 0.243, при шкале от 0 до 1. А при изменении параметра gamma до 50000000000000 в модели можно достичь ошибки меньше 0.1. Но мы не включаем данные манипуляции в исследование, т.к. Это приводит к предвзятости модели. В этом же диапазоне находятся ошибки всех предыдущих алгоритмов. Но в любом случае, SVM с радиальным ядром выделяет больше групп узлов, близких к тренду. В том числе и по сравнению с обычной линейной регрессией.

Таким образом, факторы всех групп влияют на распространение сообщения в сети. Наиболее значимые из них по алгоритму RFE связаны с характеристиками автора. 6 из 15 данных факторов связаны с структурой сети, что не опровергает нашу первую гипотезу. Особенно учитываю найденную разницу в значимых переменных при линейной регрессии на всем датасете и только активированных узлах.

Это же различие показывает, что активированные узлы отличаются между собой через факторы, связанные с сообщением и его автором. То есть мы не можем подтвердить вторую гипотезу о том, что ранним последователям важнее структурное положение. И анализ структуры динамических графов не дает нам утверждать о ярко выраженных первых последователях в сети: группе первопроходцев, после которых к обсуждению подключаются массы. Скорее всего, YouTube работает на наблюдениях за чужим опытом в целом, а не только в случае конкретного сообщения.

И если говорить о факторах, связанных с сообщением, система выделят количество дизлайков. Как мы описывали выше, на дизлайки влияет не только качество контента, но и репутация его автора. Поэтому даже если степень активации коррелирует положительно с с количеством дизлайков, это не тот показатель за которым стоит стремиться компании. Как мы писали, образ бренда в случае коллаборации будет ассоциироваться с блогером. И мимолетный “хайп” на YouTube не стоит подпорченной репутации.

Таким образом, за счет переменных, связанных с сетью, узел получает сообщение. А то, когда он откликнется зависит от других факторов. В следующей части мы разберемся, как с ними работать и реагировать на них.

3.3 Рекомендации по работе с рекламой и трендами в YouTube

Полученный нами список факторов на основе моделей нельзя напрямую применять в реальной работе. Он не учитывают контекст платформы, стоимость рекламы у того или иного блогера, его репутацию и тематику контента. Полученный набор «фичей» и модели на их основе скорее можно применять для прогнозирования распространения информации, когда канал уже выбран.

Однако, в совокупности с сетевым анализом мы можем выявить правило, как выбирать канал. Ключевая характеристика, которая появлялась во всех наших моделях - это длина пути до автора и его PageRank. При этом в случае с длиной пути зависимость получилась отрицательной. Поэтому необходимо искать такой канал для сотрудничества, у которого много связей в радиусе 2-3 и более шагов, т.к. на этом расстоянии можно прогнозировать быструю реакцию соседей. Ближайшие каналы или реагируют долго, или игнорируют сообщение.

При оценке распространения также нужно учитывать, что рекламу предсказать будет сложнее. Она будет распространятся как раз на уровне дальше 3 шагов, а узлов, связанных в центральное коммьюнити будет меньше. Но стоит учитывать, что мы говорим о сообщениях, которые задумываются виральными и трендовыми, то есть не специализированными. Возможно, если рассматривать спонсорский контент, то ситуация будет другой.

В целом, для работы с полученными факторами можно создать простое веб-приложение, которое будет: а) подбирать подходящих авторов по фильтру; б) показывать список последователей для выбранного автора. Первая функция будет искать таких авторов, чтобы максимизировать охват первых последователей (уровень активации от 75%). Вторая - оценивать все узлы сети с помощью полученного нами алгоритма SVM с радиальным ядром.

Для создания приложения можно использовать Python для серверной части и HTML+CSS+JavaScript для клиентской. Дизайн простой: в левой части показана сеть, в правой - панель с фильтрами. Сеть загружена на сайт как SVG файл (который можно получить из Gephi).

Функционал простой. При настройке параметров в правой панеле: количество подписчиков на канале автора, его видео и просмотров подбирается список каналов, с которых можно начать кампанию. Они выводятся в списке, разделенные по кластерам и упорядоченные по количеству подписчиков. Также эти узлы выделяются в сети. Остальные параметры, значимые для модели, не используются в фильтре а подбираются нейтральными в случае с сообщением, т.к. мы не можем задать это заранее. С технической точки зрения функция работает через AJAX: при нажатии кнопки “Подобрать” на сервер отправляется запрос, после успешного завершения которого на странице происходят изменения. Сама страница при этом не перезагружается, только показывается анимация.

Чтобы посмотреть узлы, которые активируются при помещении сообщения в данный узел, достаточно нажать на нужный канал в сети. На сервер также отправляется запрос через AJAX. При положительном ответе в сети подкрашиваются зеленым те каналы, которые отреагировали со степень от 75%. И синим те, которые от 50%. Остальные узлы остаются серыми. В правой панели появляется список каналов из синей и зеленой зон, упорядоченные по числу подписчиков.

Таким образом, мы получаем инструмент, который может помочь маркетологам искать оптимальный вариант канала для старта кампании и к тому же находить новые каналы на платформе. Но, в любом случае, результаты системы необходимо соотносить со здравым смыслом, т.к. она не учитывает контекста и специфику каждого блогера.

Заключение

В данной работе мы рассмотрели факторы, влияющие на распространение сообщений в русскоязычном сегменте YouTube. Перед нами стояла цель выявить значимые характеристики и описать их влияние. Для этого в работе рассматривались предыдущие исследования, проводился сетевой анализ и строились модели регрессии и классификации для оценки факторов. Как результат мы планировали составить список рекомендаций для компаний по работе с рекламой в YouTube.

Исследование затрагивало не рекламные сообщения и те из рекламных, которые представляют собой полноценный ролик блогера, посвященный бренду или снятый при его спонсорстве. Только в данном случае было возможно оценивать влияние блогера на результат распространения ролика. Итого, в нашу выборку попало 8 сообщений: реклама Veet с Марьяной Ро, серия роликов для Клинского, новогодняя реклама Coca-Cola с блогерами, ролики проекта HypeCamp, клипы “Блокеры” и “Мега звезда”, дисс Лиззки, versus-баттл между Оксимироном и Славой КПСС.

Современные модели распространения информации в сети используют несколько уровней анализа и включают данные о предыдущих взаимодействиях между пользователями. Факторы, используемые в анализе, можно разделить на три группы: характеристики сообщения, его автора и черты узла, которое принимает или отвергает сообщение. Всего в нашем исследовании использовалось 23 фактора.

Предыдущее взаимодействие мы учитывали при построении графа блогеров. Связи между узлами в сети показывали, что одному каналу когда-то понравился ролик другого. Всего в сети оказалось более 17 тысяч узлов с более чем 70 тысячами связей.

Сетевой анализ показал, что граф блогеров на YouTube склонен к структуре маленького мира. Это означает, что в сообществе ярко выраженных центров, а практически все члены могут достичь друг друга. Выделив из сети узлы с входящей мощностью от 20, мы получили 2 структурные группы: тесно связанные между собой комьюнити блогеров и периферию. И рассматривая графы блогеров, которые распространяли то или иное сообщение, эта структурная особенность сохранялась и включала в себя близкие или одинаковые каналы.

При сетевом анализе мы выявили только влияние рекламного статуса сообщения на его распространение. Если это сообщение рекламное, то каналов-последователей с периферии у него больше, чем каналов из связанного коммьюнити. Для детальной оценки факторов мы использовали модели регрессии и классификации. В качестве зависимой переменной мы использовали степень активации узла сообщением, где “0” - узле не активирован, а число, близкое к 100, - первый последователь после автора. Хороший результат показала линейная регрессия и SVM с радиальным ядром.