Институт социологии Федерального научно-исследовательского социологического центра РАН
Измерение субъективного благополучия на основе текстов социальных медиа: обзор современных практик
А.В. Кученкова
Аннотация
Наряду с многочисленными исследованиями субъективного благополучия посредством традиционных социологических методов (в первую очередь, опросов) предпринимаются попытки привлечь в качестве дополнительного источника информации Большие данные, «цифровые следы» (тексты социальных медиа, информацию профилей социальных сетей, статистику поисковых запросов, данные персональных электронных устройств).
На основе обзора зарубежной литературы раскрываются основные практики анализа текстов социальных медиа для измерения субъективного благополучия. В том числе охарактеризован опыт конструирования индекса «Валового национального счастья» для Фейсбука и «Гедонометра» для Твиттера на основе анализа объемов эмотивной лексики и тональности публикаций пользователей сетей. Раскрываются возможности поиска «цифровых следов» удовлетворенности жизнью в текстах социальных медиа.
Выделяются методологические трудности и ограничения в этой области исследований, которые пока не удалось преодолеть: проблема генерализации полученных выводов и валидности конструируемых индексов «счастья» (их соотношения с «реальным» субъективным благополучием, замеряемым посредством опросов). Трудности по измерению субъективного благополучия сопряжены с эффектами самопрезентации в социальных медиа, разной степенью и стратегиями публикационной активности пользователей, несовершенством используемых алгоритмов анализа, пока существенно уступающим «ручному кодированию».
Ключевые слова: субъективное благополучие, цифровые следы, цифровые данные, Большие данные
Abstract
Measuring subjective well-being based on social media texts. Overview of modern practices
A.V. Kuchenkova, Institute of Sociology of Federal Center of Theoretical and Applied Sociology of the Russian Academy of Science
Along with numerous studies of subjective well-being through sociological methods (first of all, surveys), attempts are being made to use Big Data, “digital footprints” (social media texts, social network profile information, search query statistics, personal electronic device data) as an additional source of information.
Based on a review of foreign literature, the author reveals major practices of the social media texts analysis to measure subjective well-being. Including the experience of constructing the Gross National Happiness index for Facebook and the Hedonometer for Twitter based on the analysis of emotive vocabulary and the tone of publications of network users. Possibilities of searching for “digital traces” of life satisfaction in the social media texts are revealed.
Methodological difficulties and limitations in that area of research, which have not yet been overcome, are highlighted: the issue of the obtained conclusions generalization and the validity of the constructed indices of “happiness” in their correlation with the “real” subjective well-being measured through surveys. Difficulties in measuring subjective well-being are associated with the effects of self-presentation in social media, varying degrees and strategies of users' publication activity, imperfection of the analysis algorithms that are still inferior to “manual coding”.
Keywords: subjective well-being, digital footprints, digital data, big data
Введение
Субъективное благополучие - один из ключевых показателей качества жизни, отражающий интегральную оценку человеком собственной жизни, восприятие условий повседневной жизнедеятельности, достаточности/нехватки тех или иных благ, текущего положения в обществе и перспектив. Обращение исследователей именно к субъективным оценкам благополучия было обусловлено не только трудностями по формированию универсального набора его объективных характеристик, но и их разной значимостью на групповом уровне (в контексте культурных особенностей) и индивидуальном (в зависимости от этапа жизненного цикла, социально-демографического статуса). Традиционным методом изучения субъективного благополучия является анкетный опрос, разработаны разнообразные инструменты измерения (обзор см. [Кученкова 2016]).
Развитие современных информационных технологий, расширяющих методический инструментарий исследователей, являются одним из основных трендов, определяющих вектор развития исследовательской индустрии [Цыбикова 2019]. Примерами таких изменений являются онлайн-исследования, обращение к Большим данным как источнику социальной информации, привлечение «нереактивных» методов сбора данных, поиск «цифровых следов» социальных аспектов жизнедеятельности. Подобные методические новации апробируются на разнообразных предметных полях.
В исследованиях субъективного благополучия (СБ) с привлечением Больших данных можно выделить несколько направлений [Luhmann 2017; Кученкова 2019]: анализ текстов социальных медиа для реконструирования и измерения уровня СБ пользователей; изучение активности и действий в социальных сетях как предикторов СБ; измерение уровня СБ в обществе на основе статистики поисковых запросов в веб-браузерах; поиск детерминант СБ среди практик использования смартфонов; мониторинг уровня СБ индивида на регулярной основе посредством «трекеров счастья» (приложений для смартфонов, позволяющих проводить многократные замеры СБ по стандартным методикам).
Наиболее активно из всего вышеперечисленного развивается анализ постов и статусов в социальных сетях для измерения уровня СБ пользователей сетей безопросными, нереактивными способами. Данная работа посвящена обзору основных практик использования подобного рода «цифровых следов» в исследованиях СБ.
Тексты социальных медиа как источник информации о субъективном благополучии
В рамках данного направления исследуются тексты, продуцируемые пользователями социальных сетей (в первую очередь, статусы и посты в Фейсбуке, посты в Твиттере) с точки зрения эмоциональной окраски, тональности используемой лексики, реже - содержания и затрагиваемых тем.
На основе текстовой информации конструируются индексы, отражающие доминирование слов, характеризующих положительное или отрицательное эмоциональное состояние (эмоциональная, эмотивная лексика). С технической точки зрения подобный анализ реализуется, как правило, двумя способами. Первый связан с использованием составленных лингвистами, «закрытых» словарей эмоциональной лексики. В одном из широко используемых корпусов LIWC (Linguistic Inquiryand Word Count) 407 слов для положительных эмоций (счастье, хороший, легкий, доверие, надежда и др.) и 506 - для отрицательных (ненависть, враг, бояться, плач, горе, несчастье и др.). В постах (и/или статусах) социальных сетей за определенный период времени отыскиваются эти слова и подсчитывается количество их упоминаний. В исследовании на основе данных Фейсбука [Kramer 2010] использовались обновления статусов примерно 100 млн англоязычных пользователей за 20072009 гг., для каждого нового статуса вычислялось соотношение слов, выражающих «положительные» и «отрицательные» эмоции. На основе усреднения полученных значений по дням вычислялся индекс «Валового национального счастья» (Gross National Happiness Index). В динамике его значения повышались в праздничные дни (Рождество, День благодарения, Хэллоуин и др.) и выходные, что расценивалось авторами как свидетельство «очевидной» валидности индекса как показателя «всеобщего эмоционального здоровья/благополучия» пользователей социальной сети.
Другой вариант анализа тональности текстов социальных медиа связан с оценкой эмоционального заряда наиболее распространенных и часто встречающихся слов. На этом принципе основан «Гедонометр» Твиттера [Dodds et al. 2011]. Для его конструирования был составлен список из 10 222 наиболее часто используемых в последние десятилетия слов (в англоязычной литературе, песнях, крупнейших газетах). Для каждого из этих слов был оценен его эмоциональный заряд по 9-балльной шкале (усредненная оценка ответов 50 человек на вопрос «Какие эмоции, чувства вызывает у Вас слово?», для этой части исследования на платной основе привлекались пользователи интернет-платформы Amazon's Mechanical Turk). Для постов в Твиттере за определенный период времени (день, час, месяц) вычислялся «средний» уровень эмоционального заряда лексики. На основе анализа твиттов 63 млн пользователей за 2008-2011 гг. (46 млрд слов) были обнаружены циклические закономерности в течение дня и недели (повышение уровня «счастья» в выходные и резкое снижение в понедельник, ежедневное повышение к 20-24 часам и снижение в 5-7 час. утра).
Кроме исследований, основанных на измерении тональности текстов социальных медиа и отражающих в большей степени аффективную составляющую субъективного благополучия, предпринимаются попытки отыскать «цифровые следы» его когнитивной компоненты - удовлетворенности жизнью. Например, посредством онлайн-опроса замеряют уровень СБ и анализируют тексты постов и статусов опрошенных пользователей за предшествующие полгода. С помощью тематического моделирования (методом Латентного размещения Дирихле - Latent Dirichlet Allocation) в этих текстах ищутся тематические кластеры слов («темы»), употребление которых коррелирует с уровнем удовлетворенности жизнью, измеренном посредством опроса. На индивидуальном уровне [Schwartz et al. 2016] удовлетворенность жизнью чаще сопровождается употреблением слов, характеризующих эмоциональную вовлеченность в повседневную жизнь (потрясающе, супер, завтра и др.), близкие и теплые отношения (семья, друзья, любовь и др.), профессиональное развитие (навыки, обучение, управление и др.), социальные взаимодействия (встреча, конференция, посещать, группа и др.); а неудовлетворенность - ненормативной лексикой, отчуждением (скука, зевать, неинтересный и др.).
В другом исследовании [Yang, Srinivasan 2016] был сформирован перечень выражений, фраз о (не)удовлетворенности жизнью (синонимичных суждениям, входящим в состав Шкалы удовлетворенности жизнью SWLS3. ДинераОдна из самых распространенных англоязычных методик для измерения субъективного благополучия, предложена Э. Динером, представляет собой шкалу суммарных оценок, включает пять суждений об удовлетворенности жизнью.), которые отыскивались в текстах 3 млрд твиттов за 2012-2014 гг. Затем были выделены две группы пользователей, в чьих публикациях содержались фразы об удовлетворенности и неудовлетворенности жизнью. Сравнение этих групп показало, что они различаются по активности, тематике публикаций, употребляемой лексике. В содержательном плане последние из упомянутых исследований представляют особый интерес, поскольку реализуют попытку поиска показателей и индикаторов именно когнитивного аспекта СБ в отличие от исследований на основе анализа тональности текстов.
лексика благополучие счастье социальный медиа
Методические ограничения использования текстов социальных медиа для измерения субъективного благополучия
В онлайн-исследованиях на основе «цифровых следов» помимо угроз валидности статистического вывода (проблема генерализации полученных выводов, отсутствие четких представлений о генеральной совокупности, разный уровень проникновения интернета и др. [Девятко 2016]) существуют специфические угрозы валидности и надежности измерения. В том числе эффекты самопрезентации в социальных медиа, разная степень и стратегии публикационной активности участников (большая часть которых выступает в роли «наблюдателей» и продуцирует недостаточные для анализа объемы текстов), несовершенство используемых алгоритмов анализа, пока существенно уступающих «ручному кодированию».
В случае с субъективным благополучием подбор индикаторов («цифровых следов») для когнитивной составляющей (удовлетворенности жизнью) является нетривиальной задачей. Преобладают исследования эмоциональных проявлений в текстах социальных медиа (адаптирующие технологии и методы корпусной лингвистики к конкретному предметному полю). Дискуссионным остается вопрос: как соотносятся данные самоотчетов о субъективном благополучии и «цифровых следов» с точки зрения получаемых результатов и качества измерения, в какой мере «реальное» субъективное благополучие людей отражается в тональности постов и объемах эмотивной лексики?
Для проверки и обоснования валидности «индексов счастья», конструируемых на основе текстов социальных медиа, неоднократно предпринимались попытки оценить корреляцию их значений на индивидуальном уровне с данными, полученными посредством реактивных методов (опроса) и традиционных методик (в частности, Шкалы субъективного благополучия (SWLS Э. Динера)). Процедурно это реализовывалось двумя способами: либо рекрутировались добровольцы, проходившие онлайн-опрос и предоставляющие доступ к своим постам за год-два, предшествовавших опросу; либо использовались данные приложения Фейсбук “my Personality” (функционировавшего с 2007 по 2012 г. и содержащего ответы пользователей на вопросы различных психологических тестов, среди прочего по Шкале субъективного благополучия Э. Динера) для тех, чей доступ к персональной странице и постам был открыт.
Установлено, что объемы эмотивной лексики слабо коррелируют с индивидуальными баллами по Шкале субъективного благополучия Э. Динера. Коэффициент корреляции составляет 0,17 для интенсивности выражения положительных эмоций [Kramer 2010], -0,105-0,145 - для отрицательных [Liu 2015]. Чуть более тесная взаимосвязь обнаруживается в случае, если кроме тональности текстов учитывается их тематика, частота упоминания тех или иных тем (коэффициент корреляции со шкалой SWLS0,36 [Chen et al. 2017]), либо если данные рассматриваются в динамике на агрегированном, групповом уровне в разрезе недель (корреляция достигает 0,37 [Wang et al. 2014]). Однако при оценке корреляции между объемами эмотивной лексики и баллами по шкале удовлетворенности жизнью с содержательной точки зрения сопоставляются эмоциональная и когнитивная компоненты субъективного благополучия, что представляется не вполне корректным.
Для предсказания удовлетворенности жизнью на индивидуальном уровне лучшего результата удается добиться при использовании методов тематического моделирования. Если в модели учитывается и тематика текстов, и отдельная лексика, то корреляция между предсказываемым уровнем СБ и полученным в ходе опроса может достигать 0,566 [Schwartz et al. 2016]. В целом невысокие корреляции между индикаторами СБ в текстах социальных сетей и данными самоотчетов респондентов могут быть связаны с временным лагом между ответами на вопросы анкеты и постами / обновлением статуса (который может доходить до одного [Liu 2015] или даже трех лет [Kramer 2010; Chen et al. 2017]). Субъективное благополучие может изменяться в течение этого периода времени. Кроме того, сам факт использования и продолжительность нахождения в социальных сетях могут существенным образом снижать СБ человека.