Журналистика данных в российской прессе: особенности источников информации
Шилина Александра Геннадьевна
Шилина Александра Геннадьевна выпускница аспирантуры факультета журналистики МГУ имени М.В. Ломоносова, аналитик венчурного фонда активного участия в криптосетях Paradigm Fund (г. Москва, Россия)
В статье представлены результаты исследования источников информации в публикациях журналистики данных в российской качественной прессе за 2014-2016 гг., которое показало, что так называемые «большие данные» не являются обязательным компонентом публикаций. В тоже время в материалах, содержащих большие данные, именно они являются информационным поводом, однако менее половины из них анализируется авторами самостоятельно - используются готовые данные государственных организаций, аналитических компаний, других СМИ, социальных медиа и поисковых систем.
Ключевые слова: российская пресса, открытые данные, большие данные, количественные данные, журналистика данных.
Введение
Распространение концепции открытости информации и гражданских инициатив в России с 2010 гг. приводит к тому, что журналистами все чаще используются в качестве источника информации большие данные (англ. big data) - серия подходов, инструментов и методов обработки структурированных и неструктурированных машиночитаемых данных объемом от одного петабайта для получения воспринимаемых человеком результатов (Manyika, Chui, Brown, Bughin et al., 2011: 1). Благодаря внедрению подобных инициатив и активному использованию больших данных для подготовки материалов СМИ, в стране распространяется направление журналистики, оформившееся в ведущих зарубежных медиа - журналистика данных (англ. data journalism), которая опирается на традиции расследовательской журналистики, «вычислительной» (англ. computer-assisted reporting - CAR) и «прецизионной» журналистики (англ. precision journalism), основанной на применении научных методов сбора и анализа данных (Meyer, 2002).
Одними из первых большие данные в своих материалах использовали журналисты агентства «РИА Новости» в начале 2010 гг. в рамках программы «Большая Россия - большие данные». Реализованные проекты содержат интерактивную визуализацию с обязательным участием пользователей, минимальный объем текстового контента и раскрывают социально значимые темы. Проекты стали примерами первых опытов работы с большими данными, находящимися в открытом доступе, российских журналистов (над проектами работали авторы из таких изданий, как «Российская газета», «Московские новости», «РБК» и др.). Все проекты реализовались в Интернете и остаются в формате бета-версий, они послужили импульсом для развития журналистики, основанной на больших данных в России. Так, появляются громкие материалы в средствах массовой информации: например, спецпроекты «Новой газеты», журналисты которой работают над Панамским архивом со специалистами Международного консорциума журналистов-расследователей (International Consortium of Investigative Journalists, ICIJ)2 и над «Ландроматом» в рамках Проекта по расследованию коррупции и организованной преступности (Organized Crime and Corruption Reporting Project, OCCRP). В 2015 г. журналисты «РБК» публ и куют собственное расследование трат московского бюджета, исследуя базу данных госзакупок.
Несмотря на распространение в 2010 гг. практик использования больших данных в материалах российских СМИ, отечественная журналистика данных не приобретает формальных признаков - не формируются рубрики, посвященные ей, авторы материалов, основанных на больших данных, не всегда идентифицируют свои статьи с публикациями журналистики данных. Практика зарубежных медиа, наоборот, показывает: рамки того, что можно называть источниками информации в материалах журналистики данных, становятся все более размытыми. Часто материалы, относимые сообществом к журналистике данных и публикуемые в специализированных разделах, содержат в качестве первоисточника именно большие данные, материалы основываются на наборах крупных цифровых данных, не требующих сложных программных инструментов обработки.
Мы предлагаем разграничение используемых журналистами данных на большие данные в их принятом понимании и выделяемые нами количественные данные - особый тип информации, составляющий основу большинства публикаций зарубежной журналистики данных. Мы определяем большие данные как массивы данных огромных объемов и значительного многообразия, которые из-за их количества и сложности не могут быть собраны, сохранены и проанализированы без помощи специальных горизонтально масштабируемых программных инструментов обработки, появившихся в конце 2000 гг. Чаще всего такие данные оформляются в базы размером от нескольких петабайт, генерируемые самыми разными источниками - социальными медиа, веб-сервисами, мобильными приложениями, интернетом вещей и т.д. Под количественными данными мы предлагаем понимать наборы данных небольших объемов и разнообразия, которые могут быть обработаны человеком с использованием любого из существующих традиционных инструментов. Это могут быть статистические данные, данные социологических исследований, рейтинги и др., которые являются привычными информационными поводами в журналистике.
Данное положение позволяет нам провести разграничение между «журналистикой данных» в ее широком понимании, охватывающем целый спектр материалов, публикуемых в соответствующих рубриках, и условной «журналистикой больших данных», являющейся специализированным направлением в журналистике, материалы которого создаются с использованием информации, полученной из соответствующих по масштабам и сложности обработки цифровых баз данных.
Соответственно, в рамках исследования мы используем следующее определение журналистики данных: это направление в журналистике, основой материалов которого является обработка любых так называемых «количественных данных», которые могут служить информационным поводом или быть частью материала, обогащая его. В то же время отдельно обращается внимание на журналистику больших данных - направление, в основе которого лежит работа именно с большими данными в соответствии с их пониманием современными специалистами как цифровой информации, которую невозможно обрабатывать традиционными способами.
Степень разработанности темы исследования
Практики журналистики данных пока в достаточной степени не систематизированы и не отражены комплексно в научной литературе. Основная часть работ по исследуемой тематике носит научно-практический характер. Базовыми для изучения характеристик больших данных, особенностей журналистики данных, а также для изучения работы специалистов, создающих публикации на основе цифровых форматов данных, являются работы зарубежных авторов по эпистемологии журналистики данных: научные статьи, посвященные изучению влияния феномена больших данных на современную журналистику (Holovaty, 2006; Lewis, Westlund, 2015; Parasie, 2015), исследованию влияния инноваций на работу журналистов (Gynnild, 2014), а также анализ последствий появления вычислительной журналистики и журналистики данных для работы в редакциях (Coddington, 2015). В последние годы разрабатывается одна из наиболее полных классификаций материалов журналистики данных (Stalph, 2018).
С начала 2010 гг. изучению феномена журналистики данных начинают уделять внимание представители российского академического сообщества. Существующие отечественные исследования журналистики данных представляют собой концептуализацию и теоретическое описание данного явления. Крупные эмпирические исследования в заявленной области пока отсутствуют. Интересны работы российских исследователей, посвященные подходам и стратегиям использование больших данных в массмедиа, в частности в медиаизмерениях онлайн-СМИ и телевидения (Вартанов, 2017 (а, б)); статьи о значениях больших данных в журналистике и в медиакоммуникации (Шилина, 2013; Шилина, Левченко, 2014); исследование роли концепции открытых данных в развитии журналистики данных и значения баз открытых данных как первоисточников для публикаций журналистики данных (Панюкова, 2015).
Анализ доступности открытых цифровых данных как источника для журналистов в России, основанный на сочетании полуструктурированных интервью с журналистами и экспертами по открытым данным с качественным анализом контента СМИ и хакатонов, показал, что открытые данные редко используются в практике средств массовой информации, в основном из-за недоступности или неструктурированно- сти и невозможности обработки авторами, однако публикации журналистики данных могут создаваться на проводимых активистами хакатонах по открытым данным (Valeeva, 2017). С. Симакова, определяет журналистику данных как новый тренд в медиаиндустрии (Симакова, 2014), а также рассматривает влияние журналистики данных на формирование визуальной журналистики (Симакова, 2016). Исследователи изучают проблему использования новых компьютерных технологий в журналистике, рассматривают явление журналистики данных в широком и узком смысле и предпринимают попытку классификации публикаций (Николов, 2012); взаимодействие (тематика), авторитетности (учитывается репутация издания). Это:
«Коммерсантъ Daily» - ежедневная общественно-политическая газета ИД «Коммерсантъ» (периодичность - шесть раз в неделю);
«Новая газета» - общественно-политическое издание, известное журналистскими расследованиями (периодичность - три раза в неделю;
The New Times (ранее - «Новое время») - общественно-политический журнал (выходит еженедельно по понедельникам);
«Власть» - еженедельный общественно-политический и информационно-аналитический журнал ИД «Коммерсантъ»;
«Деньги» - еженедельный общественно-политический деловой журнал ИД «Коммерсантъ»;
Журнал «РБК» - ежемесячное издание медиагруппы «Рос Бизнес Консалтинг» (в журнале представлен анализ ситуации в различных отраслях экономики и информация о компаниях, а также международные новости);
Forbes - ежемесячный финансово-экономический журнал, российская версия американского издания Forbes.
Так как в отечественной качественной прессе специализированные СМИ, самостоятельные рубрики, колонки или разделы, посвященные исключительно журналистике данных, пока отсутствуют, для формирования первичной выборки изучаются все публикации исследуемых российских изданий на предмет наличия среди них материалов, релевантных публикациям журналистики данных в зарубежной прессе. На первом этапе исследования проводится мониторинг публикаций данных изданий за три года для выявления статей, основанных на больших и количественных данных, схожих с публикуемыми в тематических разделах, посвященных журналистике данных, в The Guardian Datablog и The Upshot, The Guardian и The New связей с общественностью и журналистики данных (Бочаров, 2014).
Отметим также работы практиков в области больших данных, государственных данных, концепции открытости информации: И. Бегтина, члена совета по открытым данным при Правительственной комиссии по координации деятельности Открытого правительства, соучредителя АНО «Инфокультура» создателя сайта opengovdata.ru и других инициатив в области открытости данных; И. Радченко и А. Сакоян (2014), создателей проекта, посвященного журналистике данных в России6 (в статью включен обзор образовательных ресурсов и трендов в области журналистики данных).
Однако феномен журналистики данных пока не изучен комплексно ни зарубежными, ни российскими авторами, что свидетельствует не только о его новизне, но и о сложности, обусловливает необходимость поиска релевантных подходов к изучению.
Методология
Исследования российской журналистики данных опираются на качественные методы, основанные на теоретическом описании (Шилина, Левченко, 2014) или интервьюировании экспертов и специалистов в данной области (Valeeva, 2017). В нашей работе мы сосредотачиваемся на количественных методах анализа контента журналистики данных на основе информации, предоставляемой в публикациях.
Хронологические рамки исследования - 2014-2016 гг. (период становления журналистики данных в России и предполагаемого оформления ее в самостоятельное направление журналистики).
Рассматриваются публикации российских качественных изданий, отобранных по критериям цитируемости, периодичности (анализируются ежедневные, еженедельные и ежемесячные издания), целевого назначения и характера информации York Times (360 публикаций в разделах, по 60 в год, 2014-2016 гг.). На этом этапе выборка российских публикаций - сплошная. В процессе мониторинга выявляются публикации, содержащие большие данные и количественные данные.
На втором этапе исследования в отобранных публикациях изучаются особенности контента на основе анализа источников информации. Материалы разграничиваются по типам данных, присутствующих в них, - разделяются публикации, основанные на больших данных, и материалы, основой которых являются количественные данные. Наличие в публикациях больших данных определяется информацией, предоставленной в статье: прямые указания на источник информации, ссылка на открытые ресурсы больших данных, размещенные автором в публикации на сайте, которые упоминаются в статье и в дальнейшем просматриваются нами и др.
Также исследуется источник обработки данных: при анализе публикаций обращается внимание на то, сам ли журналист, автор материала, находит и при помощи специальных программных инструментов обрабатывает данные, присутствующие в публикации, или же он опирается на готовый анализ данных - компании, эксперта, другого медиа и т.д., что важно для определения степени оригинальности материалов и понимания уровня самостоятельности работы специалистов по созданию публикаций журналистики данных в качественной прессе России.
На третьем этапе в публикациях, содержащих большие данные, на основе классификации М.А. Разумовой (2016) исследуются источники информации и их типы.
Результаты исследования
На первом этапе исследования выявляются публикации, содержащие большие данные, а также статьи, основанные на небольших по объему и разнообразию «количественных данных»: статистических, открытых государственных данных, на данных исследовательских центров и социологических служб (всего 1564 публикаций) (см. табл. 1).
Отметим, что чаще всего подобные материалы основаны на данных российских статистических и социологических служб: Росстата, ВЦИОМа, ФОМа, «Левада-Центра» и др. Так, 156 из 554 публикаций «Коммерсантъ Daily» содержат данные Росстата, 39 из 554 -ВЦИОМа. Часть публикаций является результатом обработки или пересказа тех же информационных поводов, что встречаются в публикациях зарубежной журналистики данных, - это крупные цифровые данные международных общественных и аналитических организаций.