Журналистика данных: инновация или пустая трата времени и сил?

Основное отличие журналистики данных от обычных статей в том, что данные помещены в самое сердце материала. Инфографика, интерактивные карты, хронологические графики, круговые диаграммы, вокруг которых выстроена вся журналистская история, – это продукты журналистики данных. Фото: фрагмент проекта Who Old Are You? informationisbeautiful.net/visualizations/who-old-are-you

Официально это направление оформилось в независимый жанр относительно недавно – сам термин был предложен в 2010 году. Но отвечающие формату материалы можно отыскать и в архивах. Этот этап в дата-журналистике даже называют викторианским

Журналистика данных на сегодня один из самых инновационных видов журналистики, основанный на обработке, интерпретации и визуализации больших объемов информации.

Журналисты работали со статистикой и другими массивами данных на протяжении всего существования профессии. Как пишет Саймон Роджерс, один из гуру современной дата-журналистики и основатель Datablog для Guardian, вся спортивная журналистика, финансовая аналитика, даже прогнозы погоды строятся на обработке такой информации.

Основное отличие журналистики данных от обычных статей в том, что данные помещены в самое сердце материала. Инфографика, интерактивные карты, хронологические графики, круговые диаграммы, вокруг которых выстроена вся журналистская история, – это продукты журналистики данных.

Официально это направление оформилось в независимый жанр относительно недавно – сам термин был предложен в 2010 году. Но отвечающие формату материалы можно отыскать и в архивах. Этот этап в дата-журналистике даже называют викторианским.

Начало

Журналист Флоренс Найтингейл боролась за улучшение условий в британской армии. Она провела обширную работу, анализируя смертность в войсках, и установила, а потом доказала британскому парламенту, что в большинстве случаев солдаты гибли по причинам, которые можно было предотвратить, например, вследствие антисанитарии.

Ее отчет, опубликованный в 1858 году, пестрил графиками, диаграммами, и дата-журналисты уверенно причисляют ее к пионерам направления.

Британская Guardian настаивает, что один из первых резонансных материалов в стиле журналистики данных был опубликован в ее пилотном номере, вышедшем в 1891 году.

Этот выпуск газеты включал таблицу, полученную из анонимного источника. Она содержала список школ в Манчестере и Салфорде, число учащихся и годовые затраты государства на образование.

В результате анализа этих данных Guradian смогла выявить крупные расхождения с официальной статистикой и более точно установить, сколько детей получали бесплатное образование и какова была доля школьников из бедных семей.

Еще более ранняя публикация New York Tribune от 1849 года считается одним из случаев первого использования инфографики.

В этом материале газета визуально отобразила данные о вспышке холеры, привезенной на корабле из Европы. С помощью графика был сделан печальный и оправдавшийся прогноз о том, что пик эпидемии Нью-Йорку на тот момент еще только предстоял.

Работа британского врача Джона Сноу, опубликованная в 1854 году, – пример картирования, метода, широко применяемого дата-журналистами и сегодня.

В мире, еще не знавшем о существовании микробов, Сноу зарегистрировал и нанес на карту случаи заражения холерой во время вспышки болезни в Лондоне. Эта визуализация позволила ему заподозрить связь между эпидемией и насосной станцией, вокруг которой проживали заболевшие. В результате было установлено, что в эту секцию городского водоснабжения попадали зараженные канализационные воды.

Но становление журналистики данных как полноценного направления стало возможно веком позже – на волне цифровой революции и тиражирования идей доступности информации: открытых данных, электронных правительств, распространения опенсорсных решений для обработки и визуализации, а также возникновения бигдаты.

Новое рождение

Современная журналистика данных многим обязана журналистскому репортажу с применением компьютерных технологий, или CAR (computer-assisted reporting).

Этот тренд возник в раннюю стадию компьютерной эры, когда репортеры начали экспериментировать с вычислительными машинами для обработки информации. Так, в 1952 году CBS использовал компьютерные алгоритмы для предсказания исхода президентских выборов в США и абсолютной победы Эйзенхауэра с точностью до одного процента.

Филипп Мейер и Эллиот Яспен считаются отцами-основателями журналистики данных. Мейер – автор термина «журналистика точности», который он предложил в своей книге с одноименным названием.

В ней он ратовал за использование научных методов анализа данных в журналистике расследований. Мейер применил статистический анализ для выяснения причин бунтов в Детройте в 1967 году для газеты Detroit Free Press. Проанализировав данные, он смог развеять несколько популярных в обществе мифов о составе бунтовщиков и их мотивах.

В 1980-х годах в США в жанре журналистики данных работали уже десятки журналистов. А в 1989 году CAR впервые получила высочайшее признание в профессиональной среде: журнал Atlanta Journal-Constitution был удостоен Пулитцеровской премии за серию материалов о расовом неравенстве, которое было выявлено при анализе политики банков по выдаче ипотечных займов.

В том же году Эллиот Яспен, еще один ярый сторонник CAR и лауреат Пулитцеровской премии, способствовал превращению журналистики данных в академическую дисциплину. Он основал в Миссури Национальный институт журналистского репортажа с применением компьютерных технологий National Institute for Computer-Assisted Reporting (NICAR).

В первое десятилетие XXI века свои дата-блоги вела большая часть титанов западного медиарынка: Guradian с Datablog, The Upshot газеты New York Times, блог Data Desk издания Los Angeles Times, Washington Post и многие другие. К продвижению журналистики данных также активно подключились крупнейшие ассоциации журналистов-расследователей: от Investigative Reporters and Editors до Global Investigative Journalism Network.

Еще один мощный толчок в новой эре журналистика данных получила от WikiLeaks и Эдвард Сноуден, предоставивших ряду СМИ эксклюзивный доступ к десяткам тысяч сырых секретных файлов о войнах в Ираке и Афганистане.

Сайт конкурса Data Journalism Awards.
Сайт конкурса Data Journalism Awards.

Обработкой этих огромных архивов занимались, в частности, Spiegel, Guardian и Associated Press. В 2012 году была основана премия Data Journalism Awards для выдающихся достижений в сфере журналистики данных.

Журналистика данных сегодня

Современная журналистика данных – это сотни материалов и инструментов, ежедневно публикуемых по всему миру. По сложившемуся убеждению, она стала не только детищем захлестнувшего мир технологического переворота, но и реакцией медиасферы на повсеместно воцарившуюся событийную журналистику, живущую за счет скорости подачи информации и сенсационности.

В противовес ей журналистика данных скрупулезна, заинтересована в деталях, а в формуле «пяти W» главным образом сосредоточена на вопросе «Почему?».

Одна из основных ее целей – продвинуть читателя чуть дальше в понимании не только события, но и его контекста, и подвести базу под изолированные происшествия и разрозненные факты.

Как, например, прошлогодний масштабный проект немецкой Berliner Morgenpost. В своем материале Es war nicht immer der Osten газета проследила динамику распределения голосов на выборах в каждой из немецких земель с 1990 года.

Газете удалось продемонстрировать, что приход в немецкий парламент крайне правых впервые за полвека был отнюдь не таким сюрпризом, как казалось.

Другой известный дата-проект Gapminder стремится повлиять на наше восприятие положения дел в целом на планете.

Его создатели считают, что мы совершенно неправильно воспринимаем мир, и пытаются доказать это с помощью данных. Для начала посетителям предлагается пройти тест на знание основной глобальной статистики, который, по мнению авторов, вы непременно провалите.

Поиск причинно-следственных связей, новых ракурсов – еще одна ключевая задача, над решением которой бьется журналистика данных. Агентство Bloomberg известно своей высококачественной инфографикой, в частности проектом «Самые смертоносные профессии в Америке».

Согласно выводам в этом материале, мусорщики в США сталкиваются с более высоким риском лишиться жизни, выполняя свою работу, чем пожарные, а американские таксисты чаще погибают насильственной смертью, чем полицейские.

Возможность обнаружить скрытые закономерности через анализ сухих данных сделал этот жанр особенно популярным у журналистов-расследователей. Стив Дой в 1993 году проанализировал ущерб, нанесенный ураганом Эндрю в США.

Он объединил два потока данных: карту разрушений и скорость ветра. Это позволило ему установить области, где последствия оказались масштабными еще и потому, что в этих районах действовали менее строгие требования к качеству постройки. За свое расследование Дой был удостоен Пулитцеровской премии.

В 2015 году Al Jazeera America проанализировала движение сошедшего с рельсов поезда и установила, что этот конкретный состав на протяжении месяцев до катастрофы входил в опасный вираж на повышенной скорости.

В прошлом году канадская Globe and Mail обработала информацию из 870 полицейских участков. В результате ей удалось установить, что полиция отказывается расследовать одно из пяти заявлений о преступлениях сексуального характера, классифицируя их как «не имеющие оснований».

Миссия журналистики данных

Другая миссия журналистики данных – облегчение доступа к разрозненной, нечитабельной, малодоступной информации. Иногда многомесячная работа команд дата-журналистов, обработавших тысячи строчек информации или оцифровавших сотни документов в формате pdf, завершается тем, что составленная вычищенная и выверенная таблица «просто» размещается онлайн в читабельном формате для всеобщего пользования.

Эта миссия оказывается особенно важна в репрессивной среде, где доступ к надежной количественной информации закрыт или сильно ограничен.

La Nacion Data собирает, оцифровывает и выкладывает в общий доступ разнообразную информацию об Аргентине, стране, где отсутствует закон о свободе информации.

Проект Excesos Sin Castigo публикует данные о добывающей и нефтяной отраслях Перу.

При этом несколько плотных параграфов текста может заменять одна резюмирующая инфографика.

Например, работа дата-блога Information is beautiful о крупнейших случаях утечки личных данных онлайн.

Или проект Guardian US о правах ЛГБТ в США, или обновляющаяся в реальном времени карта убийств женщин в Турции.

Более того, журналистика данных далеко не всегда сама серьезность. Результатом многочасовой работы с цифрами может стать, например, рейтинг самых глупых разборок между редакторами Википедии.

Что ждет журналистику данных?

В 2017 году Google News Lab опубликовала исследование, в котором настоящее журналистики данных предстало достаточно обнадеживающим. Так, 42 процента журналистов сообщили, что используют в своей работе данные, а в 51 проценте случаев в редакции работает специалист по дата-журналистике.

Но, по мнению многих, журналистика данных развивается не так стремительно, как предполагалось: на игровом поле по-прежнему в основном представлены западные СМИ, а в отдельных странах журналистика данных отсутствует вовсе.

Более того, после президентских выборов в США в 2016 году некоторые поспешили похоронить дата-журналистику и в этой стране по той причине, что ни один авторитетный дата-источник, от FiveThirtyEight до Politico, не смог предсказать исход этого голосования.

Журналистика данных как жанр действительно сталкивается с массой трудностей на каждом этапе производства, в особенности это касается человеческих ресурсов.

По всеобщему убеждению, поток работы над материалом в жанре журналистики данных подразумевает, что журналист разбирается в методах обработки и анализа данных, понимает программирование, графический дизайн и веб-разработку.

По словам 53 процентов опрошенных Google News Lab, большинству нелегко дается приобретение такого спектра навыков. Для их освоения журналисту необходимо потратить десятки, если не сотни часов.

В противном случае редакции необходимо привлекать целую команду специалистов, что сопряжено с серьезными тратами, которые бывают не по силам или не по нраву редакциям. По данным Google News Lab, почти 40 процентов из них просто не видят отдачи от таких вложений ресурсов.

Как следствие, недостаток квалификации, опыта и владения научными методами может приводить к тому, что журналист допускает ошибки, вырывает данные из контекста или делает поспешные выводы.

Широко известен материал одного из ведущих дата-блогов FiveThirtyEight о похищениях людей в Нигерии (https://fivethirtyeight.com/features/mapping-kidnappings-in-nigeria/). Журналист собрала данные о похищениях из средств информации, затем эти сведения были нанесены на карту как фактические похищения, что привело к перекосу во всем расследовании.

Еще 49 процентов опрошенных Google News Lab в качестве препятствия указывали на нехватку времени: многим из них необходимо сдавать готовую работу в течение дня, а этого обычно недостаточно для проведения полноценного количественного анализа и визуализации.

Греческая журналистка Эва Костантарас объясняет дефицит дата-журналистов и спецификой контекста в отдельных странах, где журналисты привычно работают с пресс-релизами: «В таких случаях самое сложное – найти тех, кто готов оставить свою работу «стенографиста» и взять на себя роль поставщика знаний. И это нежелание не смогут устранить ни обилие данных, ни наличие нужных технологий».

Ведущие дата-журналисты планеты не согласны ни с одним пессимистичным прогнозом.

Саймон Роджерс, долгое время курировавший дата-блог Guardian, а сейчас возглавляющий Google News Lab, считает, что журналистика данных сегодня доступна, как никогда: «В мире, где есть масса курсов, источников, инструментов для автоматизации сбора данных и создания цифровой графической информации быть дата-журналистом проще простого».

Крис Таггарт из Open Corporates, портала, предоставляющего доступ к информации о миллионах компаний, признает, что делать хорошую дата-журналистику трудно, потому что хорошая журналистика – это вообще непросто: «Необходимо добыть данные, понять их, разобраться, где в них спрятана история. Иногда все это ведет в никуда, иногда истории просто нет. В конечном итоге, если бы все сводилось к нажатию правильной кнопки, это не было бы журналистикой. И именно поэтому оно все того стоит. В мире, где вся наша жизнь постепенно превращается в большой архив данных, такая журналистика становится необходимым условием существования свободного и справедливого общества”.

На новый виток эволюции дата-журналистику, как и многие другие отрасли ноосферы, может вывести ИИ, пока в форме машинного обучения. Первые попытки поставить компьютерные алгоритмы на службу редакций уже начались.

Машинное обучение использовала Atlanta Journal-Constitution в расследовании случаев сексуальных домогательств со стороны врачей.

Методом веб-скрейпинга газета собрала около 100 тысяч случаев дисциплинарных действий в отношении медработников. Затем с помощью компьютерного алгоритма был проанализирован каждый кейс.

SRF в Швейцарии с помощью алгоритмов машинного обучения попыталась установить типичные признаки фейкового аккаунта в Twitter.

Los Angeles Times использовала ИИ для своей истории «Недостаточно освещенные случаи серьезных преступлений на протяжении 8 лет искажают криминальную статистику в Лос-Анджелесе».

Будьте с нами на связи, независимо от алгоритмов

Telegram-канал E-mail рассылка RSS-рассылка
Как победить алгоритмы: прочитай инструкции, как настроить приоритетный показ материалов в социальных сетях и подключить RSS-ленту.