Данные, большие или открытые, в настоящее время являются актуальной темой, и необходимо их различать.
Основная ценность больших данных – в тех новых возможностях, которые мы получаем с анализом больших объемов информации, недоступных нам ранее. В случае с открытыми данными ценность заключается в возможности распространять их и делать доступными для третьих сторон: открытые данные должны быть бесплатно доступны онлайн и свободны для использования.
Термин «открытые данные» впервые появляется в 1995 году в американском научном сообществе в виде призыва свободно обмениться данными. Но сама идея некоторой общей информации, применяемой к знаниям, существовала задолго до Интернета. Например Роберт Кинг Мертон, один из отцов социологии науки, в своей теории описывал преимущества открытых данных в науке.
Но есть некоторое противоречие между идеями открытых данных в научном сообществе и движением за свободное программное обеспечение и программное обеспечение с открытым исходным кодом, которые определили образ «открытых данных», какими мы их знаем сегодня.
Принципы, которые позволяют нам сегодня определять и оценивать открытые данные, были сформулированы в 2007 году на встрече теоретиков и активистов Интернета в Сан-Франциско.
Одними из авторов этих принципов стали Тим О’Рейлли, крупный издатель и сторонник движений за свободное программное обеспечение и программное обеспечение с открытым исходным кодом, и Лоуренс Лессиг, основатель Creative Commons.
Идея, лежащая в основе данных принципов, заключается в том, что публичные данные – это общая собственность, которой можно делиться и которую можно использовать. По сути, это те же самые принципы, лежащие в идеологии программного обеспечения с открытым исходным кодом: открытость, участие и совместная работа.
В 2007 году это звучало как утопия, но уже через год президент США Барак Обама подписал три президентских меморандума, касающихся прозрачности данных и открытого правительства.
Разница между публичными и открытыми данными
Несмотря на общую «открытость» публичных данных и открытых данных, между ними существует принципиальная разница. Она заключается в том, что использование публичных данных определяется законом – доступ к ним можно получить, например, по специальному запросу.
Суть открытых данных в обратном – данные должны быть опубликованы в Интернете еще до того, как кому-то понадобятся.
Такая открытость данных дает им возможность быть ответом на существующие политические и экономические вопросы – от создания полезных сервисов на основе данных о расписании автобуса до решения сложных демографических проблем за счет прозрачности гражданских действий.
Но не все данные открыты и их доступность все еще является проблемой. Кроме этого, существуют сложности с совместимостью данных на разных территориях, что затрудняет создание сервисов большого масштаба.
Сейчас, спустя шесть лет после встречи в Сан-Франциско, сама идея открытых данных сильно изменилась – это уже не радикальная прозрачность, а — более скромно — возможность модернизации общества и деятельности правительства и организаций.