Шесть университетов получили от Twitter всю базу твитов

Каждый день в Twitter публикуется 500 млн сообщений. На базе твитов ученые изучают паттерны в человеческом поведении, социальные связи, распространение инфекционных болезней, факторы риска для организма человека и многое другое. Например, геологическая служба США отслеживает твиты, чтобы определять эпицентр землетрясения, а исследователи…

Эта информация пылится в архиве — вдруг устарела.

В апреле 2014 года Twitter сообщил о поступлении более 1300 заявок из 60+ стран на доступ к базе данных в научных целях, при этом более половины запросов поступило из-за пределов США. После отбора кандидатов компания выбрала шесть университетов из четырех стран, которым согласилась предоставить информацию.

Например, геологическая служба США отслеживает твиты, чтобы определять эпицентр землетрясения, а исследователи из Microsoft разработали алгоритм, который по содержимому твитов беременной женщины определяет риск развития послеродовой депрессии. Ранее ученые были вынуждены работать с весьма ограниченной выборкой данных, так как с помощью стандартного Twitter API можно получить доступ лишь к 1% всех сообщений.

Чтобы заранее договориться о нюансах, группа ученых из Политехнического университета Вирджинии предложила Правила этического использования данных Twitter, под которыми могут подписаться все, кто собирается их использовать. Среди прочего правила содержат запрет на публикацию имен пользователей и ников, а также требование открыто заявлять о целях исследования.

Уже разработаны программные инструменты, которые прямо противоречат Правилам этического использования данных Twitter, а именно — автоматически собирают данные о конкретных пользователях и организациях. Среди таких программ — Maltego и Creepy.