Данные мобильных телефонов могут быть очень полезны в разных ситуациях – от лучшего распределения электроэнергии в городе до помощи в борьбе с лихорадкой. Но можно ли использовать эти данные и не раскрывать при этом личную информацию пользователей?
Поделитесь этой статьей с коллегами и друзьями
Каждый день, час и даже минуту пользователи мобильных телефонов создают цифровые «следы» – данные о своем расположении, адресатах звонков, продолжительности разговоров и многом другом.
Эта информация может быть использована в самых разных целях – от визуализации динамики перемещений в городе, благодаря пониманию которой можно лучше распределять энергию и другие ресурсы, а также управлять трафиком, до помощи при таких чрезвычайных ситуациях, как вспышка лихорадки Эбола, которая случилась в прошлом году.
Данные мобильных телефонов
Согласно исследованию, данные мобильных телефонов являются намного более точным (и актуальным) источником информации о численности популяции и перемещении людей, чем традиционная перепись населения.
Карты, полученные на основе мобильных данных, показывают истинную природу существующих социальных сетей и перемещение людей практически в режиме реального времени и, соответственно, могут помочь предсказать многие вещи, например, распространение болезни.
Это работает достаточно просто – каждый раз, когда вы делаете звонок, мобильный телефон посылает информацию на базовую станцию и сообщает ваше примерное месторасположение. Когда такая информация известна про миллионы людей, можно составить детальную картину плотности популяции и того, как она изменяется с течением времени в какой-либо области.
Личные данные пользователей
Но у использования данных с мобильных телефонов есть и темная сторона – это личная информация пользователей, которая может быть раскрыта.
Такие опасения не беспочвенны – в марте исследователи из Стэнфордского университета продемонстрировали, что даже простые метаданные с мобильных телефонов могут раскрывать очень личные аспекты жизни пользователей.
Так, только на основе данных о том, кому звонили участники исследования, удалось установить личности человека, который выращивал коноплю, женщины, планирующей сделать аборт, и человека, страдающего от рассеянного склероза.
Выясняется, что, казалось бы, анонимные данные на самом деле не такие анонимные и при некотором желании их можно легко деанонимизировать.
Но возможна ли в таком случае вообще публикация наборов больших данных без риска раскрыть чью-либо приватную информацию?
Безопасное использование данных
Хорошим примером того, как мобильные операторы могут использовать данные своих пользователей и при этом защищать их личную информацию, может Orange, французский мобильный оператор, который работает в ряде африканских стран.
В программе «Data for Development» (D4D), которая проводится уже второй год, Orange дает исследователям возможность использовать мобильные данные для проектов, направленных на развитие региона.
После успеха прошлогодней программы в Кот-д’Ивуар, в этом году D4D прошла в Сенегале. Цель программы, которая дает исследователям и ученым доступ к мобильным данным, заключается в помощи развитию здравоохранения, сельского хозяйства, транспорта и других важных отраслей в регионе.
Данные, с которыми работали исследователи, мобильный оператор собирал в течение всего 2013 года – это 1,1 терабайт информации (эквивалентом такого объема информации можно считать более 1 000 часов стриминга сериалов с Netflix в стандартном разрешении).
Чтобы анонимизировать данные, Orange заменил все идентификаторы звонка одним номером, означающим сам звонок. Ключ, который использовался для конвертации всех данных в один номер, был затем уничтожен.
После этого информация была разбита на три набора данных. Первый набор данных показывал, какие базовые станции коммуницировали друг с другом в определенное время. Эти данные могли бы выглядеть так:
В этом придуманном примере каждая ячейка показывает число звонков между двумя станциями в промежуток между 1 и 2 часами дня 8 января.
Поскольку в Сенегале 1,606 базовых станций оператора Orange, то настоящий набор данных имел бы 1,606 строк и столбцов для каждого часа этого года.
Кроме того, для удаленных станций с небольшим количеством звонков настоящая цифра была заменена другой случайной цифрой. В приведенном примере 4 звонка между станцией 3 и 4 были бы заменены другим числом меньше 10.
Для чего нужно это делать? Orange объясняет это так:
«Если в 3 утра в национальном парке был сделан только один звонок, то очень велика вероятность того, что этот звонок был сделан охранником парка».
Другими словами, данные легко можно деанонимизировать на основании той информации, которая является внешней по отношению к набору данных, и это тоже необходимо учитывать для того, чтобы защитить личную информацию пользователей.
Второй и третий наборы данных показывали, как люди перемещаются в Сенегале, при этом, чтобы обеспечить приватность данных пользователей, Orange внес незначительные изменения в данные, например, немного изменил расположение станции или время звонка.
Только после всего этого данные были опубликованы и доступны для исследователей и участников программы, которые на их основании представили свои проекты по улучшению региона.
В результате команда-победитель показала, как мобильные данные могут быть использованы для планирования электроэнергетической инфраструктуры – исследователи нашли корреляцию между использованием мобильного телефона и использованием энергии, а данные о перемещении населения помогают определять не только текущие, но и будущие потребности в энергии и планировать инфраструктуру соответственно.
Другие проекты конкурса затрагивали такие темы, как измерение социального неравенства и лучшее понимание паттернов перемещения жителей Сенегала. В конкурсе участвовали мета-проекты, рассматривающие вопросы анонимности данных, а также был один проект, авторы которого смоделировали распространение лихорадки Эбола в Сенегале при помощи данных мобильных телефонов.
Изображение: Richard Bartz.