Internet Archive. Как использовать самую крупную библиотеку Сети, которая помнит все

Некоммерческий проект Internet Archive появился в 1996 году как идея американского программиста и предпринимателя Брюстера Кейла — собирать и хранить цифровое наследие Интернета. Книги, лекции, кинофильмы, компьютерные игры, веб-сайты. Буквально все.

Краткая история Internet Archive

Проект не был похож на голливудскую американскую мечту типа «талантливые юнцы с горящими глазами с помощью Бога и напильника творят будущее в дядином гараже». Выпускник MIT Брюстер Кейл подошел к задаче основательно. Первую половину 90-х он потратил на разработку и раскрутку сетевой поисковой системы WAIS. Это был прообраз современных поисковиков вроде Google. В 1996 году Кейл продал WAIS America Online (будущей AOL) и часть прибыли вложил в новый проект Internet Archive.

Сейчас это звучит, как шутка, но в первой версии «архива Интернета» информацию хранили на магнитных лентах. Это было самое дешевое решение для больших объемов данных. Но проект быстро развивался, и в 1998-1999 годах Кейл уже сотрудничал с Microsoft и Netscape Corporation, чей Netscape Navigator был самым популярным браузером в мире. Вскоре Internet Archive перешел с ленты на жесткие диски. В 2001 году появился сервис Wayback Machine для публичного доступа к сохраненным копиям веб-страниц. В 2004 году Internet Archive обзавелся передовыми RAID-хранилищами Petabox. Серверы проекта появились в Амстердаме и Александрии (Египет).

В 2006 году Internet Archive открыл виртуальную библиотеку Open Library. Проект получил официальный статус библиотеки по законодательству штата Калифорния. На май 2022 года в Open Library было собрано более 35 миллионов книг и прочих текстов. Читатели могут получить материалы по принципу «контролируемой цифровой выдачи». Виртуальная библиотека ведет себя, как обычная библиотека в реальном мире. Книги выдаются по запросу на ограниченное время — до двух недель. У каждой книги есть определенное число копий. Если все копии «на руках», пользователь попадает в список ожидания. Впрочем, «контролируемая цифровая выдача» не служит для Open Library стопроцентной защитой от атак поборников копирайта.

Основной канал пополнения библиотеки — пожертвования, в том числе от офлайновых библиотек. Пользователь может предложить и свой материал.

Как читать книги в цифровой библиотеке

Виртуальная библиотека находится по адресу: openlibrary.org. Без регистрации вы сможете разве что просматривать обложки и аннотации книг. Поэтому лучше завести бесплатный аккаунт, понадобится только email. Впоследствии можно сменить имя, пароль и некоторые другие настройки. Двухфакторной аутентификации, к сожалению, нет.

Можно просто бродить по библиотеке, но лучше воспользоваться поиском. В Open Library быстро понимаешь, что изданий на русском языке сравнительно мало, а отыскать их бывает нелегко, поэтому библиотека скорее доставит удовольствие тем, кто читает по-английски. Классика находится в свободном доступе. Это преимущественно старые книги, которых уже не оберегают издатели, авторы и их наследники. У таких книг есть кнопка «Читать» («Read»). Щелкните — и книга откроется прямо в браузере (формат BookReader). Перелистывание пожелтевших страниц «Собаки Баскервилей» лондонского издания 1902 года и впрямь напомнило общение с реальной книгой. Можно послушать, как ее читает цифровой голос. Интонации и паузы сбиваются, да и как можно передать атмосферу викторианской Англии на современном американском английском, хоть бы и в трех вариантах? Книги можно скачивать в форматах ePub, MOBI, PDF, в виде обычного текста и в специальном формате DAISY для людей с ослабленным зрением.

«Собака Баскервилей», издание 1902 года в библиотеке Internet Archive. Скриншот.

Большинство изданий доступно по кнопке «Borrow» (на русский она почему-то переведена как «Занять»). По умолчанию книга открывается на час. Этого достаточно, чтобы пробежаться по тексту глазами и понять, правильный ли выбор вы сделали. Если хотите, можете «взять почитать» книгу на 14 дней. Вернуть книгу в библиотеку можно в любой момент, щелкнув по кнопке «Return now».

Изображения, аудио и видео

Internet Archive содержит огромную коллекцию изображений — более 4,3 млн. Что вы ищете? Вот яркие, жизнерадостные фотографии птиц, а вот космические снимки супертелескопа «Хаббл» или коллекция полотен основоположника немецкого романтизма Каспара Давида Фридриха.

Аудиораздел тоже велик, и это не только музыка (привет борцу с пиратами Ларсу Ульриху), но и аудиокниги, лекции, подкасты. Для интересующихся историей — полная версия вдохновляющей речи Уинстона Черчилля 4 июня 1940 года в Палате общин британского парламента («Мы будем сражаться на побережьях…»).

В разделе видео более 8 миллионов сюжетов — от кота Гарфилда до «Ночи живых мертвецов» 1968 года и передач Russia Today.

Для настоящих ценителей ретро предусмотрен раздел «Sotware». Где еще усталый отец семейства может вернуться в детство среди героев Doom, Duke Nukem и Wolfenstein 3D? Немало здесь и «винтажного» программного обеспечения. Одна из коллекций так и называется — «Старые добрые деньки». Microsoft Windows 3.11, Norton Commander, Borland C++…

Что под капотом у Wayback Machine

Особый интерес представляет интерфейс поиска по сохраненным копиям веб-сайтов. Wayback Machine можно условно перевести как «Машина времени», хотя перемещается эта машина только в прошлое. По состоянию на июль 2022 года в архиве Wayback Machine находилось более 700 млрд веб-страниц.

Такой внушительный массив данных накапливался не один год. Для скачивания страниц Wayback Machine использует поисковых роботов. Иногда их называют веб-краулерами (от английского «to crawl», ползать). Робот посещает сайт, обходит его страницу за страницей по гиперссылкам и скачивает материалы для архива. Правда, на запароленную страницу робот зайти не может. Изначально создатели Wayback Machine предусматривали, что робот будет делать «снимок» каждого сайта раз в два месяца. Сейчас алгоритм более сложный и зависит от сайта. Раскрученным и активно обновляемым ресурсам отдается предпочтение. В день робот может сделать несколько «снимков» одного сайта. К примеру, сайт итальянской газеты Corriere della Serra существует 24 года. За это время роботы посещали его примерно 62 000 раз.

Пользоваться Wayback Machine очень просто. Зайдите на сайт https://web.archive.org/. В небольшом окне укажите адрес (URL) интересующего вас ресурса без префиксов — просто yourdomain.org. Если сайт есть в архиве, вы увидите календарь. В нем подсвечены дни, когда сервис Wayback Machine делал свой снимок. Щелкните по нужной дате, чтобы увидеть сохраненную копию сайта.

База IMDB образца 2002 года — База кинофильмов IMDB 2002 года. «Братство кольца» снова доступно на VHS! Скриншот.

Нельзя сказать, чтобы Wayback Machine всегда и стопроцентно работал на совесть. Бывает, что робот посещает не все страницы. Сталкиваясь с непонятными для него скриптами, он не скачивает разные графические элементы, и тогда копия сайта выглядит неполной и поврежденной, а переходы по гиперссылкам могут не работать.

Владелец сайта может не только добавить свой ресурс в архив Wayback Machine, но и удалить его. Это делается по запросу. Если владелец сайта вообще не хочет, чтобы Wayback Machine индексировал его ресурс, он может отредактировать текстовый файл robots.txt в главной папке сайта. Тогда роботы Wayback Machine будут обходить сайт стороной.

Пример удачного сотрудничества разработчиков — применение Wayback Machine в браузере Brave. Когда пользователь попадает на страницу сайта, которой фактически нет, Brave предлагает посмотреть, есть ли сохраненная копия на archive.org.

Социальная роль Wayback Machine

Материалы Wayback Machine используются юристами разных стран в качестве доказательств. Примерами могут служить споры об авторском праве, когда нужно установить время появления на сайте того или иного материала. Бывали и другие задачи, например, в одном судебном процессе требовалось доказать, что цена на лекарство на сайте изменилась. В целом, о применении цифровых архивов в юриспруденции можно прочесть в этом материале.

Сначала суды на родине Wayback Machine, в Соединенных Штатах, были настроены консервативно. Так, в 1999 году техасский судья в деле St. Clair v. Johnny’s Oyster & Shrimp, Inc. назвал доказательства из Интернета «информацией вуду» и оценил их как ничтожные. По мнению судьи, раз информация в сети постоянно меняется, а хакеры способны изменить любую страницу в сети из любой точки мира, на такие данные нельзя ссылаться в судебном процессе. Однако со временем отношение изменилось. В 2016-2020 годах несколько судов США вынесли решения о допустимости использования материалов Wayback Machinе как доказательства.

Журналисты активно используют Wayback Machine в расследованиях. Пример такой задачи — разоблачить политика или коммерсанта, который удалил важную информацию со своего сайта и делает вид, что «так и было». Цифровой архив — очевидная проблема для любителей что-нибудь подправить задним числом. Один из ярких примеров: публикация 2014 года «ВКонтакте» от имени лидера незаконных вооруженных формирований Игоря Гиркина. В ней сообщалось, что 17 июля 2014 года в районе города Торез Донецкой области «ополченцами» был сбит украинский грузовой самолет АН-26. Позже выяснилось, что сбили Boeing-777, рейс MH-17 из Амстердама в Куала-Лумпур с 298 пассажирами на борту. Автор поторопился стереть оригинальное сообщение, но Internet Archive уже все запомнил.

Global Investigative Journalism Network предлагает советы журналистам по использованию Wayback Machine, а о том, как использовать Wayback Machine в маркетинге, рассказано здесь.

Дополнительные возможности Wayback Machine

С помощью опции «Changes» можно выбрать снимки сайта за две разные даты и сравнить их на экране компьютера. Wayback Machine старается подсветить удаленные и добавленные фрагменты. Функция полезна, если вы хотите обнаружить различия между ранними и поздними версиями одной и той же страницы. «Changes» имеет смысл использовать на более-менее статичных страницах. Там, где по смыслу содержание часто обновляется, например, в новостной ленте, эта опция будет бесполезна.

Опция «Collections» показывает распределение собранных «снимков сайта» по группам. Это отчасти объясняет, почему одна страница сайта проиндексирована, а другая нет.

В разделе «Summary» можно наблюдать подробную статистику по сохраненным элементам в рамках одного домена.

«Site Map» — карта сайта. На интерактивных радиальных диаграммах Wayback Machine показывает, как был структурирован конкретный сайт в разные годы.

«URLs» — список «связанных» адресов. Укажите «youdomain.org», и Wayback Machine покажет, какие страницы, включающие «yourdomain.org», были проиндексированы.

Для Chrome и Mozilla Firefox доступно симпатичное и компактное браузерное расширение Wayback Machine. С его помощью можно воспользоваться любой из перечисленных опций, а также посмотреть самую старую и самую свежую сохраненные копии страницы или узнать, кто и сколько раз ссылался на эту страницу в Twitter.

ОВД-Инфо, карта сайта — Карта сайта «ОВД-Инфо». Скриншот.

Wayback Machine и фейки

С помощью «машины времени» можно доказать, что тот или иной сайт действительно распространял заведомо ложную информацию, даже если владелец сайта все подчистил. Wayback Machine иллюстрирует присказку «в Интернете ничего нельзя удалить просто так».

Весной того же 2014 года провластные российские СМИ опубликовали сообщение, что украинские министерства и ведомства спешно удаляют русскоязычные версии своих сайтов. Статья не была подписана. Авторы ссылались на неназванный источник, близкий к властям Украины. Разоблачители фейков использовали Wayback Machine, чтобы доказать отсутствие недавних радикальных изменений на украинских сайтах. По их данным, некоторые из перечисленных сайтов вообще не имели русскоязычных версий.

Wayback Machine не был спроектирован как фактчекинговая платформа. Поэтому в архив наряду с прочим попадали и фейки. Особенно это стало заметно в период пандемии. Правительства разных стран боролись с конспирологическими материалами и критикой вакцинации, однако удаленные материалы снова и снова обнаруживались в интернет-архиве. Дело дошло до того, что администрация Internet Archive сама втянулась в борьбу с «коронафейками».

Давление на «Архив Интернета» в России

В Российской Федерации Internet Archive подвергается давлению с 2014 года. К обвинениям в нарушении авторских прав (их предъявляют и в других странах) добавились требования цензоров. Первые разногласия между библиотекой и цензурой возникли в 2014-2015 годах. Тогда archive.org был впервые заблокирован за материалы об ИГИЛ, запрещенной в РФ террористической организации. Администрация Internet Archive добросовестно старается выполнять требования Роскомнадзора и удаляет запрещенные материалы. Несмотря на это, 28 июня 2022 года Internet Archive все-таки был оштрафован мировым судьей в Москве на 800 000 рублей за ролик о способе изготовления «Коктейля Молотова» и экстремистские материалы по ч. 2 ст. 13.41 КоАП РФ. Екатерина Абашина («Роскомсвобода»), которая представляла в суде интересы Internet Archive, подчеркивала важность ее миссии и благосклонную реакцию библиотеки на все претензии российских властей. В ответ на это судья Тимур Вахрамеев сказал: «Никто не сомневается, что они молодцы. И Wikipedia молодцы. Но у нас вот так».

Последние месяцы показали: аргумент «у нас вот так» распространяется не только на цифровое наследие. В июле 2022 года «Роскомсвобода» писала, что после начала военных действий в Украине российские власти заблокировали более 5300 сайтов. Большинство этих ресурсов, скорее всего, было проиндексировано Wayback Machine. Скорее всего, библиотеку ждут новые штрафы и другие формы преследования.

Выживет ли Internet Archive?

Сейчас объем хранилища библиотеки составляет почти 100 петабайт данных (51,200 не самых емких жестких дисков по 2 терабайта). Расходы на поддержание включают не только покупку носителей данных, но и их работу в серверах, зарплату техническому персоналу, сканирование книг. При этом архив не взимает плату с пользователей, не торгует их данными и не крутит рекламу. Как и в 1996 году, Internet Archive — некоммерческая организация. Она существует во многом благодаря пожертвованиям организаций и частных лиц. Не менее дюжины фондов продолжают оказывать поддержку.

Возможный недостаток денег преодолеть легче, чем «балканизацию Интернета»: правительства стран вроде Ирана, Китая, России борются с проектами наподобие Internet Archive и Wayback Machine. Голоса просветителей, обращенные к читателям, не слышны в пыльных кабинетах авторитарных режимов.

Но если что и способно похоронить достижения энтузиастов цифрового наследия, то это копирайт. Как сказал американский ученый-компьютерщик Майкл Леск о библиотечных изданиях: «Меня пугает ХХ век. Копирайт уже не ограничивает публикации XIX века, а в XXI веке все и так перешли на цифру. Но XX век под угрозой из-за правообладателей».

В эти дни в нью-йоркском суде слушают дело четырех издателей против Internet Archive. В 2020 году Internet Archive на волне пандемии Covid-19 облегчил доступ пользователей к цифровым книгам. Проект получил название National Emergency Library, а когда пандемия пошла на спад, закрылся. Издатели не оценили гуманитарный характер акции Internet Archive и обратились с иском в суд. Hachette Book Group, HarperCollins Publishers, John Wiley & Sons и Penguin Random House заявили, что действия Internet Archive привели к многомиллионным убыткам и стали угрозой для их бизнеса. Правозащитники, разумеется, с этим не согласны. Американская организация сторонников цифровых прав и свобод Electronic Frontier Foundation намерена доказать в суде, что система выдачи книг Internet Archive соответствует практике обычных библиотек и не вредит издателям, а миссия — помогает обществу. Пожелаем им удачи.