Одна из особенностей современного мира - всё большее возрастание доли материалов, создаваемых исключительно в цифровой форме. В то же время темпы долгосрочного сохранения таких материалов значительно отстают от скорости появления и уничтожения информации.

«Цифровое сохранение» — это проект по консервации и архивации ключевых цифровых ресурсов, находящихся под риском уничтожения.

Цель инициативы — поиск и сохранение веб-сайтов и иных цифровых материалов, находящихся под угрозой уничтожения.

Актуальность

На сегодняшний день в России и всём русскоязычном сегменте сети Интернет отсутствуют инициативы по долгосрочной консервации материалов, созданных только в цифровой форме. Многочисленные проекты исчезают из публичного пространства и становятся недоступными в силу различных причин.

При этом международные инициативы, такие как Archive.org, обеспечивают сохранение лишь наиболее видимых веб-сайтов и только в части наименее ресурсоёмких материалов (основных веб-страниц). В итоге многие материалы, представленные в виде PDF документов, файлов MS Office, ZIP архивов и иных форматов, теряются навсегда.

Аналогичные инициативы

В мире существует несколько десятков инициативы по цифровому сохранению главным из которых остаётся Интернет-Архив. Также существуют инициативы по созданию обязательных архивов веб-сайтов и иных цифровых объектов в национальных библиотеках большинства развитых стран мира. Общий список проектов можно увидеть по ссылкам:

Проекты

Национальный цифровой архив состоит из множества проектов связанных общей идеей архивации современного цифрового наследия.

«Консервированное государство» / Preserved government

К сожалению, в России архивация официальных веб-ресурсов, социальных сетей и иных материалов полностью отсутствует. У нас нет требований к обязательному долгосрочному сохранению информации и не остается другого способа сохранять информацию кроме как делать это самостоятельно.

Мы ведем регулярную архивацию официальных материалов, по следующим направлениям:

  • oфициальные аккаунты в социальных сетях;
  • официальные сайты органов власти, официальных лиц, политических партий;
  • исторические данные — ключевые исторические документы и, особенно, базы данных;
Архивация официальных аккаунтов в социальных сетях

Списки социальных аккаунтов

На сегодняшний день собираются данные 52 официальных твиттер-аккаунтов и публикуются здесь:

Старые версии официальных сайтов

Многие из государственных сайтов регулярно уничтожаются органами власти при закрытии или по окончанию финансирования, при замене движка сайта или при очередной реформе органов власти. Мы архивируем старые версии сайтов до их уничтожения и оставляем в виде архивов Httrack для общего доступа.

Совокупный объём архивов 88 сайтов составляет 22 гигабайта в запакованном виде и до 300 гигабайт в распакованном. Сейчас решается вопрос того, как сделать все архивы доступными для широкой публики и при этом избежать слишком больших расходов на трафик.

Список собранных архивов:

https://docs.google.com/spreadsheet/ccc?key=0AphaFpvgzsyhdDJlczBoc095QmdLV25pY2NtSFRDaFE&usp=sharing

Если какой-то из этих архивов потребуются вам срочно — напишите на [email protected] и мы перешлем ссылку, по которой его можно скачать.

Архивация специализированных ресурсов

Ряд ресурсов, неудобных для архивации в виде веб-сайтов или же теряющих при этом удобство использования, мы архивируем, преобразуя их сразу же в базы данных.

Таким образом уже архивированы:

Исторические данные

Сейчас мы собираем следующие данные:

  • бюджеты и статистические справочники СССР, РСФСР, союзных республик;
  • любые реестры, телефонные справочники и иные исторические базы данных в бумажном виде;
  • любые исторические данные в табличной форме, пригодные для преобразования в открытые данные.

В наших ближайших планах - запуск платформы сбора цифровых материалов для накопленных документов. После чего документы будут последовательно преобразовываться в базы данных и над ними будет запущено API.

Специальные архивы

Проект включает инициативы по консервации онлайн сайтов по выбранным темам: религия, история, экономика, наука и многое другое.

Данные коллекции подготавливаются в формате планов архивации и последовательно консервируются.

Текущий список тем и планов архивации:
https://drive.google.com/folderview?id=0B5haFpvgzsyhWXVXQXlhdDJtXzA&usp=sharing

TODO: Планы развития
Архивация социальных аккаунтов:
  • форма для отправки аккаунтов социальных сетей для архивации;
  • организация архивации аккаунтов Youtube (завершено за исключением архивации видео);
  • организация архивации аккаунтов Facebook;
  • организация архивации аккаунтов Vkontakte;
  • организация архивации аккаунтов Slideshare;
  • организация архивации аккаунтов Instagram и других.
  • специальный сайт и API для доступа к собранным данным.
Архивация веб-сайтов:
  • переход на Heritrix или аналогичные краулеры создающие WARC файлы;
  • создание интерфейсов просмотра архивных копий онлайн;
  • преобразование накопленных архивов HTtrack в формат WARC;
  • регулярное обновление создаваемых архивов госсайтов;
  • архивация не только старых, но и обновляемых официальных сайтов.
Специализированная архивация:
  • создание формы отправки ресурсов, наиболее важных для архивации;
  • создание специализированного API для каждого из специализированных архивов.
Похожие инициативы
  • CyberCemetery. Архивы государственных сайтов расформированных ведомств США. Поддерживается университетом Северного Техаса.
  • Pandora - Австралийский веб архив

Ресурсы