Консервированное государство/ Preserved government
В России архивация официальных веб-ресурсов, социальных сетей и иных материалов полностью отсутствует. Со стороны государства нет требований к обязательному долгосрочному сохранению информации, поэтому не остается другого способа сохранять информацию кроме того, как делать это самостоятельно.
Мы ведем регулярную архивацию официальных материалов органов государственной власти, персон, политических партий, по следующим направлениям:
- официальные аккаунты в социальных сетях;
- официальные сайты;
- исторические данные — ключевые исторические документы и базы данных.
Что уже есть
Списки аккаунтов в социальных сетях:
- Сохранены данные 171 аккаунта официальных лиц и политиков РФ из Instagram. Код архивации и список аккаунтов выложены в репозитории на Github, а итоговые данные собраны в архиве объемом в 1.4 GB.
Успешно сохранены все сообщения и метаданные, в ограниченном режиме — изображения и видео. Если вы готовы выступить волонтером, чтобы дополнительно собрать и архивировать медиа-контент, ознакомьтесь с Задачей №6.
За помощь в составлении списка аккаунтов благодарим коллег из «Трансперенси Интернешнл — Россия».
Список официальных твиттер аккаунтов: https://docs.google.com/spreadsheet/ccc?key=0AphaFpvgzsyhdEs4U2d5RHh0eFN0UFRCR2xJbkZ0OVE&usp=sharing
Текущий список каналов на Youtube: https://docs.google.com/spreadsheet/ccc?key=0AphaFpvgzsyhdHNEemRWQS1jckJEdEphSnk0a3ZEbGc&usp=sharing
База данных «Архивы государственных твиттеров»: http://hubofdata.ru/dataset/govtwitters-archives
Группа массивов данных «Архивы государственных микроблогов»: http://hubofdata.ru/group/govtwitters
Старые версии официальных сайтов
Многие из государственных сайтов регулярно уничтожаются органами власти при закрытии или по окончанию финансирования, при замене движка сайта или при очередной реформе госорганов. Мы архивируем старые версии сайтов до их уничтожения и оставляем в виде Httrack-архивов для общего доступа.
Совокупный объём архивов 88 сайтов составляет 22 ГБ в запакованном виде и до 300 ГБ в распакованном.
- Список собранных архивов: https://docs.google.com/spreadsheet/ccc?key=0AphaFpvgzsyhdDJlczBoc095QmdLV25pY2NtSFRDaFE&usp=sharing
- 1940 наборов данных в Хабе открытых данных в разделе «Архивы сайтов»: https://hubofdata.ru/dataset/?__no_cache__=True&groups=webarchive
Некоторые ресурсы плохо подходят для архивации, например они неудобны в использовании,поэтому мы архивируем их, преобразуя в базы данных. Таким образом уже архивированы:
- Блог Дмитрия Медведева (http://blog.kremlin.ru). Все данные собраны в базу данных, пригодную для анализа и обработки: http://hubofdata.ru/dataset/blog-medvedev.
- База голосований депутатов Государственной Думы. Все данные собраны в базу данных, пригодную для анализа и обработки: http://hubofdata.ru/dataset/duma-votes.