Статистика проекта Ruarxive
Статистика и показатели работы проекта по сохранению цифрового наследия России.
Общие показатели
Масштаб работы
- 500+ проектов заархивировано
- 50+ ТБ архивов накоплено
- 15+ инструментов с открытым кодом
Объёмы данных
- Несколько терабайт данных в сжатом виде
- Десятки-сотен терабайт в распакованном виде
Статистика по типам архивов
Государственные сайты
- 88 сайтов заархивировано
- 22 ГБ в запакованном виде
- До 300 ГБ в распакованном виде
- 1940 наборов данных в Хабе открытых данных
Социальные сети
Instagram
- 171 аккаунт официальных лиц и политиков РФ
- 1.4 GB архив
- Сохранены все сообщения и метаданные
- В ограниченном режиме — изображения и видео
Telegram
- Эхо Москвы: 18 GB (более 50 тысяч заметок)
- Множество других каналов
ВКонтакте
- Эхо Москвы: 134 MB (более 99 тысяч заметок)
Крупные проекты
Эхо Москвы (март 2022)
- Сайт: ~176 GB (173 GB в WARC формате)
- Telegram: 18 GB
- ВКонтакте: 134 MB
- Аудио: 7364 mp3 файла подкастов
- Всего: ~194 GB
Статистика потерь
Государственные органы
ФСКН (2016)
- 19 сайтов территориальных управлений в ЦФО
- 10 сайтов стали недоступны в течение 5 месяцев после присоединения к МВД
- 53% сайтов потеряно
ФМС (2016)
- Сайт исчез при упразднении службы
- Все архивы с отчетами потеряны
Банки
- Сайты исчезают в течение часов после отзыва лицензии
- Иногда исчезают моментально
Общая оценка
"Потеряно уже больше, чем удалось сохранить."
Хронология роста
2016
- Начало систематической архивации госсайтов
- Создание группы данных "Архивы сайтов правоохранительных органов России"
- Архивированы первые 4 сайта правоохранительных органов
2017
- Проект "Архивация государства": несколько терабайт данных
- Осознание масштаба проблемы
2022
- Масштабные проекты (Эхо Москвы)
- Архивация 171 аккаунта Instagram
2023-2025
- 500+ проектов заархивировано
- 50+ ТБ архивов
- 15+ инструментов разработано
Инструменты
Собственные инструменты Ruarxive
- tgarc: Потоковая архивация Telegram каналов
- wparc: Архивация WordPress сайтов через API
- ydiskarc: Скачивание публичных папок Яндекс.Диска
Документированные инструменты
- Wget, HTTrack, Wpull для архивации сайтов
- Archive.ph для быстрого сохранения страниц
- Browsertrix для сложных JavaScript-сайтов
- И многие другие
Форматы архивов
WARC
- Стандартный формат для веб-архивов
- Хорошее сжатие
- Широко поддерживается
Другие форматы
- HTTrack архивы
- ZIP архивы
- Базы данных (для преобразованных ресурсов)
География
Россия
- Федеральные органы власти
- Региональные органы власти
- Муниципальные органы власти
- Общественные организации
- Медиа-ресурсы