Перейти к основному содержимому

Статистика проекта Ruarxive

Статистика и показатели работы проекта по сохранению цифрового наследия России.

Общие показатели

Масштаб работы

  • 500+ проектов заархивировано
  • 50+ ТБ архивов накоплено
  • 15+ инструментов с открытым кодом

Объёмы данных

  • Несколько терабайт данных в сжатом виде
  • Десятки-сотен терабайт в распакованном виде

Статистика по типам архивов

Государственные сайты

  • 88 сайтов заархивировано
  • 22 ГБ в запакованном виде
  • До 300 ГБ в распакованном виде
  • 1940 наборов данных в Хабе открытых данных

Социальные сети

Instagram

  • 171 аккаунт официальных лиц и политиков РФ
  • 1.4 GB архив
  • Сохранены все сообщения и метаданные
  • В ограниченном режиме — изображения и видео

Telegram

  • Эхо Москвы: 18 GB (более 50 тысяч заметок)
  • Множество других каналов

ВКонтакте

  • Эхо Москвы: 134 MB (более 99 тысяч заметок)

Крупные проекты

Эхо Москвы (март 2022)

  • Сайт: ~176 GB (173 GB в WARC формате)
  • Telegram: 18 GB
  • ВКонтакте: 134 MB
  • Аудио: 7364 mp3 файла подкастов
  • Всего: ~194 GB

Статистика потерь

Государственные органы

ФСКН (2016)

  • 19 сайтов территориальных управлений в ЦФО
  • 10 сайтов стали недоступны в течение 5 месяцев после присоединения к МВД
  • 53% сайтов потеряно

ФМС (2016)

  • Сайт исчез при упразднении службы
  • Все архивы с отчетами потеряны

Банки

  • Сайты исчезают в течение часов после отзыва лицензии
  • Иногда исчезают моментально

Общая оценка

"Потеряно уже больше, чем удалось сохранить."

Хронология роста

2016

  • Начало систематической архивации госсайтов
  • Создание группы данных "Архивы сайтов правоохранительных органов России"
  • Архивированы первые 4 сайта правоохранительных органов

2017

  • Проект "Архивация государства": несколько терабайт данных
  • Осознание масштаба проблемы

2022

  • Масштабные проекты (Эхо Москвы)
  • Архивация 171 аккаунта Instagram

2023-2025

  • 500+ проектов заархивировано
  • 50+ ТБ архивов
  • 15+ инструментов разработано

Инструменты

Собственные инструменты Ruarxive

  • tgarc: Потоковая архивация Telegram каналов
  • wparc: Архивация WordPress сайтов через API
  • ydiskarc: Скачивание публичных папок Яндекс.Диска

Документированные инструменты

  • Wget, HTTrack, Wpull для архивации сайтов
  • Archive.ph для быстрого сохранения страниц
  • Browsertrix для сложных JavaScript-сайтов
  • И многие другие

Форматы архивов

WARC

  • Стандартный формат для веб-архивов
  • Хорошее сжатие
  • Широко поддерживается

Другие форматы

  • HTTrack архивы
  • ZIP архивы
  • Базы данных (для преобразованных ресурсов)

География

Россия

  • Федеральные органы власти
  • Региональные органы власти
  • Муниципальные органы власти
  • Общественные организации
  • Медиа-ресурсы

Русскоязычный сегмент

  • Сайты и ресурсы на русском языке
  • Социальные сети
  • Медиа-контент

Вызовы

Ресурсы

  • Волонтёры: Очень немного людей готовы помочь
  • Финансирование: Сложно привлечь средства
  • Время: Недостаточно времени на проект

Технические

  • Объёмы данных: Терабайты требуют управления
  • Интерфейсы: Необходимость создания удобных интерфейсов
  • Инструменты: Разработка и поддержка инструментов

Прогресс

Что достигнуто

  1. Систематическая работа: Регулярная архивация даёт результаты
  2. Инструменты: Созданы и документированы инструменты
  3. Сообщество: Развивается сообщество архивистов
  4. Документация: Создана обширная документация

Что предстоит

  1. Масштабирование: Обработка ещё больших объёмов данных
  2. Доступность: Улучшение доступа к архивам
  3. Автоматизация: Дальнейшая автоматизация процессов
  4. Политическая работа: Продвижение темы на государственном уровне

Источники данных

  • История проекта из Telegram канала
  • Статистика из архивов
  • Отчёты о работе
  • Данные из инструментов

Обновление статистики

Статистика обновляется по мере поступления новых данных. Последнее обновление: январь 2025.

Связанные материалы