Перейти к основному содержимому

История проекта Ruarxive

Хронология развития проекта по сохранению цифрового наследия России с 2016 года по настоящее время.

2016: Начало работы

Май 2016: Первые архивы правоохранительных органов

Событие: Архивация сайтов упраздняемых агентств (ФСКН, Росфиннадзор, ФМС)

Результаты:

Проблема: Сайт ФМС исчез, заменён заглушкой с перенаправлением на МВД. Все архивы с отчетами просто исчезли.

Июнь 2016: Статистика потерь ФСКН

Событие: Анализ доступности сайтов ФСКН после присоединения к МВД

Статистика:

  • Из 19 официальных сайтов территориальных управлений ФСКН в ЦФО недоступно уже 10 (на 2016-06-01)
  • Сайты "оперативно выпиливают из интернета" после реорганизации

Вывод:

"Хуже чем с силовиками ситуация обстоит только с банками. После отзыва лицензии сайт банка живет только пару часов."

Ноябрь 2016: Проблема миграций платформ

Событие: Обсуждение инициативы по унификации сайтов госорганов

Проблема:

"За те несколько лет что я архивирую сайты госорганов я могу сказать что потеряно уже больше чем удалось сохранить."

Наблюдение: При миграции на новые/единые платформы теряются огромные объемы информации.

2017: Развитие проекта

Январь 2017: "Архивация государства"

Событие: Публикация о проекте "Архивация государства"

Результаты проекта:

  • Собрано несколько терабайт данных в сжатом виде
  • Десятки-сотен терабайт в распакованном виде
  • Архивированы госсайты, находящиеся в зоне риска

Вызовы:

  • Сложно привлечь средства
  • Очень немного волонтёров
  • Недостаточно времени на проект

Международный контекст: Упоминание проектов "End of Term Presidential Harvest 2016" и DataRefuge как примеров международного опыта.

2018-2021: Расширение деятельности

Развитие инструментов

  • Создание специализированных инструментов для архивации
  • Разработка автоматизированных решений
  • Улучшение процессов архивации

Расширение охвата

  • Архивация социальных сетей
  • Сохранение медиа-контента
  • Работа с различными типами данных

2022: Масштабные проекты

Март 2022: Архивация Эха Москвы

Событие: Массовая архивация ресурсов Эха Москвы после закрытия

Результаты:

  • Сайт: ~176 GB (173 GB в WARC формате)
  • Telegram: 18 GB (более 50 тысяч заметок)
  • ВКонтакте: 134 MB (более 99 тысяч заметок)
  • Аудио: 7364 mp3 файла подкастов

Масштаб: Один из крупнейших проектов архивации в истории Ruarxive.

Архивация государственных Instagram

Событие: Сохранение данных 171 аккаунта официальных лиц и политиков РФ из Instagram

Результаты:

  • Архив объемом 1.4 GB
  • Сохранены все сообщения и метаданные
  • Код архивации выложен в открытый доступ

2023-2025: Современное состояние

Текущие показатели

  • 500+ проектов заархивировано
  • 50+ ТБ архивов накоплено
  • 15+ инструментов с открытым кодом

Развитие инструментов

Собственные инструменты Ruarxive:

  • tgarc: Потоковая архивация Telegram каналов
  • wparc: Архивация WordPress сайтов через API
  • ydiskarc: Скачивание публичных папок Яндекс.Диска

Документированные инструменты:

  • Wget, HTTrack, Wpull для архивации сайтов
  • Archive.ph для быстрого сохранения страниц
  • Browsertrix для сложных JavaScript-сайтов

Структура проекта

Разделы документации:

  • Инструменты и руководства
  • Кейсы и истории
  • Вызовы и решения
  • Проекты и статистика

Ключевые вехи

Технические достижения

  1. 2016: Начало систематической архивации госсайтов
  2. 2017: Осознание масштаба проблемы ("потеряно больше, чем сохранено")
  3. 2022: Масштабные проекты (Эхо Москвы)
  4. 2023-2025: Развитие инструментов и экосистемы

Организационные достижения

  1. 2016: Создание групп данных на хабе открытых данных
  2. 2017: Формулирование концепции "Архивация государства"
  3. 2022: Мобилизация сообщества для крупных проектов
  4. 2023-2025: Структурирование документации и процессов

Вызовы на протяжении истории

Постоянные проблемы

  1. Финансирование: Сложно привлечь средства
  2. Волонтёры: Очень немного людей готовы помочь
  3. Время: Недостаточно времени на проект
  4. Масштаб: Потеряно больше, чем удалось сохранить

Технические вызовы

  1. Объёмы данных: Терабайты архивов требуют управления
  2. Интерфейсы: Необходимость создания удобных интерфейсов
  3. Инструменты: Разработка и поддержка инструментов
  4. Форматы: Работа с различными форматами данных

Уроки истории

Что работает

  1. Систематический подход: Регулярная архивация даёт результаты
  2. Открытый код: Публикация инструментов привлекает сообщество
  3. Документация: Хорошая документация упрощает участие
  4. Координация: Организованная работа эффективнее

Что не работает

  1. Случайная архивация: Нужна систематическая работа
  2. Изоляция: Без сообщества проект не может масштабироваться
  3. Отсутствие планирования: Нужна стратегия и приоритеты
  4. Недостаток ресурсов: Требуется больше поддержки

Будущее проекта

Планы развития

  1. Расширение охвата: Больше проектов, больше типов данных
  2. Улучшение инструментов: Автоматизация, оптимизация
  3. Развитие сообщества: Привлечение большего числа волонтёров
  4. Политическая работа: Продвижение темы на государственном уровне

Долгосрочные цели

  1. Государственная поддержка: Разработка политики архивации
  2. Масштабирование: Обработка ещё больших объёмов данных
  3. Доступность: Улучшение доступа к архивам
  4. Сохранность: Обеспечение долгосрочного хранения

Выводы

История проекта Ruarxive показывает:

  1. Важность работы: Проблема потери цифрового наследия критична
  2. Масштаб вызовов: Требуется много усилий и ресурсов
  3. Прогресс: Проект развивается и растёт
  4. Необходимость продолжения: Работа должна продолжаться

Связанные материалы