История пр оекта Ruarxive
Хронология развития проекта по сохранению цифрового наследия России с 2016 года по настоящее время.
2016: Начало работы
Май 2016: Первые архивы правоохранительных органов
Событие: Архивация сайтов упраздняемых агентств (ФСКН, Росфиннадзор, ФМС)
Результаты:
- Создана группа данных "Архивы сайтов правоохранительных органов России"
- Архивированы сайты ФМС, ФСКН, внутренних войск МВД, портала 112.ru
- Архивы доступны в формате WARC и для распаковки
Проблема: Сайт ФМС исчез, заменён заглушкой с пер енаправлением на МВД. Все архивы с отчетами просто исчезли.
Июнь 2016: Статистика потерь ФСКН
Событие: Анализ доступности сайтов ФСКН после присоединения к МВД
Статистика:
- Из 19 официальных сайтов территориальных управлений ФСКН в ЦФО недоступно уже 10 (на 2016-06-01)
- Сайты "оперативно выпиливают из интернета" после реорганизации
Вывод:
"Хуже чем с силовиками ситуация обстоит только с банками. После отзыва лицензии сайт банка живет только пару часов."
Ноябрь 2016: Проблема миграций платформ
Событие: Обсуждение инициативы по унификации сайтов госорганов
Проблема:
"За те несколько лет что я архивирую сайты госорганов я могу сказать что потеряно уже больше чем удалось сохранить."
Наблюдение: При миграции на новые/единые платформы теряются огромные объемы информации.
2017: Развитие проекта
Январь 2017: "Архивация государства"
Событие: Публикация о проекте "Архивация государства"
Результаты проекта:
- Собрано несколько терабайт данных в сжатом виде
- Десятки-сотен терабайт в распакованном виде
- Архивированы госсайты, находящиеся в зоне риска
Вызовы:
- Сложно привл ечь средства
- Очень немного волонтёров
- Недостаточно времени на проект
Международный контекст: Упоминание проектов "End of Term Presidential Harvest 2016" и DataRefuge как примеров международного опыта.
2018-2021: Расширение деятельности
Развитие инструментов
- Создание специализированных инструментов для архивации
- Разработка автоматизированных решений
- Улучшение процессов архивации
Расширение охвата
- Архивация социальных сетей
- Сох ранение медиа-контента
- Работа с различными типами данных
2022: Масштабные проекты
Март 2022: Архивация Эха Москвы
Событие: Массовая архивация ресурсов Эха Москвы после закрытия
Результаты:
- Сайт: ~176 GB (173 GB в WARC формате)
- Telegram: 18 GB (более 50 тысяч заметок)
- ВКонтакте: 134 MB (более 99 тысяч заметок)
- Аудио: 7364 mp3 файла подкастов
Масштаб: Один из крупнейших проектов архивации в истории Ruarxive.
Архивация государственных Instagram
Событие: Сохранение данных 171 аккаунта официальных лиц и политиков РФ из Instagram
Результаты:
- Архив объемом 1.4 GB
- Сохранены все сообщения и метаданные
- Код архивации выложен в открытый доступ
2023-2025: Современное состояние
Текущие показатели
- 500+ проектов заархивировано
- 50+ ТБ архивов накоплено
- 15+ инструментов с открытым кодом
Развитие инструментов
Собственные инструменты Ruarxive:
- tgarc: Потоковая архивация Telegram каналов
- wparc: Архивация WordPress сайтов через API
- ydiskarc: Скачивание публичных папок Яндекс.Диска
Документированные инструменты:
- Wget, HTTrack, Wpull для архивации сайтов
- Archive.ph для быстрого сохранения страниц
- Browsertrix для сложных JavaScript-сайтов
Структура проекта
Разделы документации:
- Инструменты и руководства
- Кейсы и истории
- Вызовы и решения
- Проекты и статистика
Ключевые вехи
Технические достижения
- 2016: Начало систематической архивации госсайтов
- 2017: Осознание масштаба проблемы ("потеряно больше, чем сохранено")
- 2022: Масштабные проекты (Эхо Москвы)
- 2023-2025: Развитие инструментов и экосистемы
Организационные достижения
- 2016: Создание групп данных на хабе открытых данных
- 2017: Формулирование концепции "Архивация государства"
- 2022: Мобилизация сообщества для крупных проектов
- 2023-2025: Структурирование документации и процессов
Вызовы на протяжении истории
Постоянные проблемы
- Финансирование: Сложно привлечь средства
- Волонтёры: Очень немного людей готовы помочь
- Время: Недостаточно времени на проект
- Масштаб: Потеряно больше, чем удалось сохранить
Технические вызовы
- Объёмы данных: Терабайты архивов требуют управления
- Интерфейсы: Необходимость создания удобных интерфейсов
- Инструменты: Разработка и поддержка инструментов
- Форматы: Работа с различными форматами данных
Уроки истории
Что работает
- Систематический подход: Регулярная архивация даёт результаты
- Открытый код: Публикация инструментов привлекает сообщество
- Документация: Хорошая документация упрощает участие
- Координация: Организованная работа эффективнее
Что не работает
- Случайная архивация: Нужна систематическая работа
- Изоляция: Без сообщества проект не может масштабироваться
- Отсутствие планирования: Нужна стратегия и приоритеты
- Недостаток ресурсов: Требуется больше поддержки