Перейти к основному содержимому

Сравнения и лучшие практики

Сравнение подходов к сохранению цифрового наследия в разных странах и лучшие практики.

Международные сравнения

Государственная поддержка

Россия

  • Отсутствие государственной политики по архивации цифровых материалов
  • Нет обязательных требований к архивации
  • Нет координации между ведомствами
  • Нет выделения ресурсов

"В России, есть много областей в которых есть просто нулевая активность государства: архивация цифровых материалов"

США

  • Библиотека Конгресса ведёт архивацию веб-сайтов
  • Проекты типа "End of Term Presidential Harvest"
  • Координация между организациями
  • Выделение ресурсов

Великобритания

  • Национальная библиотека архивирует цифровые материалы
  • Единая платформа Gov.UK с сохранением архивов
  • Систематический подход
  • Государственная поддержка

Открытый исходный код

Россия

  • Ограниченное использование открытого кода в госструктурах
  • Нет системной поддержки

Международный опыт

"В десятках стран сотни госструктур раскрывают свой исходный код и ведут открытую разработку."

Сравнение подходов к архивации

Проактивная vs Реактивная архивация

Проактивная (рекомендуется)

  • Архивация до исчезновения
  • Полнота данных
  • Меньше проблем
  • Лучшее качество

Примеры: End of Term Presidential Harvest, плановые архивы

Реактивная (проблематично)

  • Попытки архивировать после исчезновения
  • Часто безуспешны
  • Неполные данные
  • Больше проблем

Примеры: Попытки восстановить исчезнувшие сайты

Единые платформы

Положительные примеры

Великобритания: Gov.UK

  • Единая платформа для всех официальных сайтов
  • Сохранение архивов при миграции
  • Доступ к историческим данным

США

  • Единые стандарты представления информации
  • Стандарты доступности
  • Требования к структуре

Проблемы

Россия

"При миграции на новые/единые платформы теряются огромные объемы информации. За те несколько лет что я архивирую сайты госорганов я могу сказать что потеряно уже больше чем удалось сохранить."

  • Потеря данных при миграции
  • Отсутствие архивации
  • Уничтожение старых версий

Лучшие практики

Планирование

  1. Заблаговременная подготовка

    • Планирование архивации заранее
    • Координация между организациями
    • Выделение ресурсов
  2. Приоритизация

    • Фокус на критически важных ресурсах
    • Определение приоритетов
    • Эффективное использование ресурсов

Координация

  1. Между организациями

    • Координация между библиотеками, архивами, университетами
    • Обмен опытом
    • Совместные проекты
  2. С сообществом

    • Привлечение волонтёров
    • Инструменты номинации
    • Открытый код

Технические подходы

  1. Стандартные форматы

    • WARC для веб-архивов
    • CDX для индексации
    • Метаданные
  2. Автоматизация

    • Автоматизированные инструменты
    • Скрипты для массовой обработки
    • Мониторинг изменений
  3. Хранение

    • Облачное хранение
    • Резервное копирование
    • Географическое распределение

Сравнение по типам ресурсов

Веб-сайты

Полная архивация (Ruarxive)

  • Полный слепок всего, что есть на сайте
  • Сохранение всех форматов
  • Медиа-файлы

Частичная архивация (Internet Archive)

  • Основные веб-страницы
  • Ограниченное сохранение медиа
  • По критериям цитируемости

Социальные сети

Telegram

  • Полная архивация каналов и чатов
  • Сохранение медиа
  • Метаданные

Instagram

  • Сообщения и метаданные
  • Ограниченное сохранение медиа
  • API ограничения

Рекомендации для России

На уровне государства

  1. Разработать политику архивации

    • Обязательные требования
    • Стандарты архивации
    • Координационный орган
  2. Выделить ресурсы

    • Финансирование программ
    • Создание инфраструктуры
    • Подготовка специалистов
  3. Обеспечить координацию

    • Координация между ведомствами
    • Единая система
    • Обмен опытом

На уровне гражданского общества

  1. Продвижение темы

    • Информирование о проблеме
    • Лоббирование изменений
    • Привлечение внимания
  2. Практическая работа

    • Архивация критически важных ресурсов
    • Создание инструментов
    • Обучение сообщества
  3. Документирование

    • Фиксация потерь данных
    • Создание примеров
    • Демонстрация важности

Выводы

  1. Международный опыт важен: Можно учиться на успешных проектах других стран
  2. Адаптация необходима: Нужно адаптировать подходы к российскому контексту
  3. Государственная поддержка критична: Без неё проблема не решается полностью
  4. Сообщество важно: Без участия сообщества не справиться

Сравнение инструментов архивации

Классические кроулеры

ИнструментJavaScriptРаспределённостьСложностьФормат вывода
WgetНетНетНизкаяФайлы
WpullОграниченнаяНетСредняяФайлы
HeritrixНетДаВысокаяWARC
grab-siteНетНетСредняяWARC

Браузерные кроулеры

ИнструментРаспределённостьВеб-интерфейсФормат выводаРекомендация
BrowsertrixНетДа (Cloud)WARC/WACZДля большинства случаев
BrozzlerДаНетWARCДля больших проектов
SquidwarcНетНетWARCДля интерактивных сайтов

Инструменты воспроизведения

ИнструментЯзыкРаспределённостьОсобенности
OpenWaybackJavaНетКлассический Wayback Machine
PYWBPythonНетСовременная реализация
ReplayWeb.pageJavaScriptНетБраузерный, не требует сервера
ipwbPythonДа (IPFS)Распределённое хранение

NDSA Levels of Digital Preservation

NDSA Levels of Digital Preservation — модель оценки уровня цифрового сохранения.

Уровни

  1. Protect Your Data — базовая защита данных
  2. Know Your Data — понимание данных
  3. Monitor Your Data — мониторинг данных
  4. Repair Your Data — восстановление данных

Применение

Используйте уровни для:

  • Оценки текущего состояния архивации
  • Планирования улучшений
  • Демонстрации прогресса
  • Сравнения с другими организациями

Сравнение форматов хранения

WARC vs WACZ vs Файлы

ФорматРазмерИндексацияПросмотрРекомендация
WARCБольшойТребуется CDXТребуется серверДля долгосрочного хранения
WACZСреднийВстроеннаяБраузерныйДля распространения
ФайлыЗависитНетПрямой доступДля простых случаев

Преимущества WARC

  • Стандартный формат (ISO 28500)
  • Широко поддерживается
  • Подходит для долгосрочного хранения
  • Сохранение метаданных

Преимущества WACZ

  • Удобство использования
  • Встроенные индексы
  • Браузерный просмотр
  • Метаданные коллекции

Когда использовать файлы

  • Простые статические сайты
  • Небольшие архивы
  • Быстрый доступ без инструментов

Связанные материалы