WARC
Формат архива Web ARChive (WARC) определяет метод объединения нескольких цифровых ресурсов в совокупный архивный файл вместе с сопутствующей информацией.
Формат WARC является пересмотром формата ARC_IA File Format архива интернета (Archive.org), который традиционно использовался для хранения данных, собранных веб-краулерами (web crawler).
Международный стандарт определяет формат файла WARC:
- для хранения содержимого и управляющей информации из основных протоколов прикладного уровня интернета, таких как HTTP, DNS и FTP;
- для хранения метаданных, связанных с другими хранимыми данными (например, предметный классификатор, обнаруженный язык, кодировка);
- поддерживать сжатие данных и сохранять целостность записей данных;
- хранить всю управляющую информацию протокола сбора данных (наприм ер, заголовки запросов), а не только информацию об ответах;
- хранить результаты преобразования данных, связанные с другими хранимыми данными;
- хранить событие обнаружения дубликатов, связанное с другими хранимыми данными (для уменьшения объема хранения при наличии идентичных или по существу аналогичных ресурсов).
Стандарт WARC
WARC формализован как ISO 28500 стандарт. Текущая версия спецификации — WARC 1.1, которая поддерживается сообществом через warc-specifications на GitHub. Это открытый процесс, где можно предложить улучшения и новые функции формата.
Версии формата
- WARC 1.0 — первоначальная версия стандарта
- WARC 1.1 — текущая версия с улучшениями и расширениями
- Спецификация доступна на warc-specifications community
CDX индексы
CDX (Capture Index) — это формат индексации для WARC файлов, который позволяет быстро находить записи в архивах без полного сканирования WARC файлов.
Связь WARC и CDX
- WARC файлы содержат сами данные (HTTP ответы, запросы, метаданные)
- CDX файлы содержат индексы для быстрого поиска записей в WARC
- CDX позволяет найти нужную запись по URL и дате без чтения всего WARC файла
Использование CDX
CDX индексы используются инструментами воспроизведения (OpenWayback, PYWB) для быстрого поиск а и отображения архивных версий страниц. Формат CDX также используется в WACZ архивах для индексации.
Подробнее о формате CDX: CDX формат
Итоговый архив файлов может достигать более сотен гигабайт, поэтому сначала он может быть запакован в формат архива GZ или ZIP. Такие архивы можно открыть любым архиватором, поддерживающим ZIP и GZ файлы.
ReplayWeb.page. Как открыть файл в формате WARC
Файлы в формате WARC можно открыть и просмотреть с помощью программы ReplayWeb.page оффлайн.