Перейти к основному содержимому

DH.2. Веб-архивация

Методы и инструменты веб-архивации, форматы веб-архивов.

Презентация

Веб-архивация сейчас

Веб-архивация — часть архивации цифровых материалов (born digital).

Особенности веб-архивации

  • Охватывает не все онлайн сайты из-за изменений в технологиях
  • Социальные сети и динамические сайты выпадают из стандартной веб-архивации
  • Требует значительных технических ресурсов
  • Большие объёмы данных — от десятков терабайт до десятков петабайт
  • Кроме сайтов также архивируют документы, социальные сети, видео и аудио платформы

Инициаторы веб-архивации

  • Общественные организации
  • Госархивы и библиотеки
  • Крупные НКО и сообщества
  • Национальные архивы стран

Крупнейшие проекты по веб-архивации

Common Crawl

Сайт: commoncrawl.org

Internet Archive

Сайт: archive.org

ArchiveTeam

Сайт: archiveteam.org

Статистика архивации

  1. 25 петабайт: Интернет архив Archive.org
  2. 5 петабайт (в сжатом виде): Common Crawl
  3. 64 терабайта: Australian Web Archive (на 2015 год) в архивах Pandora и Trove
  4. 60 терабайт: Национальный цифровой архив (ruarxive.org)

Основные потребители

Исследователи

Специалисты по анализу больших данных, разработчики алгоритмов и решений big data, отраслевые исследовательские центры.

Журналисты

Дата-журналисты и журналисты-расследователи, ищущие архивные материалы.

Пользователи

Ищущие потерянные документы, материалы и иные данные.

Основные веб-стратегии

  1. Полная индексация. Симуляция поисковой системы

    • Archive.org, Common Crawl
  2. Сфокусированная непрерывная индексация

    • UK web archive, Australian web archive, Danish web archive
  3. Выборочная управляемая регулярная архивация

    • ArchiveTeam, Национальный цифровой архив, Archives Unleashed
  4. Депозитарий архивов

    • Архивы передаются владельцами цифрового ресурса

Классические проблемы веб-архивации

Большие объёмы

Собирается очень много данных, их необходимо хранить и предоставлять пользователям.

Поисковые ловушки

Например, календарь на сайте может давать бесконечное количество ссылок, их приходится ограничивать.

Динамические сайты

Многие сайты не пригодны к архивации, так как технологии на них не дают постоянных ссылок. Они используют технологии Javascript, Ajax, Flash и др.

Правообладатели

В некоторых странах архивация материалов разрешена только при условии доступа к ним через отдельные рабочие места в библиотеках.

Современные проблемы веб-архивации

Ограничения социальных сетей

Большая часть социальных сетей препятствуют работе архивных роботов.

Базы данных большого объёма

Открытые данные, публикуемые на многих сайтах, могут достигать десятков и сотен гигабайт. Их архивация требует огромных ресурсов.

Мобильные приложения

Все больше цифровых материалов распространяется только через мобильные приложения, которые работают в связке приложение-сервер.

Мессенжеры, каналы и чаты

Сейчас нет простых инструментов архивации общедоступных каналов и чатов, например, в Telegram, Viber и WhatsApp.

Стандарты

WARC - веб-архив

Стандарт веб-архивации, цельный архив, как правило сжимаемый с помощью Gzip.

CDX - содержание веб-архива

Содержание веб-архива со списком всех файлов, которые в него входят.

JSON/JSONL/CSV - стандарты обмена данными

Используется, как правило, для сохранения данных социальных сетей и данных.

WACZ - архивированные веб-коллекции

Расширение для формата WARC, позволяющее работать с WARC файлами без полной загрузки файлов.

Инструменты (открытый код)

Сбор (Acquisition)

  • Heritrix
  • Nutch
  • wget
  • wpull
  • grab-site
  • WAIL
  • Brozzler

Представление (Replay)

  • pywb
  • Webrecorder Player
  • ipwb
  • OpenWayback

Обработка и анализ (Process/Analyze)

  • ArchiveSpark
  • Archives Unleashed
  • webarchive-discovery
  • warcio
  • warctools
  • metawarc

Социальные сети

  • Twitter: Social Feed Manager, Twarc, Twitter-archiver, twitarchive, Twitter Twint, Twitter-archiver hydrator
  • Flickr: Social Feed Manager
  • Instagram: Social Feed Manager, instaloader
  • Facebook: Social Feed Manager
  • ВКонтакте: многочисленные apibackuper, специальные инструменты и скрипты

Открытые данные (Open Data)

  • CKAN
  • DKAN
  • DataVerse

Иные специальные ресурсы

Специальные инструменты для различных типов контента.

Инструменты: технические подробности

Wpull

Сайт: github.com/ArchiveTeam/wpull

Особенности:

  • Команда архивирует сайты в формат WARC
  • Сохраняет в базу данных SQLite все собранные ссылки
  • Только командная строка
  • Работает под Linux Ubuntu 18.04
  • Не обновлялся 6 лет

Пример команды:

wpull http://hse.ru --strip-session-id --no-check-certificate \
--no-robots --page-requisites --no-parent --sitemaps \
--inet4-only --timeout 20 --tries 3 --waitretry 5 \
--recursive --level inf --span-hosts --retry-connrefused \
--retry-dns-error --delete-after --warc-append --warc-cdx \
-U "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:91.0) Gecko/20100101 Firefox/91.0" \
-d -a hse.ru/hse.ru.log --database hse.ru/hse.ru.db \
--warc-file "hse.ru/hse.ru" --warc-header "operator: Ivan Begtin" \
--warc-header "downloaded-by: Ruarxive.org" --domains hse.ru \
--concurrent 4

ArchiveWeb.page

Сайт: github.com/webrecorder/archiveweb.page

Особенности:

  • Позволяет просматривать веб-архивы на настольном компьютере
  • Поддерживает форматы WARC и WACZ
  • Только GUI
  • Windows, Linux, Mac
  • В онлайне есть как replayweb.page

Archives Unleashed

Сайт: archivesunleashed.org

Особенности:

  • Работа с архивами сайтов как с большими данными
  • Интегрируется в Jupyter Notebook
  • Удобно для исследовательской работы
  • Анализ WARC файлов
  • Работает с командной строки

Metawarc

Сайт: github.com/datacoon/metawarc/

Особенности:

  • Работает с командной строки
  • Умеет подсчитывать объёмы файлов по типам
  • Извлекает метаданные

Национальный цифровой архив (ruarxive.org)

Характеристики

  • Около 20 ТБ данных в сжатом виде
  • Открытый код: github.com/infoculture, github.com/ruarxive
  • Акцент на открытых инструментах
  • Большая коллекция веб-архивов государственных сайтов
  • Не только веб-архивы, но и все остальные цифровые продукты: данные, документы и т.д.
  • Приоритет на "умирающие сайты"

Инструменты НЦА

Используем:

  • wpull, wget, grab-site — сбор веб-архивов
  • twarc — сбор твитов
  • metawarc — извлечение метаданных из архивных документов
  • pywb — представление веб-архивов
  • undatum — обработка данных
  • CKAN — каталогизация архивных коллекций
  • govdomains — реестр всех доменов госорганов и госучреждений
  • aut — анализ веб-архивов

Создаём:

  • apibackuper — архивация открытых данных, публикуемых как API
  • wparc — утилита архивации сайтов на WordPress

Открытый код

Все инструменты доступны на github.com/ruarxive

Что важно для цифровой архивации в России (то чего нет)?

  1. Отбор иных цифровых ресурсов для создания "Архива данных"
  2. Определение структуры метаданных для веб-архива
  3. Создание инфраструктуры добровольной передачи цифровых материалов
  4. Перевод и принятие стандартов WARC, CDX, WACZ
  5. Организация отбора сайтов для специализированных коллекций
  6. Институционализация цифрового сохранения

Отбор цифровых ресурсов. Вопросы

  • Как определить значимость веб-сайта?
  • Кто определяет ценность сайтов для пользователей?
  • Как определить глубину и частоту архивации в зависимости от значимости веб-сайта?
  • Как обеспечить сохранение исчезающего контента?

Каталоги и метаданные

Используются сейчас

  • Dublin Core
  • OAI-PHM
  • WARC
  • CDX

Проблема

Нет универсального стандарта метаданных для веб-сайтов. Но есть рекомендации OCLC и схема метаданных Интернет-архива: archive.org/services/docs/api/metadata-schema/index.html

Вопрос: Можно ли сделать универсальный стандарт или использовать расширения для специализированных архивов?

Метаданные реестра госсайтов

  • Более 7700 государственных сайтов
  • 31 атрибут по каждой записи
  • Учитывает иерархию и роль органов власти
  • Заполняется полуавтоматически
  • Не стандартизировано

Роль архивистов и библиотекарей

Отбор веб-сайтов для архивации

Определение конкретных сайтов или типов/групп сайтов, подлежащих автоматической архивизации.

Ведение каталогов и заполнение метаданных

  • Заполнение метаданных в каталогах по каждому цифровому объекту
  • Актуализация метаданных при необходимости

Взаимодействие с сообществом

  • Принятие цифровых материалов на хранение от гражданских архивистов
  • Поощрение участия гражданских архивистов в архивных проектах
  • Формирование списков специальных коллекций

Материалы для самостоятельного изучения

Где взять архивы сайтов и данных?

Где найти инструменты цифровой архивации?

Где прочитать про то, как пользоваться инструментами?

  1. ruarxive.org/kb/intro
  2. wiki.archiveteam.org/index.php/Software
  3. wiki.archiveteam.org/index.php/The_WARC_Ecosystem

Где узнать, какие есть инициативы по сохранению веб-сайтов?

Связанные материалы