DH.2. Веб-архивация

Методы и инструменты веб-архивации, форматы веб-архивов.

Презентация

📄 Скачать презентацию (PDF)👁️ Открыть в новой вкладке

Веб-архивация сейчас

Веб-архивация — часть архивации цифровых материалов (born digital).

Особенности веб-архивации

Охватывает не все онлайн сайты из-за изменений в технологиях
Социальные сети и динамические сайты выпадают из стандартной веб-архивации
Требует значительных технических ресурсов
Большие объёмы данных — от десятков терабайт до десятков петабайт
Кроме сайтов также архивируют документы, социальные сети, видео и аудио платформы

Инициаторы веб-архивации

Общественные организации
Госархивы и библиотеки
Крупные НКО и сообщества
Национальные архивы стран

Крупнейшие проекты по веб-архивации

Common Crawl

Сайт: commoncrawl.org

Internet Archive

Сайт: archive.org

ArchiveTeam

Сайт: archiveteam.org

Статистика архивации

25 петабайт: Интернет архив Archive.org
5 петабайт (в сжатом виде): Common Crawl
64 терабайта: Australian Web Archive (на 2015 год) в архивах Pandora и Trove
60 терабайт: Национальный цифровой архив (ruarxive.org)

Основные потребители

Исследователи

Специалисты по анализу больших данных, разработчики алгоритмов и решений big data, отраслевые исследовательские центры.

Журналисты

Дата-журналисты и журналисты-расследователи, ищущие архивные материалы.

Пользователи

Ищущие потерянные документы, материалы и иные данные.

Основные веб-стратегии

Полная индексация. Симуляция поисковой системы
- Archive.org, Common Crawl
Сфокусированная непрерывная индексация
- UK web archive, Australian web archive, Danish web archive
Выборочная управляемая регулярная архивация
- ArchiveTeam, Национальный цифровой архив, Archives Unleashed
Депозитарий архивов
- Архивы передаются владельцами цифрового ресурса

Классические проблемы веб-архивации

Большие объёмы

Собирается очень много данных, их необходимо хранить и предоставлять пользователям.

Поисковые ловушки

Например, календарь на сайте может давать бесконечное количество ссылок, их приходится ограничивать.

Динамические сайты

Многие сайты не пригодны к архивации, так как технологии на них не дают постоянных ссылок. Они используют технологии Javascript, Ajax, Flash и др.

Правообладатели

В некоторых странах архивация материалов разрешена только при условии доступа к ним через отдельные рабочие места в библиотеках.

Современные проблемы веб-архивации

Ограничения социальных сетей

Большая часть социальных сетей препятствуют работе архивных роботов.

Базы данных большого объёма

Открытые данные, публикуемые на многих сайтах, могут достигать десятков и сотен гигабайт. Их архивация требует огромных ресурсов.

Мобильные приложения

Все больше цифровых материалов распространяется только через мобильные приложения, которые работают в связке приложение-сервер.

Мессенжеры, каналы и чаты

Сейчас нет простых инструментов архивации общедоступных каналов и чатов, например, в Telegram, Viber и WhatsApp.

Стандарты

WARC - веб-архив

Стандарт веб-архивации, цельный архив, как правило сжимаемый с помощью Gzip.

CDX - содержание веб-архива

Содержание веб-архива со списком всех файлов, которые в него входят.

JSON/JSONL/CSV - стандарты обмена данными

Используется, как правило, для сохранения данных социальных сетей и данных.

WACZ - архивированные веб-коллекции

Расширение для формата WARC, позволяющее работать с WARC файлами без полной загрузки файлов.

Инструменты (открытый код)

Сбор (Acquisition)

Heritrix
Nutch
wget
wpull
grab-site
WAIL
Brozzler

Представление (Replay)

pywb
Webrecorder Player
ipwb
OpenWayback

Обработка и анализ (Process/Analyze)

ArchiveSpark
Archives Unleashed
webarchive-discovery
warcio
warctools
metawarc

Социальные сети

Twitter: Social Feed Manager, Twarc, Twitter-archiver, twitarchive, Twitter Twint, Twitter-archiver hydrator
Flickr: Social Feed Manager
Instagram: Social Feed Manager, instaloader
Facebook: Social Feed Manager
ВКонтакте: многочисленные apibackuper, специальные инструменты и скрипты

Открытые данные (Open Data)

CKAN
DKAN
DataVerse

Иные специальные ресурсы

Специальные инструменты для различных типов контента.

Инструменты: технические подробности

Wpull

Сайт: github.com/ArchiveTeam/wpull

Особенности:

Команда архивирует сайты в формат WARC
Сохраняет в базу данных SQLite все собранные ссылки
Только командная строка
Работает под Linux Ubuntu 18.04
Не обновлялся 6 лет

Пример команды:

wpull http://hse.ru --strip-session-id --no-check-certificate \
  --no-robots --page-requisites --no-parent --sitemaps \
  --inet4-only --timeout 20 --tries 3 --waitretry 5 \
  --recursive --level inf --span-hosts --retry-connrefused \
  --retry-dns-error --delete-after --warc-append --warc-cdx \
  -U "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:91.0) Gecko/20100101 Firefox/91.0" \
  -d -a hse.ru/hse.ru.log --database hse.ru/hse.ru.db \
  --warc-file "hse.ru/hse.ru" --warc-header "operator: Ivan Begtin" \
  --warc-header "downloaded-by: Ruarxive.org" --domains hse.ru \
  --concurrent 4

ArchiveWeb.page

Сайт: github.com/webrecorder/archiveweb.page

Особенности:

Позволяет просматривать веб-архивы на настольном компьютере
Поддерживает форматы WARC и WACZ
Только GUI
Windows, Linux, Mac
В онлайне есть как replayweb.page

Archives Unleashed

Сайт: archivesunleashed.org

Особенности:

Работа с архивами сайтов как с большими данными
Интегрируется в Jupyter Notebook
Удобно для исследовательской работы
Анализ WARC файлов
Работает с командной строки

Metawarc

Сайт: github.com/datacoon/metawarc/

Особенности:

Работает с командной строки
Умеет подсчитывать объёмы файлов по типам
Извлекает метаданные

Национальный цифровой архив (ruarxive.org)

Характеристики

Около 20 ТБ данных в сжатом виде
Открытый код: github.com/infoculture, github.com/ruarxive
Акцент на открытых инструментах
Большая коллекция веб-архивов государственных сайтов
Не только веб-архивы, но и все остальные цифровые продукты: данные, документы и т.д.
Приоритет на "умирающие сайты"

Инструменты НЦА

Используем:

wpull, wget, grab-site — сбор веб-архивов
twarc — сбор твитов
metawarc — извлечение метаданных из архивных документов
pywb — представление веб-архивов
undatum — обработка данных
CKAN — каталогизация архивных коллекций
govdomains — реестр всех доменов госорганов и госучреждений
aut — анализ веб-архивов

Создаём:

apibackuper — архивация открытых данных, публикуемых как API
wparc — утилита архивации сайтов на WordPress

Открытый код

Все инструменты доступны на github.com/ruarxive

Что важно для цифровой архивации в России (то чего нет)?

Отбор иных цифровых ресурсов для создания "Архива данных"
Определение структуры метаданных для веб-архива
Создание инфраструктуры добровольной передачи цифровых материалов
Перевод и принятие стандартов WARC, CDX, WACZ
Организация отбора сайтов для специализированных коллекций
Институционализация цифрового сохранения

Отбор цифровых ресурсов. Вопросы

Как определить значимость веб-сайта?
Кто определяет ценность сайтов для пользователей?
Как определить глубину и частоту архивации в зависимости от значимости веб-сайта?
Как обеспечить сохранение исчезающего контента?

Каталоги и метаданные

Используются сейчас

Dublin Core
OAI-PHM
WARC
CDX

Проблема

Нет универсального стандарта метаданных для веб-сайтов. Но есть рекомендации OCLC и схема метаданных Интернет-архива: archive.org/services/docs/api/metadata-schema/index.html

Вопрос: Можно ли сделать универсальный стандарт или использовать расширения для специализированных архивов?

Метаданные реестра госсайтов

Более 7700 государственных сайтов
31 атрибут по каждой записи
Учитывает иерархию и роль органов власти
Заполняется полуавтоматически
Не стандартизировано

Роль архивистов и библиотекарей

Отбор веб-сайтов для архивации

Определение конкретных сайтов или типов/групп сайтов, подлежащих автоматической архивизации.

Ведение каталогов и заполнение метаданных

Заполнение метаданных в каталогах по каждому цифровому объекту
Актуализация метаданных при необходимости

Взаимодействие с сообществом

Принятие цифровых материалов на хранение от гражданских архивистов
Поощрение участия гражданских архивистов в архивных проектах
Формирование списков специальных коллекций

Материалы для самостоятельного изучения

Где взять архивы сайтов и данных?

cdn.ruarxive.org/public/

Где найти инструменты цифровой архивации?

github.com/ruarxive/awesome-digital-preservation

Где прочитать про то, как пользоваться инструментами?

Где узнать, какие есть инициативы по сохранению веб-сайтов?

en.wikipedia.org/wiki/List_of_Web_archiving_initiatives

Связанные материалы

Как создать цифровой архив сайтов - практическое руководство
Формат WARC - формат веб-архивов
Инструменты веб-архивации - обзор инструментов
Wget руководство - использование wget
Курс по цифровой архивации - все лекции курса

Презентация​

Веб-архивация сейчас​

Особенности веб-архивации​

Инициаторы веб-архивации​

Крупнейшие проекты по веб-архивации​

Common Crawl​

Internet Archive​

ArchiveTeam​

Статистика архивации​

Основные потребители​

Исследователи​

Журналисты​

Пользователи​

Основные веб-стратегии​

Классические проблемы веб-архивации​

Большие объёмы​

Поисковые ловушки​

Динамические сайты​

Правообладатели​

Современные проблемы веб-архивации​

Ограничения социальных сетей​

Базы данных большого объёма​

Мобильные приложения​

Мессенжеры, каналы и чаты​

Стандарты​

WARC - веб-архив​

CDX - содержание веб-архива​

JSON/JSONL/CSV - стандарты обмена данными​

WACZ - архивированные веб-коллекции​

Инструменты (открытый код)​

Сбор (Acquisition)​

Представление (Replay)​

Обработка и анализ (Process/Analyze)​

Социальные сети​

Открытые данные (Open Data)​

Иные специальные ресурсы​

Инструменты: технические подробности​

Wpull​

ArchiveWeb.page​

Archives Unleashed​

Metawarc​

Национальный цифровой архив (ruarxive.org)​

Характеристики​

Инструменты НЦА​

Открытый код​

Что важно для цифровой архивации в России (то чего нет)?​

Отбор цифровых ресурсов. Вопросы​

Каталоги и метаданные​

Используются сейчас​

Проблема​

Метаданные реестра госсайтов​

Роль архивистов и библиотекарей​

Отбор веб-сайтов для архивации​

Ведение каталогов и заполнение метаданных​

Взаимодействие с сообществом​

Материалы для самостоятельного изучения​

Где взять архивы сайтов и данных?​

Где найти инструменты цифровой архивации?​

Где прочитать про то, как пользоваться инструментами?​

Где узнать, какие есть инициативы по сохранению веб-сайтов?​

Связанные материалы​

Презентация

Веб-архивация сейчас

Особенности веб-архивации

Инициаторы веб-архивации

Крупнейшие проекты по веб-архивации

Common Crawl

Internet Archive

ArchiveTeam

Статистика архивации

Основные потребители

Исследователи

Журналисты

Пользователи

Основные веб-стратегии

Классические проблемы веб-архивации

Большие объёмы

Поисковые ловушки

Динамические сайты

Правообладатели

Современные проблемы веб-архивации

Ограничения социальных сетей

Базы данных большого объёма

Мобильные приложения

Мессенжеры, каналы и чаты

Стандарты

WARC - веб-архив

CDX - содержание веб-архива

JSON/JSONL/CSV - стандарты обмена данными

WACZ - архивированные веб-коллекции

Инструменты (открытый код)

Сбор (Acquisition)

Представление (Replay)

Обработка и анализ (Process/Analyze)

Социальные сети

Открытые данные (Open Data)

Иные специальные ресурсы

Инструменты: технические подробности

Wpull

ArchiveWeb.page

Archives Unleashed

Metawarc

Национальный цифровой архив (ruarxive.org)

Характеристики

Инструменты НЦА

Открытый код

Что важно для цифровой архивации в России (то чего нет)?

Отбор цифровых ресурсов. Вопросы

Каталоги и метаданные

Используются сейчас

Проблема

Метаданные реестра госсайтов

Роль архивистов и библиотекарей

Отбор веб-сайтов для архивации

Ведение каталогов и заполнение метаданных

Взаимодействие с сообществом

Материалы для самостоятельного изучения

Где взять архивы сайтов и данных?

Где найти инструменты цифровой архивации?

Где прочитать про то, как пользоваться инструментами?

Где узнать, какие есть инициативы по сохранению веб-сайтов?

Связанные материалы