Перейти к основному содержимому

ArchiveTeam

ArchiveTeam — это "свободный коллектив изгоев-архивистов, программистов и писателей", основанный Джейсоном Скоттом в 2009 году. Их миссия — спасение цифрового наследия, которое находится под угрозой удаления.

Сайт: archiveteam.org

Философия

ArchiveTeam фокусируется на спасении данных закрывающихся сервисов (Geocities, Google+, Yahoo Groups). Они действуют быстро, агрессивно и часто без официального разрешения компаний, полагая, что спасение истории важнее соблюдения условий обслуживания (TOS).

Инструменты

ArchiveTeam Warrior

Это виртуальная машина (или Docker-контейнер), которую может запустить любой волонтер. Она получает задачи с центрального сервера (Tracker), скачивает часть умирающего сайта и отправляет данные в Internet Archive.

Wget-lua

Модифицированная версия wget, поддерживающая Lua-скрипты для сложной логики краулинга (например, обхода пагинации или извлечения ссылок из JavaScript).

Зачем это знать?

  1. База знаний: Их Wiki — лучший источник информации о том, как архивировать конкретные сайты. Если вы хотите скачать что-то сложное, сначала проверьте, нет ли статьи на ArchiveTeam Wiki.
  2. Наборы данных: ArchiveTeam загружает свои дампы в специальную коллекцию на Internet Archive. Возможно, то, что вы ищете, уже спасено ими.