Перейти к основному содержимому

grab-site

grab-site — это веб-кроулер, разработанный специально для архивистов, с WARC выводом, дашбордом для всех кроулов и динамическими паттернами игнорирования.

Описание

grab-site создан Archive Team и оптимизирован для быстрой архивации сайтов с удобным веб-интерфейсом для мониторинга.

Особенности

  • WARC output: Создаёт стандартные WARC файлы
  • Dashboard: Веб-интерфейс для мониторинга всех кроулов
  • Динамические ignore patterns: Гибкая настройка того, что архивировать
  • Простота использования: Легко начать работу

Установка

Через pip

pip install grab-site

Из исходников

git clone https://github.com/ArchiveTeam/grab-site
cd grab-site
pip install -e .

Использование

Базовое использование

grab-site https://example.com

Это создаст WARC файл в текущей директории.

С дашбордом

grab-site --dashboard https://example.com

Откройте браузер на http://localhost:29000 для просмотра дашборда.

Ограничение глубины

grab-site --level 3 https://example.com

Игнорирование паттернов

grab-site --ignore-regex '.*\.(jpg|png|gif)$' https://example.com

Dashboard

Веб-интерфейс дашборда позволяет:

  • Просматривать все активные кроулы
  • Мониторить прогресс
  • Видеть статистику
  • Управлять кроулами
  • Просматривать логи

Запуск дашборда отдельно

grab-site-dashboard

Конфигурация

Файл конфигурации

Создайте файл ~/.grab-site/config:

# Максимальная глубина
max_depth = 5

# Игнорируемые расширения
ignore_extensions = jpg,jpeg,png,gif,mp4

# User agent
user_agent = Mozilla/5.0 (compatible; grab-site/1.0)

Динамические ignore patterns

grab-site поддерживает динамическое обновление паттернов игнорирования во время кроулинга:

  • Можно обновлять паттерны без остановки кроула
  • Полезно для больших сайтов
  • Экономит время и ресурсы

Сравнение

ИнструментDashboardWARCПростотаРекомендация
grab-siteДаДаВысокаяДля мониторинга
WgetНетНетВысокаяДля простых случаев
HeritrixДаДаНизкаяДля сложных проектов

Best practices

Мониторинг

Используйте дашборд для:

  • Отслеживания прогресса
  • Выявления проблем
  • Управления множественными кроулами

Ограничения

  • Установите разумные лимиты глубины
  • Используйте ignore patterns для экономии ресурсов
  • Мониторьте размер WARC файлов

Ресурсы

Связанные материалы