grab-site
grab-site — это веб-кроулер, разработанный специально для архивистов, с WARC выводом, дашбордом для всех кроулов и динамическими паттернами игнорирования.
Описание
grab-site создан Archive Team и оптимизирован для быстрой архивации сайтов с удобным веб-интерфейсом для мониторинга.
Особенности
- WARC output: Создаёт стандартные WARC файлы
- Dashboard: Веб-интерфейс для мониторинга всех кроулов
- Динамические ignore patterns: Гибкая настройка того, что архивировать
- Простота использования: Легко начать работу
Установка
Через pip
pip install grab-site
Из исходников
git clone https://github.com/ArchiveTeam/grab-site
cd grab-site
pip install -e .
Использование
Базовое использование
grab-site https://example.com
Это создаст WARC файл в текущей директории.
С дашбордом
grab-site --dashboard https://example.com
Откройте браузер на http://localhost:29000 для просмотра дашборда.
Ограничение глубины
grab-site --level 3 https://example.com
Игнорирование паттернов
grab-site --ignore-regex '.*\.(jpg|png|gif)$' https://example.com
Dashboard
Веб-интерфейс дашборда позволяет:
- Просматривать все активные кроулы
- Мониторить прогресс
- Видеть статистику
- Управлять кроулами
- Просматривать логи
Запуск дашборда отдельно
grab-site-dashboard
Конфигурация
Файл конфигурации
Создайте файл ~/.grab-site/config:
# Максимальная глубина
max_depth = 5
# Игнорируемые расширения
ignore_extensions = jpg,jpeg,png,gif,mp4
# User agent
user_agent = Mozilla/5.0 (compatible; grab-site/1.0)
Динамические ignore patterns
grab-site поддерживает динамическое обновление паттернов игнорирования во время кроулинга:
- Можно обновлять паттерны без остановки кроула
- Полезно для больших сайтов
- Экономит время и ресурсы
Сравнение
| Инструмент | Dashboard | WARC | Простота | Рекомендация |
|---|---|---|---|---|
| grab-site | Да | Да | Высокая | Для мониторинга |
| Wget | Нет | Нет | Высокая | Для простых случаев |
| Heritrix | Да | Да | Низкая | Для сложных проектов |
Best practices
Мониторинг
Используйте дашборд для:
- Отслеживания прогресса
- Выявления проблем
- Управления множественными кроулами
Ограничения
- Установите разумные лимиты глубины
- Используйте ignore patterns для экономии ресурсов
- Мониторьте размер WARC файлов