ArchiveBox
ArchiveBox — это инструмент для создания аддитивного архива из RSS-лент, закладок и ссылок, используя wget, Chrome headless и другие методы.
Описание
ArchiveBox (ранее Bookmark Archiver) создаёт локальный архив веб-контента из различных источников, сохраняя его в стандартных форматах.
Особенности
- Множественные источники: RSS, закладки, ссылки
- Множественные методы: wget, Chrome headless, и другие
- Аддитивность: Добавляет новые материалы в существующий архив
- Веб-интерфейс: Удобный веб-интерфейс для просмотра
Установка
Через Docker (рекомендуется)
docker run -v $PWD/data:/data archivebox/archivebox init
docker run -v $PWD/data:/data archivebox/archivebox add 'https://example.com'
Локальная установка
pip install archivebox
archivebox init
archivebox add 'https://example.com'
Использование
Добавление URL
archivebox add 'https://example.com'
Добавление из файла
archivebox add < urls.txt
Добавление из RSS
archivebox add --depth=0 'https://example.com/feed.xml'
Веб-интерфейс
archivebox server
Откройте браузер на http://localhost:8000.
Методы архивации
ArchiveBox использует несколько методов для максимального покрытия:
- wget: Для статических сайтов
- Chrome headless: Для JavaScript сайтов
- SingleFile: Д ля сохранения в один HTML файл
- PDF: Для создания PDF версий
- Screenshot: Скриншоты страниц
- DOM snapshot: Сохранение DOM
Настройка методов
# В config.json
{
"SAVE_WGET": true,
"SAVE_CHROME": true,
"SAVE_SINGLEFILE": true,
"SAVE_PDF": true,
"SAVE_SCREENSHOT": true,
"SAVE_DOM": true
}
Интеграция с источниками
RSS ленты
archivebox add --depth=0 'https://example.com/feed.xml'
Закладки браузера
# Экспорт закладок из браузера, затем:
archivebox add bookmarks.html
Pocket
archivebox add pocket_export.html
Pinboard
archivebox add pinboard_export.json
Веб-интерфейс
Веб-интерфейс ArchiveBox предоставляет:
- Просмотр всех заархиви рованных страниц
- Поиск по архиву
- Фильтрация по дате, домену, тегам
- Статистика архива
- Управление архивом
Сравнение
| Инструмент | Источники | Методы | Веб-интерфейс | Рекомендация |
|---|---|---|---|---|
| ArchiveBox | Множественные | Множественные | Да | Для личных архивов |
| Browsertrix | URL | Один (Chrome) | Да (Cloud) | Для организаций |
| Wget | URL | Один | Нет | Для простых случаев |
Когда использовать ArchiveBox
- Личные архивы из закладок и RSS
- Нужен веб-интерфейс для просмотра
- Множественные источники данных
- Аддитивное накопление архива
Когда использовать другие инструменты
- Большие проекты архивации (используйте Browsertrix)
- Нужен WARC формат (используйте специализированные инструменты)
- Простые случаи (используйте Wget)
Best practices
Регулярное обновление
# Добавьте в crontab
0 2 * * * cd /path/to/archivebox && archivebox add < new_urls.txt
Резервное копирование
# Резервное копирование данных
tar -czf archivebox-backup.tar.gz data/
Очистка старых записей
archivebox remove --older-than=365
Ограничения
- Не создаёт WARC файлы напрямую
- Может быть медленным для больших объёмов
- Требует много места на диске
- Не подходит для больших организационных проектов