Перейти к основному содержимому

ArchiveBox

ArchiveBox — это инструмент для создания аддитивного архива из RSS-лент, закладок и ссылок, используя wget, Chrome headless и другие методы.

Описание

ArchiveBox (ранее Bookmark Archiver) создаёт локальный архив веб-контента из различных источников, сохраняя его в стандартных форматах.

Особенности

  • Множественные источники: RSS, закладки, ссылки
  • Множественные методы: wget, Chrome headless, и другие
  • Аддитивность: Добавляет новые материалы в существующий архив
  • Веб-интерфейс: Удобный веб-интерфейс для просмотра

Установка

Через Docker (рекомендуется)

docker run -v $PWD/data:/data archivebox/archivebox init
docker run -v $PWD/data:/data archivebox/archivebox add 'https://example.com'

Локальная установка

pip install archivebox
archivebox init
archivebox add 'https://example.com'

Использование

Добавление URL

archivebox add 'https://example.com'

Добавление из файла

archivebox add < urls.txt

Добавление из RSS

archivebox add --depth=0 'https://example.com/feed.xml'

Веб-интерфейс

archivebox server

Откройте браузер на http://localhost:8000.

Методы архивации

ArchiveBox использует несколько методов для максимального покрытия:

  1. wget: Для статических сайтов
  2. Chrome headless: Для JavaScript сайтов
  3. SingleFile: Для сохранения в один HTML файл
  4. PDF: Для создания PDF версий
  5. Screenshot: Скриншоты страниц
  6. DOM snapshot: Сохранение DOM

Настройка методов

# В config.json
{
"SAVE_WGET": true,
"SAVE_CHROME": true,
"SAVE_SINGLEFILE": true,
"SAVE_PDF": true,
"SAVE_SCREENSHOT": true,
"SAVE_DOM": true
}

Интеграция с источниками

RSS ленты

archivebox add --depth=0 'https://example.com/feed.xml'

Закладки браузера

# Экспорт закладок из браузера, затем:
archivebox add bookmarks.html

Pocket

archivebox add pocket_export.html

Pinboard

archivebox add pinboard_export.json

Веб-интерфейс

Веб-интерфейс ArchiveBox предоставляет:

  • Просмотр всех заархивированных страниц
  • Поиск по архиву
  • Фильтрация по дате, домену, тегам
  • Статистика архива
  • Управление архивом

Сравнение

ИнструментИсточникиМетодыВеб-интерфейсРекомендация
ArchiveBoxМножественныеМножественныеДаДля личных архивов
BrowsertrixURLОдин (Chrome)Да (Cloud)Для организаций
WgetURLОдинНетДля простых случаев

Когда использовать ArchiveBox

  • Личные архивы из закладок и RSS
  • Нужен веб-интерфейс для просмотра
  • Множественные источники данных
  • Аддитивное накопление архива

Когда использовать другие инструменты

  • Большие проекты архивации (используйте Browsertrix)
  • Нужен WARC формат (используйте специализированные инструменты)
  • Простые случаи (используйте Wget)

Best practices

Регулярное обновление

# Добавьте в crontab
0 2 * * * cd /path/to/archivebox && archivebox add < new_urls.txt

Резервное копирование

# Резервное копирование данных
tar -czf archivebox-backup.tar.gz data/

Очистка старых записей

archivebox remove --older-than=365

Ограничения

  • Не создаёт WARC файлы напрямую
  • Может быть медленным для больших объёмов
  • Требует много места на диске
  • Не подходит для больших организационных проектов

Ресурсы

Связанные материалы