Перейти к основному содержимому

OpenWayback

OpenWayback — это open-source проект для разработки Wayback Machine, ключевого программного обеспечения, используемого веб-архивами по всему миру для воспроизведения заархивированных веб-сайтов в браузере пользователя.

Описание

OpenWayback — это Java-приложение, которое предоставляет веб-интерфейс для просмотра веб-архивов в формате WARC.

Особенности

  • Wayback Machine: Классическая реализация Wayback Machine
  • WARC поддержка: Работает с WARC файлами
  • CDX индексы: Использует CDX для быстрого поиска
  • Веб-интерфейс: Веб-интерфейс для просмотра архивов

Установка

Требования

  • Java 8+
  • Tomcat 8+ или Jetty
  • CDX индексы для WARC файлов

Установка

  1. Скачайте последнюю версию с GitHub
  2. Соберите проект:
mvn clean package
  1. Разверните WAR файл на Tomcat

Настройка

Конфигурация wayback.xml

<wayback>
<archives>
<archive>
<path>/path/to/warcs</path>
<prefix>http://localhost:8080/wayback/</prefix>
</archive>
</archives>
</wayback>

Создание CDX индексов

cdx-indexer /path/to/warcs/*.warc.gz > index.cdx

Использование

Веб-интерфейс

После установки откройте браузер на http://localhost:8080/wayback/.

Поиск по URL

Введите URL в поисковую строку для поиска архивных версий.

Просмотр по дате

Используйте календарь для выбора конкретной даты архивации.

API

Memento API

OpenWayback поддерживает Memento API для доступа к архивным версиям:

http://localhost:8080/wayback/timemap/link/http://example.com/

JSON API

curl "http://localhost:8080/wayback/cdx?url=http://example.com/"

Сравнение с PYWB

ФункцияOpenWaybackPYWBПобедитель
ЯзыкJavaPythonЗависит от окружения
Простота установкиСредняяВысокаяPYWB
ПроизводительностьВысокаяСредняяOpenWayback
Активность разработкиСредняяВысокаяPYWB

Когда использовать OpenWayback

  • Существующие установки на Java
  • Требуется высокая производительность
  • Классическая установка Wayback Machine
  • Интеграция с Java экосистемой

Когда использовать PYWB

  • Новая установка
  • Python окружение
  • Нужна простота установки
  • Активная разработка

Best practices

Оптимизация индексов

  • Регулярно обновляйте CDX индексы
  • Используйте сжатые индексы
  • Разделяйте индексы по коллекциям

Кэширование

Настройте кэширование для улучшения производительности:

<cache>
<enabled>true</enabled>
<maxSize>1000</maxSize>
</cache>

Мониторинг

  • Мониторьте использование памяти
  • Проверяйте производительность
  • Логируйте ошибки

Ресурсы

Связанные материалы