Перейти к основному содержимому

wparc (WordPress)

wparc — утилита для сохранения содержимого сайтов на WordPress через REST API.

Многие сайты на WordPress имеют открытый API по адресу /wp-json/wp/v2/. Это позволяет получить контент в чистом структурированном виде (JSON), минуя HTML-парсинг.

Установка

pip install wparc

Как это работает

Утилита обходит эндпоинты API:

  • /posts: Статьи
  • /pages: Страницы
  • /media: Медиафайлы (изображения)
  • /comments: Комментарии

Использование

wparc https://example.com/ --output ./site-archive

Преимущества перед wget

  1. Чистота данных: Вы получаете текст статьи без рекламы и навигации сайта.
  2. Метаданные: Сохраняются точные даты публикации, авторы, теги и категории.
  3. Скрытый контент: Иногда API отдает больше данных, чем видно на сайте.

Проверка доступности API

Перед запуском проверьте, доступен ли API. Откройте в браузере https://example.com/wp-json/. Если видите JSON-ответ, сайт можно архивировать с wparc.