wparc (WordPress)
wparc — утилита для сохранения содержимого сайтов на WordPress через REST API.
Многие сайты на WordPress имеют открытый API по адресу /wp-json/wp/v2/. Это позволяет получить контент в чистом структурированном виде (JSON), минуя HTML-парсинг.
Установка
pip install wparc
Как это работает
Утилита обходит эндпоинты API:
/posts: Статьи/pages: Страницы/media: Медиафайлы (изображения)/comments: Комментарии
Использование
wparc https://example.com/ --output ./site-archive
Преимущества перед wget
- Чистота данных: Вы получаете текст статьи без рекламы и навигации сайта.
- Метаданные: Сохраняются точные даты публикации, авторы, теги и категории.
- Скрытый контент: Иногда API отдает больше данных, чем видно на сайте.
Проверка доступности API
Перед запуском проверьте, доступен ли API. Откройте в браузере https://example.com/wp-json/. Если видите JSON-ответ, сайт можно архивировать с wparc.