Перейти к основному содержимому

WPARC. Как создать цифровой архив сайта на Wordpress

Подготовлена бета-версия утилиты командной строки wparc для архивации данных из сайтов, созданных на движке Wordpress, на котором работает огромное число сайтов СМИ и личных блогов.

Утилита использует стандартное API, предоставляемое CMS Wordpress и доступное по адресу /wp-json/. Утилита умеет значительно быстрее собирать дампы данных, чем классические веб-краулеры.

Подробнее о структурах данных сайтов на Wordpress — в документации Wordpress REST API.

Команды

  • dump — выгрузить все данные через обход точек подключения к API. Результатом исполнения команды являются файлы в форматах .json и .jsonl.
  • getfiles — выгрузка всех медиа-файлов, перечисленных в файле wp_v2_media.jsonl, полученного после исполнения команды dump.

Примеры сайтов на Wordpress: duma-rad.ru, paperpaper.ru, agentura.ru и многие другие.

Ограничения

  • Некоторые владельцы сайтов на Wordpress блокируют доступ к /wp-json/ для неавторизированных пользователей, поэтому из этих сайтов невозможно пока извлечь данные.
  • У старых версий версий Wordpress отсутствует точка подключения /wp-json/, поэтому из них тоже невозможно скачать данные с помощью утилиты.

В будущем утилита будет поддерживать команды проверки сайта на возможность выгрузки данных, упаковывать их в пакет данных (data package) для долгосрочного сохранения и поддерживать выгрузку данных из Wordpress даже без доступного API (по определенным шаблонам этой CMS).

Найденные ошибки заполняйте в issues репозитория проекта wparc.