Как создать цифровой архив сайтов

Есть разные способы сохранения копии сайта, как готовые интерфейсы приложений, так и утилиты (CLI) для скачивания через командную строку.

🚨 Экстренная ситуация? Если времени мало, используйте Быстрый старт: архивация за 5 минут или перейдите к разделу Экстренные сценарии ниже.

Быстрое сохранение отдельных страниц

Для сохранения одной или нескольких веб-страниц можно использовать простые онлайн-сервисы:

Метод 1: Archive.org (Internet Archive)

Сохранить через веб-интерфейс Интернет Архива (Archive.org). Форму «Save Page Now» для сохранения веб-страницы можно найти на этой странице. Пошагово:

Перейдите по ссылке: https://archive.org/web/.
Вставьте URL-адрес страницы, которую вы хотите заархивировать, в поле Save Page Now (внизу справа).
Нажмите на кнопку Сохранить страницу (или нажмите клавишу Enter).
Подождите, пока страница будет просматриваться. После завершения процесса архивирования появится URL-адрес заархивированной страницы.

Интерфейс Archive.org

Метод 2: Archive Today (archive.ph)

Проект сохраняет текстовую и графическую копии веб-страницы и обеспечивает url-ссылку на неизменную запись любой веб-страницы.

На главной странице сервиса можно ввести ссылку на веб-страницу и она будет сохранена. А если сайт многостраничный, то в таком случае сохранить его содержимое поможет расширение для браузера Firefox.

Интерфейс Archive Today

Примечание: Эти методы подходят для сохранения отдельных страниц или небольших сайтов. Для полной архивации сайта используйте инструменты, описанные ниже.

Сравнение инструментов: что выбрать?

Инструмент	Скорость	Сложность	Качество	Когда использовать
Archive.ph	⚡⚡⚡ 30 сек	★☆☆	⭐⭐	Одна страница, срочно, нет установки
HTTrack	⚡⚡ часы	★☆☆	⭐⭐⭐	Целый сайт, есть GUI, для начинающих
Wget	⚡⚡ часы	★★★	⭐⭐⭐⭐	Автоматизация, продвинутые настройки
Wpull	⚡⚡ часы	★★★	⭐⭐⭐⭐	Сложные сайты, WARC-формат
Browsertrix	⚡ дольше	★★☆	⭐⭐⭐⭐⭐	JavaScript-сайты, интерактивность

Быстрый выбор:

📄 Одна статья/страница → Archive.ph
🏠 Небольшой сайт (<1000 страниц) → HTTrack или Wget
🏢 Большой/сложный сайт → Wget или Browsertrix
⚡ Экстренно → Archive.ph + экстренные сценарии

Экстренные сценарии

Когда счет идет на минуты

Если сайт может быть заблокирован или удален в ближайшее время:

1. Первые 30 секунд - сохраните главные страницы через Archive.ph:

# Откройте archive.ph и сохраните:
- Главную страницу
- Страницу "О нас" / "About"
- Ключевые статьи/материалы
- Страницу контактов

Подробнее: Archive.ph: полное руководство

2. Первые 5 минут - запустите быструю архивацию всего сайта:

# С помощью wget (быстрая команда):
wget --mirror --convert-links --adjust-extension \
     --page-requisites --wait=0.5 --limit-rate=200k \
     --no-parent https://site-to-save.com

⚠️ Важно: Эта команда качает быстро, но может пропустить некоторый контент. Для полноты используйте детальную настройку ниже.

3. Если есть 1-2 часа:

Используйте HTTrack (графический интерфейс) - см. раздел HTTrack ниже.

Полный гайд по экстренной архивации: Экстренная архивация: когда счет идет на часы

HTTrack

HTTrack — это бесплатное (GPL, libre/ free software) и простое в использовании приложение, которое позволяет загрузить веб-сайт в локальный каталог, получая HTML-код страниц, изображения и другие файлы с сервера на ваш компьютер. Есть режим рекурсивной выгрузки всех страниц.

HTTrack упорядочивает относительную ссылочную структуру оригинального сайта. Приложение имеет GUI и работает под Windows, MacOSX, Linux.

Для использования приложения не нужна специальная техническая подготовка и навыки программирования, однако это приложение также работает и с командной строки (гайд пользователям).

Утилиты командной строки (CLI)

Самые популярные утилиты командной строки для создания архива сайта — это Wget и Wpull.

Wget

Wget — это пакет свободного программного обеспечения для извлечения файлов с помощью HTTP, HTTPS, FTP и FTPS и других наиболее широко используемых интернет-протоколов. Это неинтерактивный инструмент командной строки, поэтому его можно легко вызывать из скриптов, терминалов и т.д.

Wget имеет множество функций, облегчающих получение больших файлов или зеркалирование целых сайтов в Интернете или FTP, в том числе:

Может возобновлять прерванную загрузку, используя REST и RANGE.
Может использовать подстановочные карты в именах файлов и рекурсивного зеркалирования каталогов.
Опционально преобразует абсолютные ссылки в загруженных документах в относительные так, что загруженные документы могут ссылаться друг на друга локально.
Поддерживает HTTP-прокси.
Поддерживает HTTP cookies.
Поддерживает постоянные HTTP-соединения.
Неавторизованная / фоновая работа скрипта.
Использует локальные временные метки файлов для определения необходимости повторной загрузки документов при зеркалировании

Wget распространяется под лицензией GNU General Public License.

Wpull

Wpull — это Wget-совместимый (или ремейк/клон/замена/альтернатива) веб-загрузчик и краулер. Краулер — это интернет-бот, который систематически просматривает интернет и обычно используется поисковыми системами для веб-индексации. Веб-краулеры копируют страницы для обработки поисковой системой, которая индексирует загруженные страницы, чтобы пользователи могли осуществлять более эффективный поиск. Краулеры могут проверять гиперссылки и HTML-код. Они также могут использоваться для веб-скреппинга и программирования на основе данных.

Примечательные особенности Wpull:

Написан на Python и доступен к модификации.
Интегрируется с PhantomJS и youtube-dl (экспериментально).

Commands Wpull

У этих утилит есть режим рекурсивной выгрузки всех страниц, он задается опцией “-r”. В самом простом варианте достаточно выполнить команду, подобную этой.

Дальнейшие шаги

После успешной архивации сайта:

Проверьте результат: Откройте сохраненные файлы в браузере
Создайте резервную копию: Скопируйте в несколько мест (локально + облако)
Изучите продвинутые техники: Полное руководство по wget
Узнайте о форматах: WARC и WACZ

Связанные материалы

Быстрый старт: архивация за 5 минут - для начинающих
Archive.ph: полное руководство - архивация отдельных страниц
Экстренная архивация - когда счет идет на часы
Использование утилиты wget - детально о командной строке
Форматы архивов - WARC, WACZ и другие

Быстрое сохранение отдельных страниц​

Метод 1: Archive.org (Internet Archive)​

Метод 2: Archive Today (archive.ph)​

Сравнение инструментов: что выбрать?​

Экстренные сценарии​

Когда счет идет на минуты​

HTTrack​

Утилиты командной строки (CLI)​

Wget​

Wpull​

Дальнейшие шаги​

Связанные материалы​