Перейти к основному содержимому

Как создать цифровой архив сайтов

Есть разные способы сохранения копии сайта, как готовые интерфейсы приложений, так и утилиты (CLI) для скачивания через командную строку.

🚨 Экстренная ситуация? Если времени мало, используйте Быстрый старт: архивация за 5 минут или перейдите к разделу Экстренные сценарии ниже.


Быстрое сохранение отдельных страниц

Для сохранения одной или нескольких веб-страниц можно использовать простые онлайн-сервисы:

Метод 1: Archive.org (Internet Archive)

Сохранить через веб-интерфейс Интернет Архива (Archive.org). Форму «Save Page Now» для сохранения веб-страницы можно найти на этой странице. Пошагово:

  1. Перейдите по ссылке: https://archive.org/web/.
  2. Вставьте URL-адрес страницы, которую вы хотите заархивировать, в поле Save Page Now (внизу справа).
  3. Нажмите на кнопку Сохранить страницу (или нажмите клавишу Enter).
  4. Подождите, пока страница будет просматриваться. После завершения процесса архивирования появится URL-адрес заархивированной страницы.

Интерфейс Archive.org

Метод 2: Archive Today (archive.ph)

Проект сохраняет текстовую и графическую копии веб-страницы и обеспечивает url-ссылку на неизменную запись любой веб-страницы.

На главной странице сервиса можно ввести ссылку на веб-страницу и она будет сохранена. А если сайт многостраничный, то в таком случае сохранить его содержимое поможет расширение для браузера Firefox.

Интерфейс Archive Today

Примечание: Эти методы подходят для сохранения отдельных страниц или небольших сайтов. Для полной архивации сайта используйте инструменты, описанные ниже.


Сравнение инструментов: что выбрать?

ИнструментСкоростьСложностьКачествоКогда использовать
Archive.ph⚡⚡⚡ 30 сек★☆☆⭐⭐Одна страница, срочно, нет установки
HTTrack⚡⚡ часы★☆☆⭐⭐⭐Целый сайт, есть GUI, для начинающих
Wget⚡⚡ часы★★★⭐⭐⭐⭐Автоматизация, продвинутые настройки
Wpull⚡⚡ часы★★★⭐⭐⭐⭐Сложные сайты, WARC-формат
Browsertrix⚡ дольше★★☆⭐⭐⭐⭐⭐JavaScript-сайты, интерактивность

Быстрый выбор:

  • 📄 Одна статья/страница → Archive.ph
  • 🏠 Небольшой сайт (<1000 страниц) → HTTrack или Wget
  • 🏢 Большой/сложный сайт → Wget или Browsertrix
  • ⚡ Экстренно → Archive.ph + экстренные сценарии

Экстренные сценарии

Когда счет идет на минуты

Если сайт может быть заблокирован или удален в ближайшее время:

1. Первые 30 секунд - сохраните главные страницы через Archive.ph:

# Откройте archive.ph и сохраните:
- Главную страницу
- Страницу "О нас" / "About"
- Ключевые статьи/материалы
- Страницу контактов

Подробнее: Archive.ph: полное руководство

2. Первые 5 минут - запустите быструю архивацию всего сайта:

# С помощью wget (быстрая команда):
wget --mirror --convert-links --adjust-extension \
--page-requisites --wait=0.5 --limit-rate=200k \
--no-parent https://site-to-save.com

⚠️ Важно: Эта команда качает быстро, но может пропустить некоторый контент. Для полноты используйте детальную настройку ниже.

3. Если есть 1-2 часа:

Используйте HTTrack (графический интерфейс) - см. раздел HTTrack ниже.

Полный гайд по экстренной архивации: Экстренная архивация: когда счет идет на часы


HTTrack

HTTrack — это бесплатное (GPL, libre/ free software) и простое в использовании приложение, которое позволяет загрузить веб-сайт в локальный каталог, получая HTML-код страниц, изображения и другие файлы с сервера на ваш компьютер. Есть режим рекурсивной выгрузки всех страниц.

HTTrack упорядочивает относительную ссылочную структуру оригинального сайта. Приложение имеет GUI и работает под Windows, MacOSX, Linux.

Для использования приложения не нужна специальная техническая подготовка и навыки программирования, однако это приложение также работает и с командной строки (гайд пользователям).

Утилиты командной строки (CLI)

Самые популярные утилиты командной строки для создания архива сайта — это Wget и Wpull.

Wget

Wget — это пакет свободного программного обеспечения для извлечения файлов с помощью HTTP, HTTPS, FTP и FTPS и других наиболее широко используемых интернет-протоколов. Это неинтерактивный инструмент командной строки, поэтому его можно легко вызывать из скриптов, терминалов и т.д.

Wget имеет множество функций, облегчающих получение больших файлов или зеркалирование целых сайтов в Интернете или FTP, в том числе:

  • Может возобновлять прерванную загрузку, используя REST и RANGE.
  • Может использовать подстановочные карты в именах файлов и рекурсивного зеркалирования каталогов.
  • Опционально преобразует абсолютные ссылки в загруженных документах в относительные так, что загруженные документы могут ссылаться друг на друга локально.
  • Поддерживает HTTP-прокси.
  • Поддерживает HTTP cookies.
  • Поддерживает постоянные HTTP-соединения.
  • Неавторизованная / фоновая работа скрипта.
  • Использует локальные временные метки файлов для определения необходимости повторной загрузки документов при зеркалировании

Wget распространяется под лицензией GNU General Public License.

Wpull

Wpull — это Wget-совместимый (или ремейк/клон/замена/альтернатива) веб-загрузчик и краулер. Краулер — это интернет-бот, который систематически просматривает интернет и обычно используется поисковыми системами для веб-индексации. Веб-краулеры копируют страницы для обработки поисковой системой, которая индексирует загруженные страницы, чтобы пользователи могли осуществлять более эффективный поиск. Краулеры могут проверять гиперссылки и HTML-код. Они также могут использоваться для веб-скреппинга и программирования на основе данных.

Примечательные особенности Wpull:

  • Написан на Python и доступен к модификации.
  • Интегрируется с PhantomJS и youtube-dl (экспериментально).

Commands Wpull

У этих утилит есть режим рекурсивной выгрузки всех страниц, он задается опцией “-r”. В самом простом варианте достаточно выполнить команду, подобную этой.


Дальнейшие шаги

После успешной архивации сайта:

  1. Проверьте результат: Откройте сохраненные файлы в браузере
  2. Создайте резервную копию: Скопируйте в несколько мест (локально + облако)
  3. Изучите продвинутые техники: Полное руководство по wget
  4. Узнайте о форматах: WARC и WACZ

Связанные материалы