Перейти к основному содержимому

DH.3. Архивация специализированных ресурсов

Архивация различных типов цифровых ресурсов.

Презентация

Что такое специализированный контент?

По способу извлечения

Материалы, которые не поддаются архивации "классической" веб-архивации и требуют использования или создания новых инструментов их сбора.

По способу представления

Контент, который имеет другие формы представления, чем веб-страницы. Например, игры или базы данных.

Как можно описать "нестандартные виды контента"?

1. Материалы, доступные только после авторизации

  • Telegram
  • Соцсети
  • Иной контент за авторизацией

2. Контент, доступный через специальные API

  • Некоторые сайты
  • Соцсети
  • Специализированные продукты для публикации научных статей (DSpace, Invenio)
  • Репозитории исходного кода

3. Файловые хранилища (облачные, FTP и др.)

Хранилища файлов такие как:

  • Яндекс.Диск
  • Google Drive
  • Dropbox
  • Amazon S3
  • И другие

4. Контент, недоступный через HTTP/Web

  • Данные интернета устройств
  • Топологии Интернета
  • Прошивки устройств
  • И так далее

Контент, требующий специальных способов отображения

  1. Базы данных
  2. Компьютерные игры
  3. Программный исходный код
  4. Компьютерные программы
  5. Мультимедиа объекты (видео/аудио)
  6. 3-х мерные модели

Инструменты и архивы для специализированных ресурсов

КатегорияТип контентаИнструментыАрхив
Исходный кодСистема контроля версий GitgitSoftware Heritage
СоцсетиTwittertwarc-
СоцсетиInstagraminstaloader-
Файловое хранилищеЯндекс Дискydiskarc-
Специальный контентНаучные публикации-OpenAIRE
Специальный контентОткрытые данныеapibackuperCKAN, Zenodo, Dataverse

Инструменты

Twarc

Сайт: github.com/DocNow/twarc

Установка:

pip install twarc

Настройка:

twarc configure

Использование:

twarc timeline SU_HSE

Особенности:

  • Архивирует сообщения из Twitter
  • Сохраняет в файлы в формате JSON
  • Только командная строка
  • Работает под Windows, Linux, Mac

Instaloader

Сайт: github.com/instaloader/instaloader

Установка:

pip3 install instaloader

Использование:

instaloader profile <название аккаунта>

Особенности:

  • Архивирует сообщения, фото и видео из Instagram
  • Сохраняет в файлы в формате JSON
  • Только командная строка
  • Работает под Windows, Linux, Mac

APIBackuper

Сайт: github.com/ruarxive/apibackuper

Установка:

pip install apibackuper

Запуск (требует конфиг файла):

apibackuper run

Особенности:

  • Архивирует данные из открытых API
  • Сохраняет в файлы в формате JSON
  • Только командная строка
  • Работает под Windows, Linux, Mac

Примеры специализированных архивов

Software Heritage

Проект по архивации исходного кода программного обеспечения.

OpenLibrary

Архив книг и библиотечных материалов.

Diafilmy.su

Архив диафильмов.

Как и кем создаются специализированные архивы?

Бизнесом

  • Архив телеграма: Tgstat.ru

Государством

  • Проект OpenAIRE для хранения научных статей

Научными организациями

  • Архив данных: Zenodo, Software Heritage

Сообществами

  • Проект Abandonia по сохранению старых игр
  • WikiTeam

Объективные сложности

Активное препятствование

Некоторые онлайн-сервисы активно препятствуют любой архивации их контента.

Не всегда возможно проактивно

Нет инструментов, есть препятствия со стороны источников контента.

Иной способ подачи контента

Требуются другие инструменты подачи, чем файлов, классические интерфейсы не подходят.

Требуется специальное проектирование

Требуется специальное проектирование баз данных для работы.

Скорее архив данных

Скорее архив данных, чем архив файлов.

Самые проблемные платформы

  • Meta (Facebook, Instagram, WhatsApp и др.)
  • Bytedance (TikTok)
  • Pinterest

Что такое Data Take-Out?

Data Take-Out — это возможность получить копию своих данных из онлайн-сервисов.

Awesome Data Take-Out List

Сайт: github.com/ivbeg/awesome-data-takeout

Список сервисов и ссылок на сервисах, позволяющих забрать весь контент пользователя.

Связанные материалы