Перейти к основному содержимому

DH.1. Введение в цифровую архивацию

Основы цифровой архивации, понятия born-digital, цели и задачи цифрового сохранения.

Презентация

Содержание курса

Курс "Цифровая архивация" включает:

  • Введение в цифровые архивы
  • Веб-архивация
  • Архивация специализированных цифровых объектов
  • Инструменты цифровой архивации

Что такое цифровая архивация?

Цифровая архивация (digital preservation) — это формальный подход к тому, чтобы гарантировать, что цифровая информация, имеющая постоянную ценность, остается доступной и пригодной для использования.

Это включает:

  • Планирование
  • Распределение ресурсов
  • Применение методов и технологий сохранения
  • Политику, стратегии и действия для обеспечения доступа к переформатированному и "рожденному цифровым" (born-digital) контенту

Независимо от проблем, связанных с неработоспособностью цифровых носителей и технологическими изменениями.

Примечание: В России цифровую архивацию также чаще называют электронным архивированием (e-archiving).

Что такое born-digital?

Рожденный в цифре (born-digital / digital born) — термин "рожденный цифровым" относится к материалам, которые создаются в цифровой форме.

Это отличается от процесса оцифровки (цифрового переформатирования), посредством которого аналоговые материалы становятся цифровыми, как в случае файлов, созданных путем сканирования физических бумажных записей.

Примеры объектов "рожденных в цифре"

  • Веб-сайт
  • Фотография с соцсети (VK)
  • Код программы

Зачем нужно архивировать "цифру"?

Цели цифровой архивации

  • Сохранение особо ценных знаний — например, научные данные
  • Сохранение новейшей истории — современные цифровые материалы
  • Подотчетность государства и власти — любые публичные материалы органов власти
  • Цифровая форензика — расследования
  • Исполнение законов и регуляторных требований
  • Создание общедоступных материалов для исследователей

Примеры цифровых архивов

Harvard Dataverse

Сайт: dataverse.harvard.edu

Проект создан для сохранения научных данных, создаваемых при подготовке научных работ. Эти знания имеют особую ценность.

Интернет архив

Сайт: archive.org

Основная цель проекта Интернет-архив — сохранение современной истории в максимально возможном объёме.

UK Government Web Archive

Сайт: www.nationalarchives.gov.uk/webarchive

Государственный веб-архив Великобритании осуществляет архивацию всех государственных цифровых ресурсов: сайтов, соцсетей, видео, твитов и т.д. с 1996 г.

Цель архивации: полная подотчетность власти.

Common Crawl

Сайт: www.commoncrawl.org

Общедоступный открытый поисковый индекс, сравнимый с поиском Google или Яндекса, в виде базы данных с возможностью доступа к ретроспективным данным.

Используется исследователями для обучения языковых моделей ИИ.

End of Term Archive

Сайт: eotarchive.cdlib.org

Архив всех государственных сайтов федеральной власти США, создаваемый библиотекой штата Калифорния при смене Президента (при завершении срока предыдущего Президента) США.

Создан для обеспечения подотчетности власти.

Типы цифровых архивов

Цифровые архивы могут быть:

  • Глобальными
  • Национальными
  • Специализированными / тематическими
  • Академическими
  • Корпоративными
  • Некоммерческими
  • Коммерческими

Пример коммерческого архива

Tgstat (tgstat.ru) — коммерческий проект по сбору статистики сервисов Telegram и ведению архива и поиску по архиву всех общедоступных публикаций в Telegram.

Цифровые объекты

Основные характеристики

Цифровые объекты (цифровые артефакты):

  • Создаются с разными целями
  • Архивируются разными стратегиями и разными инструментами
  • Отличаются по доступности (например, сайты чаще доступны, а электронная почта чаще нет)
  • Имеют разные форматы хранения
  • Хранение изображений и документов зависит от того, какими инструментами их создавали

Пример: Фотография в Telegram канале сохраняется через API Telegram, а в Twitter — через API Twitter.

Виды цифровых объектов

  • Веб-сайты
  • Цифровые тексты
  • Публикации в соцсетях
  • Фотографии и цифровые изображения
  • Видео
  • Компьютерный код
  • Компьютерные программы
  • Компьютерные игры
  • Инженерные схемы (CAD)
  • Электронная почта
  • Электронные документы
  • Иные двоичные файлы

Примеры специализированных архивов

Software Heritage (www.softwareheritage.org) — проект по архивации общедоступного открытого исходного кода. Код собирается из таких платформ как GitHub, GitLab и др.

Форматы файлов и технологии

Основные тезисы

  • Форматы файлов могут сильно варьироваться в зависимости от вида цифрового объекта
  • Для электронных писем есть около десятка форматов их хранения, аналогично для изображений, видео и документов
  • Форматы файлов неразрывно связаны с возможностью работы с ними и доступностью инструментов для такой работы
  • Крупнейшие архивы создают реестры форматов файлов, рекомендации и требования к архивируемым файлам/объектам
  • Не всегда есть возможность задать получаемые форматы файлов. При веб-архивации архивируется всё, и надо уметь работать с любыми форматами

Пример проблемы: Файлы программы Lexicon из 90-х годов сейчас не открыть современными редакторами текстов.

Пример решения: Национальные архивы США рекомендуют использовать открытые форматы odt вместо форматов MS Word.

Примеры форматов файлов

РасширениеНазваниеВид объектаЕсть открытая спецификация?Рекомендация к использованию
.PDFPortable document formatЦифровой текстДаДа
.JPGJPEG (Joint Photographic Experts Group)ИзображениеДаДа
.DOCMS Word DocumentЦифровой текстЧастичноДа
.WARCWeb ARCiveВеб-сайтДаДа
.RARRAR Archive FileАрхивОграниченноНет
.ACCDBMicrosoft Access ACCDB FileБаза данныхНетНет

Это упрощённое описание, подробнее в реестрах форматов файлов.

Реестры и руководства по архивации форматов файлов

  • PRONOM — The technical registry (Great Britain)
  • Digital Preservation File Format Recommendations (Canada)
  • File formats and standards (Digital Preservation Handbook)
  • File Formats Assessments (Great Britain)
  • File formats wiki (Archive Team community)
  • Sustainability of Digital Formats: Planning for Library of Congress Collections (United States)

Этапы и задачи цифровой архивации

Обобщённые ключевые этапы

  1. Планирование (planning)
  2. Получение/передача (transfer/acquisition)
  3. Загрузка контента в хранилище (ingest)
  4. Сохранение контента (preserve)
  5. Обеспечение доступа (access)

Планирование

  • Определиться со стратегией архивации
  • Определить виды сохраняемых цифровых объектов
  • Выбрать инструменты архивации
  • Собрать ссылки, если архивация публичных ресурсов
  • Установить общие правила, если "регулируемых ресурсов"

Получение

  • Автоматически собирать цифровые ресурсы, когда это возможно
  • Организовать техническую инфраструктуру сбора контента
  • Организовать приём контента, если его передают вручную

Загрузка контента

  • Оформить контент/данные по стандартам архивации
  • Перенести собранный контент и данные в долгосрочное хранилище

Сохранение контента

  • Добавить контент в каталог
  • Извлечь метаданные из сохраненного контента
  • Обеспечить долгосрочное распределенное безопасное хранение

Доступ

  • Создать интерфейс для доступа к контенту
  • Организовать возможность поиска по контенту
  • Создать наборы данных на основе контента

Другие задачи

  • Сбор и систематизация ссылок на цифровые объекты для сохранения
  • Подготовка политик и требований к созданию контента, пригодного для архивации
  • Каталогизация и организация поиска
  • Извлечение метаданных из собранного контента
  • Удаление чувствительной информации (напр. персональных данных)
  • Автоматизация сбора данных напрямую из первоисточников
  • Разработка требований и стандартизация сбора контента
  • Создание инструментов доступа и воспроизведения контента

Пример: Цифровой архив НИУ ВШЭ

Задачи

  • Создать цифровой архив НИУ ВШЭ
  • Сделать его общедоступным в сети интернет
  • На основе архива создать базы данных для курса по цифровой архивации

Пример списка задач по архивации сайтов университета

Планирование:

  • Собрать список ссылок на сайты
  • Подсчитать и запросить ресурсы для хранения

Получение:

  • Написать письма веб-мастерам
  • Запустить программы архивации сайтов

Загрузка:

  • Загрузить архивы сайтов

Сохранение:

  • Извлечь метаданные из файлов
  • Каталогизировать собранное

Доступ:

  • Создать и опубликовать наборы данных для студентов
  • Организовать публичный доступ к архивам

Расширенный список: добавление соцсетей

Планирование:

  • Собрать список ссылок на сайты
  • Собрать список ссылок на соцсети
  • Подсчитать и запросить ресурсы для хранения

Получение:

  • Написать письма веб-мастерам
  • Запустить программы архивации сайтов
  • Запустить программы архивации соцсетей

Загрузка:

  • Загрузить архивы сайтов
  • Загрузить архивы соцсетей

Сохранение:

  • Извлечь метаданные из файлов
  • Каталогизировать собранное

Доступ:

  • Создать и опубликовать наборы данных для студентов
  • Организовать публичный доступ к архивам

Материалы для самостоятельного изучения

  • Digital Preservation Handbook
  • NARA Digital Preservation Strategy 2022-2026
  • UNESCO Charter on Digital Heritage
  • UK National archives Digital preservation workflows

Связанные материалы