Перейти к основному содержимому

Реестры форматов файлов

При долгосрочном цифровом хранении (digital preservation) недостаточно знать расширение файла (например, .doc). Один и тот же файл может быть создан разными версиями программного обеспечения, иметь разные особенности структуры и требовать разных инструментов для открытия.

Для точной идентификации форматов используются реестры форматов и уникальные идентификаторы.

Почему не расширения?

Расширения файлов ненадежны:

  • Они могут быть изменены пользователем (переименование .jpg в .png).
  • Они неоднозначны (.doc может быть файлом Word 97, Word 2003 или просто текстовым файлом).
  • Они не дают информации о версиях формата.

Основные реестры

PRONOM (The National Archives UK)

PRONOM — это онлайн-реестр технических сведений о форматах файлов и программном обеспечении. Он поддерживается Национальным архивом Великобритании и является стандартом де-факто в цифровой архивации.

  • PUID (PRONOM Unique Identifier): Уникальный идентификатор формата в системе PRONOM.
    • Пример: fmt/40 (Microsoft Word Document 97-2003)
    • Пример: x-fmt/111 (Plain Text File)

Идентификаторы PUID устойчивы и используются большинством инструментов идентификации (например, DROID, Siegfried).

  • Использование: Siegfried, FIDO, DROID
  • Обновления: Регулярные обновления
  • Доступ: Онлайн база данных

Library of Congress Sustainability of Digital Formats (LC FDD)

Ресурс Библиотеки Конгресса США, описывающий устойчивость цифровых форматов.

  • Предоставляет подробные описания технических характеристик.
  • Оценивает форматы по критериям устойчивости (раскрытость, распространенность, прозрачность, отсутствие патентов).
  • Имеет свои идентификаторы (например, fdd000397 для PDF/A-1).

Wikidata

Wikidata становится все более важным хабом для сведений о форматах файлов.

  • Связывает идентификаторы разных систем (PRONOM, LC, MIME-типы).
  • Позволяет делать сложные SPARQL-запросы.
  • Идентификатор сущности (QID), например Q11272 (Microsoft Word).

Digipres.org

Digipres Commons — это ресурс сообщества, агрегирующий данные из разных источников (PRONOM, Tika, Wikidata). Полезен для быстрого поиска информации о форматах.

File Formats Wiki

File Formats Wiki — вики-энциклопедия форматов файлов.

  • Содержание: Подробные описания форматов
  • Примеры: Примеры файлов различных форматов
  • Использование: Справочная информация

Just Solve It

Just Solve It - File Formats Wiki — сообщественный проект документирования форматов файлов.

  • Содержание: Широкий спектр форматов
  • Сообщество: Активное сообщество участников
  • Использование: Документирование форматов

Game File Format Central

Game File Format Central — проект документирования более 1300 игровых форматов файлов.

  • Специализация: Игровые форматы
  • Содержание: Подробная документация
  • Использование: Для игровых архивов

Использование регистров

Поиск информации о формате

  1. Найдите формат в регистре
  2. Изучите характеристики формата
  3. Проверьте риски сохранения
  4. Определите рекомендуемые действия

Интеграция с инструментами

Многие инструменты используют регистры:

  • Siegfried: Использует PRONOM
  • FIDO: Использует PRONOM
  • DROID: Использует PRONOM

Оценка рисков

Регистры помогают оценить риски форматов:

  • Поддержка: Насколько хорошо поддерживается формат
  • Риски: Какие риски существуют для сохранения
  • Рекомендации: Что делать с форматом

Сравнение регистров

РегистрИсточникСпециализацияОбновленияИспользование
PRONOMНациональный архив ВеликобританииОбщие форматыРегулярныеДля инструментов
LC FDDБиблиотека Конгресса СШАУстойчивость форматовРегулярныеДля оценки устойчивости
WikidataСообществоУниверсальный хабПостоянныеДля связывания идентификаторов
Digipres.orgСообществоАгрегация данныхПостоянныеДля быстрого поиска
File Formats WikiСообществоОбщие форматыПостоянныеДля справочной информации
Just Solve ItArchive TeamШирокий спектрПостоянныеДля документирования
Game File Format CentralСообществоИгровые форматыПостоянныеДля игровых архивов

Best practices

Выбор регистра

  • Используйте PRONOM для инструментов идентификации
  • Используйте LC FDD для оценки устойчивости форматов
  • Используйте File Formats Wiki для справочной информации
  • Используйте Just Solve It для редких форматов
  • Используйте Game File Format Central для игровых форматов

Вклад в регистры

Можно внести вклад в регистры:

  • Добавление новых форматов
  • Улучшение документации
  • Исправление ошибок
  • Добавление примеров

Рекомендации для Ruarxive

При описании цифровых коллекций в Ruarxive мы рекомендуем:

  1. Всегда проводить идентификацию форматов с помощью инструментов (Siegfried, DROID).
  2. Сохранять PUID (PRONOM ID), так как это наиболее точный идентификатор.
  3. Сохранять MIME-тип, так как он широко используется в вебе, но помнить о его недостаточной детализации.

Ресурсы

Связанные материалы