Реестры форматов файлов
При долгосрочном цифровом хранении (digital preservation) недостаточно знать расширение файла (например, .doc). Один и тот же файл может быть создан разными версиями программного обеспечения, иметь разные особенности структуры и требовать разных инструментов для открытия.
Для точной идентификации форматов используются реестры форматов и уникальные идентификаторы.
Почему не расширения?
Расширения файлов ненадежны:
- Они могут быть изменены пользователем (переименование
.jpgв.png). - Они неоднозначны (
.docможет быть файлом Word 97, Word 2003 или просто текстовым файлом). - Они не дают информации о версиях формата.
Основные реестры
PRONOM (The National Archives UK)
PRONOM — это онлайн-реестр технических сведений о форматах файлов и программном обеспечении. Он поддерживается Национальным архивом Великобритании и является стандартом де-факто в цифровой архивации.
- PUID (PRONOM Unique Identifier): Уникальный идентификатор формата в системе PRONOM.
- Пример:
fmt/40(Microsoft Word Document 97-2003) - Пример:
x-fmt/111(Plain Text File)
- Пример:
Идентификаторы PUID устойчивы и используются большинством инструментов идентификации (например, DROID, Siegfried).
- Использование: Siegfried, FIDO, DROID
- Обновления: Регулярные обновления
- Доступ: Онлайн база данных
Library of Congress Sustainability of Digital Formats (LC FDD)
Ресурс Библиотеки Конгресса США, описывающий устойчивость цифровых форматов.
- Предоставляет подробные описания технических характеристик.
- Оценивает форматы по критериям устойчивости (раскрытость, распространенность, прозрачность, отсутствие патентов).
- Имеет свои идентификаторы (например,
fdd000397для PDF/A-1).
Wikidata
Wikidata становится все более важным хабом для сведений о форматах файлов.
- Связывает идентификаторы разных систем (PRONOM, LC, MIME-типы).
- Позволяет делать сложные SPARQL-запросы.
- Идентификатор сущности (QID), например Q11272 (Microsoft Word).
Digipres.org
Digipres Commons — это ресурс сообщества, агрегирующий данные из разных источников (PRONOM, Tika, Wikidata). Полезен для быстрого поиска информации о форматах.
File Formats Wiki
File Formats Wiki — вики-энциклопедия форматов файлов.
- Содержание: Подробные описания форматов
- Примеры: Примеры файлов различных форматов
- Использование: Справочная информация
Just Solve It
Just Solve It - File Formats Wiki — сообщественный проект документирования форматов файлов.
- Содержание: Широкий спектр форматов
- Сообщество: Активное сообщество участников
- Использование: Документирование форматов
Game File Format Central
Game File Format Central — проект документирования более 1300 игровых форматов файлов.
- Специализация: Игровые форматы
- Содержание: Подробная документация
- Использование: Для игровых архивов
Использование регистров
Поиск информации о формате
- Найдите формат в регистре
- Изучите характеристики формата
- Проверьте риски сохранения
- Определите рекомендуемые действия
Интеграция с инструментами
Многие инструменты используют регистры:
- Siegfried: Использует PRONOM
- FIDO: Использует PRONOM
- DROID: Использует PRONOM
Оценка рисков
Регистры помогают оценить риски форматов:
- Поддержка: Насколько хорошо поддерживается формат
- Риски: Какие риски существуют для сохранения
- Рекомендации: Что делать с форматом
Сравнение регистров
| Регистр | Источник | Специализация | Обновления | Использование |
|---|---|---|---|---|
| PRONOM | Национальный архив Великобритании | Общие форматы | Регулярные | Для инструментов |
| LC FDD | Библиотека Конгресса США | Устойчивость форматов | Регулярные | Для оценки устойчивости |
| Wikidata | Сообщество | Универсальный хаб | Постоянные | Для связывания идентификаторов |
| Digipres.org | Сообщество | Агрегация данных | Постоянные | Для быстрого поиска |
| File Formats Wiki | Сообщество | Общие форматы | Постоянные | Для справочной информации |
| Just Solve It | Archive Team | Широкий спектр | Постоянные | Для документирования |
| Game File Format Central | Сообщество | Игровые форматы | Постоянные | Для игровых архивов |
Best practices
Выбор регистра
- Используйте PRONOM для инструментов идентификации
- Используйте LC FDD для оценки устойчивости форматов
- Используйте File Formats Wiki для справочной информации
- Используйте Just Solve It для редких форматов
- Используйте Game File Format Central для игровых форматов
Вклад в регистры
Можно внести вклад в регистры:
- Добавление новых форматов
- Улучшение документации
- Исправление ошибок
- Добавление примеров
Рекомендации для Ruarxive
При описании цифровых коллекций в Ruarxive мы рекомендуем:
- Всегда проводить идентификацию форматов с помощью инструментов (Siegfried, DROID).
- Сохранять PUID (PRONOM ID), так как это наиболее точный идентификатор.
- Сохранять MIME-тип, так как он широко используется в вебе, но помнить о его недостаточной детализации.
Ресурсы
- PRONOM
- Library of Congress Digital Formats
- Wikidata
- Digipres Commons
- File Formats Wiki
- Just Solve It
- Game File Format Central