Перейти к основному содержимому

Задача: обогащение метаданных архива Эха Москвы

Продолжаем настраивать понятный пользовательский интерфейс для просмотра и поиска по архиву радиостанции "Эхо Москвы" (Echo of Moscow) от Ruarxive на сайте Internet Archive.

Для этого нам нужно добавить фильтры и настроить расширенный поиск (Advanced search) на наш архив. Для выполнения задачи не требуется уметь программировать.

Цель

Улучшить удобство использования архива "Эхо Москвы" и пользовательский интерфейс, добавить важные метаданные о радиопередачах, гостях на английском и русском языках.

Технически

Пошаговый план действий:

  • Сбор метаданных о передачах силами волонтеров и путем парсинга HTML-страниц из архива сайта "Эхо Москвы" в документ Google Spreadsheet.
  • Преобразовать метаданные из Google Spreadsheet в CSV/JSON данные.
  • Обновить метаданные для каждой загруженной передачи из архива "Эха Москвы" с помощью инструмента ia cmd.

Ограничения

Не все передачи могут иметь правильные названия и быть сгруппированы в единые коллекции. Возможно, потребуется разделить некоторые коллекции. Требуется дополнительное исследование после окончательного сбора метаданных.

Основное пространство для работы

  • Google-таблица для корректировки наименований передач, которую начали и продолжают заполнять волонтеры.
  • HTML-файлы сайта "Эхо Москвы" в ZIP-архиве.
  • Аудио-файлы передач, уже опубликованные на сайте Internet Archive.

Задачи

  1. Проверить валидность гиперссылки на передачу из колонки "Ссылка на аудио файлы передачи от Ruarxive на Internet Archive".

  2. Указать для каждой передачи в таблице:

2.1 Для описания внутри каждой ссылки: две версии: на русском и английском языках в отдельных колонках

Для перевода на английский можно использовать встроенную формулу: =GOOGLETRANSLATE(диапазон текста; ru; en).

  • Name_ru: название передачи на русском.

  • Name_en: название передачи на английском.

  • Short Description_ru: взять короткое описание со страницы о передаче и ее выпусках, на русском языке.

  • Short Description_en: то же описание на английском языке.

  • Leading Programs_ru: имя ведущих через запятую, на русском языке.

  • Leading Programs_en: имя ведущих через запятую, на английском языке.

  • Datetime_ru: указать время выхода в эфир со страницы о передаче и ее выпусках на русском языке в формате: день недели, 10:50.

  • Datetime_en: указать время выхода в эфир на английском языке со страницы о передаче и ее выпусках в формате: день недели, 10:50.

  • Period: указать в формате "2007-2015" период выхода передачи.

2.2. Для фильтров по метаданным в интерфейсе: Ориентир: https://archive.org/details/echo-of-moscow?tab=collection

  • Media type: audio, data и другие типы файлов на английском языке (настраиваемый список). Для тех передач, для которых выбрано "data", посмотреть подробнее, что там внутри, и выбрать подходящий формат.

  • Year: указать годы выхода для каждой передачи через запятую в формате: 2007, 2008, 2009 и т.д.

  • Topics & Subjects: название передач на английском языке (настраиваемый список). Можно использовать колонку Name_en.

Извлечение метаданных с веб-сайта

Просмотрите HTML-архив радиостанции "Эхо Москвы". Соберите метаданные выше с русской и английской страниц радиостанции, извлеките метаданные из HTML кода и поместите их в CSV файл локально. Пришлите нам: [email protected].

Контакты

Для кооперации с другими волонтерами, а также по всем вопросам и уточнениям задачи пишите в телеграм-чат @ruarxivechat.