Skip to main content

Задачи

По всем вопросы пишите нам в Telegram-чат проекта @ruarxivechat.

Для всех

Для выполнения задач в этом блоке не требуется специальных навыков программирования.

Задача 1. Разметка файлов по программам Эха Москвы

Начата параллельная загрузка медиа архива Эха Москвы в Интернет-архив (Archive.org), список загруженных аудиозаписей можно посмотреть в аккаунте @ruarxive. В файле archived_list.zip находятся ссылки на файлы.

Для описания всего сохраненного необходима разметка файлов по программам. Сейчас коды программ извлекались из имён файлов и могут иметь такие названия, как 12tango, albac, almamater и другие. Нужна помощь в их разметке и указании названия на русском языке. Полный список кодов программ в приложенном файле programlist.csv.

Без указания названий на русском и на английском языках не получается хорошо заполнить метаданные в Интернет-архиве.

Группа энтузиастов уже начала разметку файлов программ в таблице по ссылке, но еще многое предстоит разметить. Присоединяйтесь!

Разработчикам

У нас есть задачи для тех, кто умеет программировать и готов выступить волонтером, чтобы помочь нам в процессе архивации.

Задача 2. Агрегация и сбор данных из нестандартных источников (не web)

Есть разные каналы обмена информацией, например, каналы в Viber, открытые чаты в WhatsApp и др. Нужны инструменты, дающие возможность скачивать из них данные. Сейчас ничего такого нет, весь этот контент за пределы этих экосистем не выходит.

Задача 3. Выгрузка данных из Instagram

Для инстаграм есть несколько инструментов выгрузки данных, но соцсеть сильно сопротивляется любым попыткам их получить. Даже самый актуальный сейчас инструмент instaloader (https://instaloader.github.io/) не работает без авторизации и регулярно сталкивается с блокировками. Поэтому нужны любые инструменты для сбора данных из Instagram. Лучше всего, если они будут работать с командной строки.

Задача 4. Обновление существующих инструментов веб-архивации

Для веб-архивации существует много инструментов, в том числе разработанных с открытым исходным кодом. Самые простые: httrack и wget.

Сложнее: Nutch и Heritrix. Некоторые инструменты по сложности находятся между ними: wpull и grab-site.

Wpull — это переделанный wget с расширениями на Python, а grab-site — это надстройка над wpull'ом для динамического мониторинга архивации сайтов.

У обоих проектов есть проблема: они не поддерживаются несколько лет. Например, не работают с версиями Python выше 3.5 и Ubuntu выше 18.04. Соответственно, нужна помощь опытных программистов, чтобы обновить утилиты до поддержки последних версий Python и Ubuntu, для корректной работы с Windows.

Задача 5. Визуализация и поиск по архивам каналов и чатов в Telegram

Есть много Telegram чатов и каналов, которые мы архивируем. Данные экспортируются в JSON формате. Нужен инструмент, строящий веб-интерфейс для поиска по архивированным чатам, файлам и т.д.

Проекты в стадии альфа-версии, к которым можно присоединиться:

Задача 6. Извлечение изображений, визуализация и поиск по архивам аккаунтов в Instagram

Мы собрали архива аккаунтов официальных лиц и политиков РФ в Instagram. Сохранён 171 аккаунт. Код архивации и список инстаграм аккаунтов выложены в репозитории на Github, а итоговые данные собраны в архиве объемом 1.4GB.

Успешно были сохранены все сообщения и метаданные, но ограниченно — изображения и видео. Нужно сохранить этот тип контента для этого списка аккаунтов, например, используя инструмент Instaloader.

Также необходимо разработать над архивом Instagram пользовательский интерфейс для навигации, по аналогии с задачей разработки интерфейса по архивам из Telegram каналов.

To do: планы развития проекта

Архивация социальных аккаунтов:

  • организация архивации аккаунтов Youtube (завершено за исключением архивации видео);
  • организация архивации аккаунтов Facebook;
  • организация архивации аккаунтов Вконтакте;
  • организация архивации аккаунтов Slideshare;
  • организация архивации аккаунтов Instagram.
  • специальный сайт и API для доступа к собранным данным.

Архивация веб-сайтов:

  • переход на Heritrix или аналогичные краулеры, создающие WARC файлы;
  • создание интерфейсов просмотра архивных копий онлайн;
  • преобразование накопленных архивов Httrack в формат WARC;
  • регулярное обновление создаваемых архивов госсайтов;
  • архивация не только старых, но и обновляемых официальных сайтов.

Специализированная архивация:

  • создание формы отправки ресурсов, наиболее важных для архивации;
  • создание специализированного API для каждого из специализированных архивов.