Перейти к основному содержимому

Декабрьские обновления базы знаний

· 3 мин. чтения
Ivan Begtin
Founder of Ruarxive

🎉 Декабрьские обновления базы знаний Ruarxive

Мы рады сообщить о значительных улучшениях в базе знаний Ruarxive! В декабре мы добавили новую документацию по важным инструментам архивирования и расширили существующие руководства.

📱 Новое: Документация по TDL (Telegram Downloader)

Мы добавили подробное руководство по tdl — мощному инструменту для архивации Telegram на языке Go.

Ключевые особенности TDL:

  • ⚡ Высокая скорость загрузки благодаря многопоточности и протоколу MTProto
  • 🔓 Обход ограничений на пересылку контента (protected content)
  • 📦 Экспорт сообщений и медиа в JSON
  • 💻 Поддержка Linux, macOS и Windows

TDL отлично подходит для загрузки больших объемов файлов из Telegram, когда критична скорость. Для структурированной архивации с сохранением контекста мы по-прежнему рекомендуем наш собственный инструмент tgarc.

🌐 Обновлены руководства по архивации сайтов

Мы существенно обновили документацию по созданию цифровых архивов веб-сайтов в разделе Как создать цифровой архив сайтов:

  • HTTrack — визуальное приложение для начинающих
  • Wget — классический инструмент командной строки с богатым функционалом
  • Wpull — современная альтернатива Wget с поддержкой PhantomJS

Руководства теперь включают больше практических примеров и советов по настройке для различных сценариев использования.

🛠️ Расширена документация по инструментам Ruarxive

Мы продолжаем документировать собственные инструменты экосистемы Ruarxive:

  • tgarc — потоковая архивация Telegram каналов и чатов
  • ydiskarc — скачивание публичных папок Яндекс.Диска
  • wparc — архивация WordPress сайтов через API

Все инструменты доступны через pip и активно поддерживаются нашей командой.

📖 Новое: Раздел курса по цифровой архивации

Мы добавили полноценный курс по цифровой архивации с четырьмя лекциями:

  • DH.1. Введение в цифровую архивацию — основы, понятия born-digital, цели и задачи
  • DH.2. Веб-архивация — методы, инструменты и форматы веб-архивов
  • DH.3. Архивация специализированных ресурсов — работа с различными типами цифровых ресурсов
  • DH.4. Интернет архив с точки зрения цифрового архивиста — практические аспекты работы с архивами

Особенности курса:

  • 📄 Презентации встроены прямо на страницы для удобного просмотра
  • 📥 Возможность скачать PDF-презентации
  • 📚 Структурированный, читаемый контент с практическими примерами
  • 🔗 Связанные материалы и перекрестные ссылки

Все презентации доступны для просмотра и скачивания прямо со страниц лекций.

🔧 Технические улучшения

  • Улучшена читаемость текста на страницах курса благодаря использованию pdfplumber для извлечения текста из PDF
  • Исправлены проблемы с URL-кодированием для файлов с пробелами и кириллицей
  • Оптимизирована работа встроенных PDF-презентаций

📚 Что дальше?

В наших планах:

  • Документация по форматам файлов (WACZ, WARC)
  • Руководства по обработке веб-архивов
  • Расширенные гайды по архивации социальных сетей
  • Документация по инструментам идентификации форматов
  • Дополнительные лекции курса

Следите за обновлениями!


💬 Вопросы и предложения: GitHub Issues