Декабрьские обновления базы знаний
🎉 Декабрьские обновления базы знаний Ruarxive
Мы рады сообщить о значительных улучшениях в базе знаний Ruarxive! В декабре мы добавили новую документацию по важным инструментам архивирования и расширили существующие руководств а.
📱 Новое: Документация по TDL (Telegram Downloader)
Мы добавили подробное руководство по tdl — мощному инструменту для архивации Telegram на языке Go.
Ключевые особенности TDL:
- ⚡ Высокая скорость загрузки благодаря многопоточности и протоколу MTProto
- 🔓 Обход ограничений на пересылку контента (protected content)
- 📦 Экспорт сообщений и медиа в JSON
- 💻 Поддержка Linux, macOS и Windows
TDL отлично подходит для загрузки больших объемов файлов из Telegram, когда критична скорость. Для структурированной архивации с сохранением контекста мы по-прежнему рекомендуем наш собственный инструмент tgarc.
🌐 Обновлены руководства по архивации сайтов
Мы существенно обновили документацию по созданию цифровых архивов веб-сайтов в разделе Как создать цифровой архив сайтов:
- HTTrack — визуальное приложение для начинающих
- Wget — классический инструмент командной строки с богатым функционалом
- Wpull — современная альтернатива Wget с поддержкой PhantomJS
Руководства теперь включают больше практических примеров и советов по настройке для различных сценариев использования.
🛠️ Расширена документация по инструментам Ruarxive
Мы продолжаем документировать собственные инструменты экосистемы Ruarxive:
- tgarc — потоковая архивация Telegram каналов и чатов
- ydiskarc — скачивание публичных папок Яндекс.Диска
- wparc — архивация WordPress сайтов через API
Все инструменты доступны через pip и активно поддерживаются нашей командой.
📖 Новое: Раздел курса по цифровой архивации
Мы добавили полноценный курс по цифровой архивации с четырьмя лекциями:
- DH.1. Введение в цифровую архивацию — основы, понятия born-digital, цели и задачи
- DH.2. Веб-архивация — методы, инструменты и форматы веб-архивов
- DH.3. Архивация специализированных ресурсов — работа с различными типами цифровых ресурсов
- DH.4. Интернет архив с точки зрения цифрового архивиста — практические аспекты работы с архивами
Особенности курса:
- 📄 Презентации встроены прямо на страницы для удобного просмотра
- 📥 Возможность скачать PDF-презентации
- 📚 Структурированный, читаемый контент с практическими примерами
- 🔗 Связанные материалы и перекрестные ссылки
Все презентации доступны для просмотра и скачивания прямо со страниц лекций.
🔧 Технические улучшения
- Улучшена читаемость текста на страницах курса благодаря использованию pdfplumber для извлечения текста из PDF
- Исправлены проблемы с URL-кодированием для файлов с пробелами и кириллицей
- Оптимизирована работа встроенных PDF-презентаций
📚 Что дальше?
В наших планах:
- Документация по форматам файлов (WACZ, WARC)
- Руководства по обработке веб-архивов
- Расширенные гайды по архивации социальных сетей
- Документация по инструментам идентификации форматов
- Дополнительные лекции курса
Следите за обновлениями!
💬 Вопросы и предложения: GitHub Issues