filegetter
filegetter — это инструмент командной строки для сбора файлов из публичных источников данных с использованием URL-паттернов и конфигурационных файлов.
Он полезен для массового скачивания файлов по заданным шаблонам URL, что часто требуется при архивации датасетов, документов или медиа-файлов с публичных ресурсов.
Основные возможности
- Паттерны URL: Поддержка шаблонов для генерации списка URL файлов
- Конфигурационные файлы: Настройка через YAML или JSON
- Параллельная загрузка: Поддержка многопоточной загрузки
- Повторные попытки: Автоматический retry при ошибках
- Проверка целостности: Опциональная проверка контрольных сумм
- Гибкая фильтрация: Фильтрация по расширениям, размерам и другим параметрам
Установка
Требуется Python 3.6+.
pip install filegetter