DVC (Data Version Control) - система контроля версий для ML:
Установка:
pip install dvc # или conda install -c conda-forge dvc
Инициализация:
dvc init dvc remote add -d myremote s3://my-bucket/dvc-storage dvc config core.remote myremote
Добавление файлов:
dvc add data/train.csv dvc add data/images/ dvc add data/dataset.csv --desc "Training dataset v1.0"
Коммит и синхронизация:
dvc commit git add data/train.csv.dvc git commit -m "Add training dataset" dvc pull dvc push
Просмотр метаданных:
dvc info data/train.csv.dvc dvc list . dvc status
Теги и версии:
dvc tag add v1.0 dvc tag list dvc checkout v1.0
Организация данных:
Работа в команде:
Производительность: