objectif
Versionner des datasets et artefacts ML sans les mettre dans Git.
code minimal
# initialiser dvc (dans un repo Git)
dvc init
git commit -m "chore: init dvc"
# ajouter un dataset
dvc add data/raw/dataset.csv
git add data/raw/dataset.csv.dvc .gitignore
git commit -m "data: track dataset"
utilisation
# configurer un remote (ex: S3)
dvc remote add -d storage s3://data-pm-dvc
dvc remote modify storage endpointurl https://s3.eu-west-3.amazonaws.com
dvc push
variante(s) utile(s)
# reproduire un pipeline
dvc repro
# récupérer les données d'une branche/commit
git checkout feature-exp && dvc pull
notes
- DVC stocke les métadonnées dans les .dvc et .dvc/cache; les blobs vont sur le remote.
- ajoutez
.dvc/au .gitignore; ne poussez jamais les gros fichiers dans Git.