← retour aux snippets

dvc: init et add pour versionner les données

Initialiser DVC dans un repo Git, ajouter des données et configurer un remote pour les stocker.

bash data #dvc#ml#versioning

objectif

Versionner des datasets et artefacts ML sans les mettre dans Git.

code minimal

# initialiser dvc (dans un repo Git)
dvc init
git commit -m "chore: init dvc"

# ajouter un dataset
dvc add data/raw/dataset.csv
git add data/raw/dataset.csv.dvc .gitignore
git commit -m "data: track dataset"

utilisation

# configurer un remote (ex: S3)
dvc remote add -d storage s3://data-pm-dvc
dvc remote modify storage endpointurl https://s3.eu-west-3.amazonaws.com
dvc push

variante(s) utile(s)

# reproduire un pipeline
dvc repro

# récupérer les données d'une branche/commit
git checkout feature-exp && dvc pull

notes

  • DVC stocke les métadonnées dans les .dvc et .dvc/cache; les blobs vont sur le remote.
  • ajoutez .dvc/ au .gitignore; ne poussez jamais les gros fichiers dans Git.