objectif
Charger un dossier Parquet et calculer paresseusement.
code minimal
import dask.dataframe as dd
# ddf = dd.read_parquet("s3://bucket/data/")
# print(ddf.x.mean().compute())
print("concept ok")
utilisation
import dask.dataframe as dd
# ddf = dd.read_csv("*.csv")
print("csv concept")
variante(s) utile(s)
# ddf.to_parquet("out/")
print("variants ok")
notes
- Choisir un scheduler adapté à l’environnement.