← retour aux snippets

dask: read_parquet et agrégation

Charger un dossier Parquet et calculer paresseusement.

python bigdata #dask#parquet#aggregate

objectif

Charger un dossier Parquet et calculer paresseusement.

code minimal

import dask.dataframe as dd

# ddf = dd.read_parquet("s3://bucket/data/")
# print(ddf.x.mean().compute())
print("concept ok")

utilisation

import dask.dataframe as dd
# ddf = dd.read_csv("*.csv")
print("csv concept")

variante(s) utile(s)

# ddf.to_parquet("out/")
print("variants ok")

notes

  • Choisir un scheduler adapté à l’environnement.