← retour aux snippets

pandas: to_parquet / read_parquet

Lire/écrire Parquet avec pyarrow ou fastparquet.

objectif

Lire/écrire Parquet avec pyarrow ou fastparquet.

code minimal

import pandas as pd

df = pd.DataFrame({"id":[1,2], "x":[10.0,20.0]})
df.to_parquet("data.parquet", index=False)
print(pd.read_parquet("data.parquet").to_dict(orient="records"))

utilisation

import pandas as pd

df = pd.DataFrame({"a":[1,2,3]})
df.to_parquet("part/a=1/part-0.parquet", index=False)
print(pd.read_parquet("part").head(0).columns.tolist())

variante(s) utile(s)

import pandas as pd

df = pd.DataFrame({"x":[1]})
df.to_parquet("out.snappy.parquet", compression="snappy", index=False)
print("written")

notes

  • Choisir le moteur via engine='pyarrow' si nécessaire.