objectif
Lire/écrire Parquet avec pyarrow ou fastparquet.
code minimal
import pandas as pd
df = pd.DataFrame({"id":[1,2], "x":[10.0,20.0]})
df.to_parquet("data.parquet", index=False)
print(pd.read_parquet("data.parquet").to_dict(orient="records"))
utilisation
import pandas as pd
df = pd.DataFrame({"a":[1,2,3]})
df.to_parquet("part/a=1/part-0.parquet", index=False)
print(pd.read_parquet("part").head(0).columns.tolist())
variante(s) utile(s)
import pandas as pd
df = pd.DataFrame({"x":[1]})
df.to_parquet("out.snappy.parquet", compression="snappy", index=False)
print("written")
notes
- Choisir le moteur via
engine='pyarrow'si nécessaire.