objectif
Écrire un DataFrame en parquet colonne, compressé.
code minimal
import pandas as pd
df = pd.DataFrame({"id":[1,2], "x":[3.14, 2.71]})
# nécessite pyarrow installé
_ = df.to_parquet("data.parquet", index=False)
print("ok")
utilisation
import pandas as pd
df = pd.read_parquet("data.parquet")
print(df.shape[1] == 2)
variante(s) utile(s)
import pandas as pd
df = pd.DataFrame({"id":[1,1,2], "part":["a","b","a"]})
# partitionnement par colonne (pyarrow.dataset lors de la lecture)
_ = df.to_parquet("out_dir", partition_cols=["part"], index=False)
print("ok")
notes
- Parquet est colonne, efficace pour colonnes sélectionnées.