← retour aux snippets

pandas: to_parquet (pyarrow rapide)

Écrire un DataFrame en parquet colonne, compressé.

objectif

Écrire un DataFrame en parquet colonne, compressé.

code minimal

import pandas as pd
df = pd.DataFrame({"id":[1,2], "x":[3.14, 2.71]})
# nécessite pyarrow installé
_ = df.to_parquet("data.parquet", index=False)
print("ok")

utilisation

import pandas as pd
df = pd.read_parquet("data.parquet")
print(df.shape[1] == 2)

variante(s) utile(s)

import pandas as pd
df = pd.DataFrame({"id":[1,1,2], "part":["a","b","a"]})
# partitionnement par colonne (pyarrow.dataset lors de la lecture)
_ = df.to_parquet("out_dir", partition_cols=["part"], index=False)
print("ok")

notes

  • Parquet est colonne, efficace pour colonnes sélectionnées.