objectif
Lire seulement un sous-ensemble de colonnes d’un parquet.
code minimal
import pandas as pd
df = pd.DataFrame({"a":[1,2], "b":[3,4]})
df.to_parquet("mini.parquet", index=False)
print(pd.read_parquet("mini.parquet", columns=["a"])["a"].tolist())
utilisation
import pandas as pd
pd.DataFrame({"x":[1], "y":[2]}).to_parquet("tmp.parquet", index=False)
print("x" in pd.read_parquet("tmp.parquet", columns=["x"]).columns)
variante(s) utile(s)
import pandas as pd
pd.DataFrame({"x":[1], "y":[2]}).to_parquet("tmp2.parquet", index=False)
print(pd.read_parquet("tmp2.parquet").shape)
notes
- Réduit IO et mémoire; utile sur datasets larges.