← retour aux snippets

pandas: read_parquet colonnes

Lire seulement un sous-ensemble de colonnes d'un parquet.

objectif

Lire seulement un sous-ensemble de colonnes d’un parquet.

code minimal

import pandas as pd
df = pd.DataFrame({"a":[1,2], "b":[3,4]})
df.to_parquet("mini.parquet", index=False)
print(pd.read_parquet("mini.parquet", columns=["a"])["a"].tolist())

utilisation

import pandas as pd
pd.DataFrame({"x":[1], "y":[2]}).to_parquet("tmp.parquet", index=False)
print("x" in pd.read_parquet("tmp.parquet", columns=["x"]).columns)

variante(s) utile(s)

import pandas as pd
pd.DataFrame({"x":[1], "y":[2]}).to_parquet("tmp2.parquet", index=False)
print(pd.read_parquet("tmp2.parquet").shape)

notes

  • Réduit IO et mémoire; utile sur datasets larges.