objectif
Détecter et supprimer les doublons avec différentes stratégies.
code minimal
import pandas as pd
df = pd.DataFrame({"id":[1,1,2,2,2], "v":[10,10,20,21,20]})
print(df.duplicated(["id","v"]).tolist())
utilisation
import pandas as pd
df = pd.DataFrame({"id":[1,1,2,2,2], "v":[10,10,20,21,20]})
dedup = df.drop_duplicates(["id"], keep="last")
print(dedup.to_dict(orient="records"))
variante(s) utile(s)
import pandas as pd
df = pd.DataFrame({"id":[1,1,2,2,2], "v":[10,10,20,21,20]})
print(df.drop_duplicates(["id","v"]).shape)
notes
keeppeut être ‘first’, ‘last’ ou False (supprime tous les doublons).