← retour aux snippets

pandas: duplicates (drop et keep)

Détecter et supprimer les doublons avec différentes stratégies.

objectif

Détecter et supprimer les doublons avec différentes stratégies.

code minimal

import pandas as pd

df = pd.DataFrame({"id":[1,1,2,2,2], "v":[10,10,20,21,20]})
print(df.duplicated(["id","v"]).tolist())

utilisation

import pandas as pd

df = pd.DataFrame({"id":[1,1,2,2,2], "v":[10,10,20,21,20]})
dedup = df.drop_duplicates(["id"], keep="last")
print(dedup.to_dict(orient="records"))

variante(s) utile(s)

import pandas as pd

df = pd.DataFrame({"id":[1,1,2,2,2], "v":[10,10,20,21,20]})
print(df.drop_duplicates(["id","v"]).shape)

notes

  • keep peut être ‘first’, ‘last’ ou False (supprime tous les doublons).