manipuler des sous-ensembles de données et traiter les valeurs absentes est fondamental.
objectifs
- sélectionner lignes et colonnes
- filtrer selon conditions
- gérer les NaN
explication détaillée
.loc[ligne, colonne]/.ilocpar index- filtres :
df[df["col"] > 10] df.dropna(),df.fillna(val)
exemples exécutables
import pandas as pd
import numpy as np
df = pd.DataFrame({
"a": [1, np.nan, 3],
"b": [4, 5, np.nan]
})
print(df.dropna())
print(df.fillna(0))
bonnes pratiques
- choisir la bonne méthode selon le besoin (
locvsiloc) - conserver une copie si modification non souhaitée
pièges courants
- oublier que
dropnaretourne une nouvelle copie par défaut - confondre
NaNet zéro
exercices
- filtrer un dataframe pour ne garder que les lignes où
age > 30. - remplacer toutes les valeurs NaN par la moyenne de la colonne.
- sélectionner uniquement certaines colonnes.