pandas : sélection, filtres, valeurs manquantes

manipuler des sous-ensembles de données et traiter les valeurs absentes est fondamental.

objectifs

sélectionner lignes et colonnes
filtrer selon conditions
gérer les NaN

explication détaillée

.loc[ligne, colonne] / .iloc par index
filtres : df[df["col"] > 10]
df.dropna(), df.fillna(val)

exemples exécutables

import pandas as pd
import numpy as np

df = pd.DataFrame({
    "a": [1, np.nan, 3],
    "b": [4, 5, np.nan]
})
print(df.dropna())
print(df.fillna(0))

bonnes pratiques

choisir la bonne méthode selon le besoin (loc vs iloc)
conserver une copie si modification non souhaitée

pièges courants

oublier que dropna retourne une nouvelle copie par défaut
confondre NaN et zéro

exercices

filtrer un dataframe pour ne garder que les lignes où age > 30.
remplacer toutes les valeurs NaN par la moyenne de la colonne.
sélectionner uniquement certaines colonnes.

Menu

pandas : sélection, filtres, valeurs manquantes

objectifs

explication détaillée

exemples exécutables

bonnes pratiques

pièges courants

exercices

Sujets abordés