Retour au cours

pandas : sélection, filtres, valeurs manquantes

manipuler des sous-ensembles de données et traiter les valeurs absentes est fondamental.

objectifs

  • sélectionner lignes et colonnes
  • filtrer selon conditions
  • gérer les NaN

explication détaillée

  • .loc[ligne, colonne] / .iloc par index
  • filtres : df[df["col"] > 10]
  • df.dropna(), df.fillna(val)

exemples exécutables

import pandas as pd
import numpy as np

df = pd.DataFrame({
    "a": [1, np.nan, 3],
    "b": [4, 5, np.nan]
})
print(df.dropna())
print(df.fillna(0))

bonnes pratiques

  • choisir la bonne méthode selon le besoin (loc vs iloc)
  • conserver une copie si modification non souhaitée

pièges courants

  • oublier que dropna retourne une nouvelle copie par défaut
  • confondre NaN et zéro

exercices

  1. filtrer un dataframe pour ne garder que les lignes où age > 30.
  2. remplacer toutes les valeurs NaN par la moyenne de la colonne.
  3. sélectionner uniquement certaines colonnes.