← retour aux snippets

Great Expectations: valider un DataFrame

définir et évaluer des attentes de qualité de données

Great Expectations: valider un DataFrame

objectif

Expliquer et montrer comment définir et évaluer des attentes de qualité de données.

code minimal

import pandas as pd
import great_expectations as ge

df = pd.DataFrame({"age":[23, 45, 38], "email":["a@x.io","b@x.io","bad"]})
gdf = ge.from_pandas(df)
gdf.expect_column_values_to_not_be_null("age")
gdf.expect_column_values_to_match_regex("email", r"^[^@]+@[^@]+\.[^@]+$")
res = gdf.validate()
bool(res.success)

utilisation

# récupérer les résultats détaillés
# res.to_json_dict()

variante(s) utile(s)

# expectations supplémentaires: ranges, uniqueness, sets
# gdf.expect_column_values_to_be_unique("email")

notes

  • L’API pandas de GE est pratique pour des checks inline.
  • Pour projets, configurez un Data Context et des suites d’expectations.