Great Expectations: valider un DataFrame
objectif
Expliquer et montrer comment définir et évaluer des attentes de qualité de données.
code minimal
import pandas as pd
import great_expectations as ge
df = pd.DataFrame({"age":[23, 45, 38], "email":["a@x.io","b@x.io","bad"]})
gdf = ge.from_pandas(df)
gdf.expect_column_values_to_not_be_null("age")
gdf.expect_column_values_to_match_regex("email", r"^[^@]+@[^@]+\.[^@]+$")
res = gdf.validate()
bool(res.success)
utilisation
# récupérer les résultats détaillés
# res.to_json_dict()
variante(s) utile(s)
# expectations supplémentaires: ranges, uniqueness, sets
# gdf.expect_column_values_to_be_unique("email")
notes
- L’API pandas de GE est pratique pour des checks inline.
- Pour projets, configurez un Data Context et des suites d’expectations.