#evaluation

5 éléments

Définir une métrique d'évaluation custom pour xgb.train.

Quand un modèle puissant devient juge de la qualité des autres. Retours sur l'approche 'LLM-as-a-judge' et ses limites.

Structurer vos evaluations de risques et vos tests de securite et d'equite.

Du offline au online: exactitude, utilité, sécurité et coûts de réponse.

Structurer, contraindre et tester vos prompts pour des réponses utiles et stables.

page 1 sur 1