Evaluation (Eval)
Definition
Systematische, reproduzierbare Messung der Qualität eines AI-Systems gegen definierte Kriterien — typischerweise mittels Test-Datensätzen, Metriken (Accuracy, F1, BLEU, domänenspezifischer Scores), Human-in-the-Loop-Bewertung oder LLM-as-Judge-Verfahren.
Noise — Signal
"Wir haben das Modell getestet" und "wir haben das Modell evaluiert" sind nicht dasselbe. Tests prüfen, ob das System läuft. Evaluierung misst, ob es das Richtige tut — fortlaufend, mit dokumentierten Datensätzen, definierten Metriken und Schwellenwerten, ab denen ein Modell zurückgerollt wird. Die Mehrheit der AI-Initiativen, die in Produktion scheitern, hat keine echte Eval-Infrastruktur, weil sie als "kommt später" priorisiert wurde. Sie kommt nicht.
Die richtige Frage
Nicht: "Funktioniert unser Modell?" Sondern: "Welche Eval-Datensätze, Metriken und Akzeptanzschwellen haben wir vor dem Go-Live definiert, wer prüft sie kontinuierlich, und was ist der Trigger für Rollback oder Modellwechsel?"