← Zurück zum Glossar

Evaluation (Eval)

Definition

Systematische, reproduzierbare Messung der Qualität eines AI-Systems gegen definierte Kriterien — typischerweise mittels Test-Datensätzen, Metriken (Accuracy, F1, BLEU, domänenspezifischer Scores), Human-in-the-Loop-Bewertung oder LLM-as-Judge-Verfahren.

Noise — Signal

"Wir haben das Modell getestet" und "wir haben das Modell evaluiert" sind nicht dasselbe. Tests prüfen, ob das System läuft. Evaluierung misst, ob es das Richtige tut — fortlaufend, mit dokumentierten Datensätzen, definierten Metriken und Schwellenwerten, ab denen ein Modell zurückgerollt wird. Die Mehrheit der AI-Initiativen, die in Produktion scheitern, hat keine echte Eval-Infrastruktur, weil sie als "kommt später" priorisiert wurde. Sie kommt nicht.

Die richtige Frage

Nicht: "Funktioniert unser Modell?" Sondern: "Welche Eval-Datensätze, Metriken und Akzeptanzschwellen haben wir vor dem Go-Live definiert, wer prüft sie kontinuierlich, und was ist der Trigger für Rollback oder Modellwechsel?"

← Zurück zum Glossar