Guardrails
Definition
Mechanismen vor, während oder nach der Modell-Inferenz, die unerwünschte Eingaben oder Ausgaben filtern, einschränken oder eskalieren — von einfachen Regex-Filtern über Klassifikatoren bis zu spezialisierten Guardrail-Modellen und Policy-Engines.
Noise — Signal
Guardrails werden häufig als "Sicherheits-Layer, der das Modell sicher macht" verkauft. Sie sind das nicht. Sie sind eine Schicht zusätzlicher Heuristiken zwischen Eingabe und Modell beziehungsweise zwischen Modell und Nutzer. Sie reduzieren Risiko, sie eliminieren es nicht, und sie haben eigene Ausfallmodi: False Positives, die legitime Anfragen blockieren; False Negatives, die problematische Inhalte durchlassen. In regulierten Industrien ersetzen Guardrails kein Risikomanagement — sie sind ein Baustein darin.
Die richtige Frage
Nicht: "Welche Guardrails brauchen wir?" Sondern: "Welche Risiken adressieren wir auf welcher Schicht — Input, Modell, Output, Workflow —, wie messen wir die Trefferquote im Live-Betrieb, und welche Risiken bleiben strukturell außerhalb dessen, was Guardrails leisten können?"