Guardrails

Guardrails

Definition

Mechanismen vor, während oder nach der Modell-Inferenz, die unerwünschte Eingaben oder Ausgaben filtern, einschränken oder eskalieren — von einfachen Regex-Filtern über Klassifikatoren bis zu spezialisierten Guardrail-Modellen und Policy-Engines.

Noise — Signal

Guardrails werden häufig als "Sicherheits-Layer, der das Modell sicher macht" verkauft. Sie sind das nicht. Sie sind eine Schicht zusätzlicher Heuristiken zwischen Eingabe und Modell beziehungsweise zwischen Modell und Nutzer. Sie reduzieren Risiko, sie eliminieren es nicht, und sie haben eigene Ausfallmodi: False Positives, die legitime Anfragen blockieren; False Negatives, die problematische Inhalte durchlassen. In regulierten Industrien ersetzen Guardrails kein Risikomanagement — sie sind ein Baustein darin.

Die richtige Frage

Nicht: "Welche Guardrails brauchen wir?" Sondern: "Welche Risiken adressieren wir auf welcher Schicht — Input, Modell, Output, Workflow —, wie messen wir die Trefferquote im Live-Betrieb, und welche Risiken bleiben strukturell außerhalb dessen, was Guardrails leisten können?"

Definition

Noise — Signal

Die richtige Frage

Verwandte Begriffe

Prompt Injection

AI Red Teaming

Agentic AI

Evaluation (Eval)