AI Red Teaming

AI Red Teaming

Definition

Strukturiertes, adversarisches Testen eines AI-Systems durch dafür eingesetzte Teams oder Tools, die gezielt Sicherheits-, Bias-, Halluzinations- und Missbrauchs-Muster aufdecken. Unterscheidet sich von klassischer Software-Pentesting durch den Fokus auf modellinhärente Risiken — Prompt Injection, Jailbreaks, schädliche Outputs, Datenleckage über generative Antworten.

Noise — Signal

Red Teaming wird als "wir testen die AI auf Sicherheit" beworben. Der Begriff verdeckt einen entscheidenden Unterschied: Anbieter-Red-Teaming vor dem Modell-Release testet andere Risiken als Deployer-Red-Teaming vor der Produktivnahme einer Anwendung. Die meisten Sicherheitslücken in produktiven AI-Anwendungen entstehen durch die spezifische Kombination aus Modell, Tools, Berechtigungen und Daten — und werden vom Anbieter-Red-Teaming nicht abgedeckt. Wer die Compliance dem Modellanbieter überlässt, schiebt Verantwortung, die er nicht abgeben kann.

Die richtige Frage

Nicht: "Hat der Anbieter das Modell Red-Teamed?" Sondern: "Welche Angriffsvektoren entstehen durch die spezifische Kombination unserer Anwendung — Tools, Datenzugriffe, Berechtigungen, Workflows — und wer testet diese Kombination, bevor sie in Produktion geht?"

Definition

Noise — Signal

Die richtige Frage

Verwandte Begriffe

Guardrails

Prompt Injection

Evaluation (Eval)

Model Governance