AI Red Teaming
Definition
Strukturiertes, adversarisches Testen eines AI-Systems durch dafür eingesetzte Teams oder Tools, die gezielt Sicherheits-, Bias-, Halluzinations- und Missbrauchs-Muster aufdecken. Unterscheidet sich von klassischer Software-Pentesting durch den Fokus auf modellinhärente Risiken — Prompt Injection, Jailbreaks, schädliche Outputs, Datenleckage über generative Antworten.
Noise — Signal
Red Teaming wird als "wir testen die AI auf Sicherheit" beworben. Der Begriff verdeckt einen entscheidenden Unterschied: Anbieter-Red-Teaming vor dem Modell-Release testet andere Risiken als Deployer-Red-Teaming vor der Produktivnahme einer Anwendung. Die meisten Sicherheitslücken in produktiven AI-Anwendungen entstehen durch die spezifische Kombination aus Modell, Tools, Berechtigungen und Daten — und werden vom Anbieter-Red-Teaming nicht abgedeckt. Wer die Compliance dem Modellanbieter überlässt, schiebt Verantwortung, die er nicht abgeben kann.
Die richtige Frage
Nicht: "Hat der Anbieter das Modell Red-Teamed?" Sondern: "Welche Angriffsvektoren entstehen durch die spezifische Kombination unserer Anwendung — Tools, Datenzugriffe, Berechtigungen, Workflows — und wer testet diese Kombination, bevor sie in Produktion geht?"