Prompt Injection
Definition
Angriffstechnik, bei der ein Angreifer Eingaben so gestaltet, dass das Modell die ursprünglichen Systemanweisungen ignoriert, umgeht oder gegen den Betreiber wendet. Direkt (in der Nutzereingabe) oder indirekt (in Inhalten, die das Modell verarbeitet — Dokumente, Web-Inhalte, Tool-Outputs).
Noise — Signal
Prompt Injection wird oft als "kann mit ein paar Filtern gelöst werden" abgetan. Es ist heute der OWASP-Top-1-Risikofaktor für LLM-Anwendungen, und es gibt keine vollständige technische Mitigation. Indirekte Prompt Injection — Anweisungen, die ein Angreifer in ein Dokument oder eine E-Mail einbettet, die später vom Modell verarbeitet wird — ist besonders relevant für Agentic-AI-Architekturen und Enterprise Search. Eine Anwendung, die externe, nicht-vertrauenswürdige Inhalte verarbeitet und gleichzeitig privilegierte Aktionen ausführen darf, ist strukturell verwundbar.
Die richtige Frage
Nicht: "Wie verhindern wir Prompt Injection?" Sondern: "An welchen Stellen verarbeitet unser System nicht-vertrauenswürdige Inhalte, welche Aktionen darf das Modell an diesen Stellen auslösen, und welches Berechtigungskonzept reduziert den Blast Radius im Fall einer erfolgreichen Injection?"