Prompt Injection

Prompt Injection

Definition

Angriffstechnik, bei der ein Angreifer Eingaben so gestaltet, dass das Modell die ursprünglichen Systemanweisungen ignoriert, umgeht oder gegen den Betreiber wendet. Direkt (in der Nutzereingabe) oder indirekt (in Inhalten, die das Modell verarbeitet — Dokumente, Web-Inhalte, Tool-Outputs).

Noise — Signal

Prompt Injection wird oft als "kann mit ein paar Filtern gelöst werden" abgetan. Es ist heute der OWASP-Top-1-Risikofaktor für LLM-Anwendungen, und es gibt keine vollständige technische Mitigation. Indirekte Prompt Injection — Anweisungen, die ein Angreifer in ein Dokument oder eine E-Mail einbettet, die später vom Modell verarbeitet wird — ist besonders relevant für Agentic-AI-Architekturen und Enterprise Search. Eine Anwendung, die externe, nicht-vertrauenswürdige Inhalte verarbeitet und gleichzeitig privilegierte Aktionen ausführen darf, ist strukturell verwundbar.

Die richtige Frage

Nicht: "Wie verhindern wir Prompt Injection?" Sondern: "An welchen Stellen verarbeitet unser System nicht-vertrauenswürdige Inhalte, welche Aktionen darf das Modell an diesen Stellen auslösen, und welches Berechtigungskonzept reduziert den Blast Radius im Fall einer erfolgreichen Injection?"

Definition

Noise — Signal

Die richtige Frage

Verwandte Begriffe

Guardrails

AI Red Teaming

Agentic AI

Model Governance