Prompt Injection: Angriffsmethode auf KI-Systeme erklärt

Prompt Injection ist eine Angriffstechnik, die gezielt auf Large Language Models (LLMs) und generative KI-Systeme abzielt. Angreifer tarnen böswillige Eingaben als scheinbar legitime Prompts, um Sicherheitsvorkehrungen des Modells zu umgehen. Das Ziel: sensible Daten offenlegen, Fehlinformationen streuen oder unbefugte Aktionen auslösen. Besonders kritisch ist die Methode, weil sie in der Regel ohne Programmierkenntnisse auskommt – normale Spracheingaben reichen aus.

Was ist Prompt Injection?

Prompt Injection bezeichnet eine Sicherheitslücke, die auf der Funktionsweise sprachbasierter Modelle beruht. LLMs interpretieren Sprache semantisch und können in vielen Implementierungen nicht zuverlässig unterscheiden, ob ein Text als Systemanweisung oder als Benutzereingabe gemeint ist. Angreifer nutzen genau diese Schwäche: Sie formulieren Eingaben so, dass das Modell sie wie eine Entwickleranweisung behandelt. Sicherheitsregeln werden dadurch überschrieben, der manipulierte Kontext übernimmt die Steuerung.

Wie funktioniert Prompt Injection?

In typischen LLM-Setups verarbeitet das Modell Systemprompts und Benutzereingaben gemeinsam als natürliche Sprache. Laut IBM entsteht die Verwundbarkeit dadurch, dass Entwickler Safeguards in Systemprompts verankern, während Benutzereingaben als Teil desselben Prompt-Kontexts eingebettet werden. Angreifer gestalten ihre Eingaben so, dass sie „genug wie" eine Systemanweisung wirken – und das Modell folgt dem manipulierten Kontext statt den ursprünglichen Sicherheitsregeln.

Direkte Prompt Injection: Der Angreifer kontrolliert die Eingabe direkt. Ein typisches Beispiel ist ein Chat- oder Übersetzungsszenario, in dem die Aufforderung lautet, vorherige Richtlinien zu ignorieren und stattdessen eine manipulative Ausgabe zu erzeugen.

Indirekte Prompt Injection: Die schädliche Nutzlast wird in Daten eingebettet, die das Modell später verarbeitet – etwa in Webseiteninhalte, Forenbeiträge oder andere von der Anwendung konsumierte Texte. Das Modell übernimmt die versteckten Anweisungen und gibt sie in Zusammenfassungen oder Antworten weiter. Auch das Einbetten solcher Payloads in Bilder ist beschrieben, wenn das System visuelle Inhalte per OCR ausliest.

Risiken und mögliche Auswirkungen

Die Auswirkungen lassen sich in informationsbezogene und integrationsbezogene Risiken unterteilen.

  • Prompt-Leaks: Das Modell gibt Teile des System- oder Vorlagentexts preis. Diese Informationen dienen als Ausgangspunkt für weitere Angriffe.
  •  
  • Datenabfluss: Ein virtueller Assistent gibt Benutzerinformationen an Unbefugte weiter.
  •  
  • Fehlinformationskampagnen: Das Modell erzeugt gezielt falsche oder irreführende Inhalte.
  •  
  • Unbefugte Aktionen: In Systemen mit API- oder Tool-Anbindung kann ein Angreifer das Modell dazu bringen, Dateien zu bearbeiten oder E-Mails zu versenden.

Besonders in Systemen mit sensiblen Daten oder weitreichenden Schnittstellenrechten ist das Risiko hoch.

Prompt Injection im Kontext multimodaler Modelle

Das Thema beschränkt sich nicht auf textbasierte Chatbots. Bei Vision-Language-Modellen kann eine visuelle Prompt-Injektion auftreten: Ein Bild wird mit textuellen Anweisungen kombiniert, die das System über OCR als Befehle interpretiert. Solche Manipulationen sind für die Zuverlässigkeit autonomer und überwachter Systeme relevant.

Abgrenzung zu verwandten Begriffen

Prompt Injection wird in der Fachliteratur klar von ähnlichen Konzepten unterschieden:

  • Prompt Engineering bezeichnet die legitime Optimierung von Eingaben – kein Angriff.
  •  
  • Adversarial Attacks in der Computer Vision basieren auf Pixelrauschen, nicht auf semantischer Sprachmanipulation.
  •  
  • Halluzinationen sind unbeabsichtigte Modellfehler, kein gezielter externer Angriff.
  •  
  • Datenvergiftung wirkt auf Trainingsdaten vor der Modellnutzung; Prompt Injection greift in der Inferenzphase über Eingaben an.

Worauf du achten solltest

Laut IBM und weiteren Quellen gibt es keine vollständige Schutzlösung. Risikominimierende Maßnahmen umfassen:

  • Input-Validierung und Pattern-Checks – wirksam, aber mit bekannten Grenzen
  •  
  • Least-Privilege-Prinzip – API- und Toolzugriffe auf das notwendige Minimum beschränken
  •  
  • Human in the loop – kritische Ergebnisse oder Aktionen manuell verifizieren lassen
  •  
  • Organisatorische Maßnahmen, etwa die Reduktion der Exposition gegenüber Phishing-ähnlichen Situationen

Fazit

Prompt Injection ist eine zentrale Sicherheitslücke generativer KI-Systeme. Böswillige Eingaben werden so formuliert, dass LLMs ihre eigenen Sicherheitsanweisungen übergehen. Gefährlich wird der Angriff vor allem dort, wo Modelle Zugriff auf sensible Daten oder externe Schnittstellen haben. Effektive Gegenmaßnahmen kombinieren Validierung, Berechtigungsmanagement und menschliche Freigaben – ein hundertprozentiger Schutz gilt bislang als nicht erreichbar.