Chain-of-Thought Prompting: Wie LLMs schrittweise denken lernen

Chain-of-Thought Prompting (CoT Prompting) ist eine Prompt-Engineering-Technik, die große Sprachmodelle (LLMs) dazu bringt, nicht nur ein Endergebnis auszugeben, sondern den Lösungsweg in expliziten Zwischenschritten darzustellen. Wer komplexe Aufgaben an ein LLM stellt, stößt mit einfachen Prompts schnell an Grenzen – CoT setzt genau dort an. Die Technik funktioniert ohne Änderungen an Modellarchitektur oder Training und lässt sich direkt über die Prompt-Gestaltung steuern.

Was ist Chain-of-Thought Prompting?

CoT Prompting leitet ein Sprachmodell dazu an, ein Problem in logisch aufeinander aufbauende Teilschritte zu zerlegen, bevor es eine finale Antwort formuliert. Ziel ist eine transparente Begründungsstruktur: Das Modell rekapituliert zunächst die Aufgabe, berechnet oder begründet Teilergebnisse mit expliziten Zwischenrechnungen und synthetisiert diese anschließend zur Endantwort. In manchen Implementierungen folgt zusätzlich eine optionale Verifikation gegen das ursprüngliche Problem. Dadurch lässt sich nachvollziehen, wie eine Antwort zustande kommt.

Wie funktioniert Chain-of-Thought Prompting?

Es gibt zwei grundlegende Ausprägungen. Zero-shot CoT verwendet einfache sprachliche Hinweise – etwa die Aufforderung „let's think step by step" – um das Modell auf Zwischen-Reasoning zu lenken, ohne Beispiele bereitzustellen. Few-shot CoT ergänzt den Prompt um wenige, qualitativ hochwertige Beispielaufgaben, bei denen sowohl Zwischenschritte als auch finale Antworten sichtbar sind. Das Modell imitiert dann das Muster dieser ausgearbeiteten Reasoning Chains.

Darüber hinaus existieren automatisierte Varianten. Bei Auto-CoT werden Reasoning-Beispiele automatisch generiert, was den manuellen Aufwand für die Prompt-Erstellung reduziert. Die Methode Self-Consistency erzeugt für dieselbe Aufgabe mehrere unterschiedliche Reasoning-Pfade – etwa durch nichtdeterministische Erzeugung mit Temperatur > 0 – extrahiert aus jeder Kette die Endantwort und wählt die am häufigsten auftretende. Für kritische Szenarien werden zusätzlich leichte Prüfschritte oder Verifikatoren empfohlen, die Zwischenergebnisse anhand von Constraints überwachen.

Vorteile von Chain-of-Thought Prompting

  • Komplexe Multi-Step-Probleme werden in prüfbare Teilschritte zerlegt
  •  
  • Zwischenergebnisse lassen sich auf Fehler hin plausibilisieren
  •  
  • Der sichtbare Denkprozess erhöht die Interpretierbarkeit des Modells
  •  
  • Die Technik erfordert keine Anpassungen an Modellarchitektur oder Training

Praxisbeispiele und Anwendungsfälle

CoT zeigt seine Stärke besonders bei arithmetischen Aufgaben, Commonsense Reasoning und symbolischer Logik. Durch die sequenzielle Aufteilung in Teilrechnungen entstehen Zwischenergebnisse, die sich gezielt prüfen lassen. Auch für das Training auf Verständlichkeit gilt CoT als vorteilhaft: Der schrittweise Denkprozess wird sichtbar und erleichtert ein besseres Verständnis des Reasoning.

Chancen und Risiken

CoT verbessert die Leistung bei mehrstufigem Denken und macht Modellentscheidungen nachvollziehbarer. Gleichzeitig gibt es klare Trade-offs.

Limitationen im Überblick:

  • Modellgröße: CoT eignet sich besonders für größere Modelle. Kleinere Modelle produzieren häufig weniger kohärente oder weniger zuverlässige Reasoning-Ketten.
  •  
  • Latenz und Kosten: Längere Zwischenschritte erhöhen die Rechenzeit und damit die Betriebskosten.
  •  
  • Auto-CoT-Qualität: Bei schwacher Aufgabenrelevanz oder zu geringer Diversity der generierten Chains kann zusätzliche Validierung notwendig werden.
  •  
  • Sichtbare Schwächen: Transparentes Reasoning legt auch Biases oder brüchige Logik offen. Geeignete Promptgestaltung, Prüfmechanismen und Monitoring auf Diversity- bzw. Mode-Collapse-Anzeichen sind daher empfehlenswert.

Fazit

Chain-of-Thought Prompting strukturiert komplexe Problemlösung durch explizite Zwischen-Reasoning-Schritte. Im Vergleich zu Prompting-Ansätzen, die nur das Endergebnis priorisieren, stellt CoT den Lösungsweg selbst in den Vordergrund. Das erhöht die Interpretierbarkeit – erfordert aber sorgfältige Umsetzung, geeignete Modellgröße und konsequente Validierung der erzeugten Reasoning-Ketten.