Synthetic Data erklärt: Funktionsweise, Typen und Grenzen

Synthetische Daten entstehen nicht durch reale Messungen oder Beobachtungen, sondern werden algorithmisch erzeugt – etwa mithilfe generativer KI-Technologien. Sie bilden die statistischen Eigenschaften und Muster realer Daten nach, ohne echte Beobachtungen zu enthalten, die auf Personen oder konkrete Ereignisse zurückführbar sind. Für KI-Projekte sind sie besonders dann relevant, wenn der Zugriff auf ausreichend vielfältige Trainingsdaten eingeschränkt ist – sei es aus Kostengründen, wegen Zeitaufwand oder aufgrund von Datenschutz- und Compliance-Vorgaben.

Was ist Synthetic Data?

Synthetic Data (synthetische Daten) sind algorithmisch generierte Datensätze, die die mathematischen und statistischen Eigenschaften realer Daten nachbilden. Sie sind so konstruiert, dass keine direkten Rückschlüsse auf echte Personen oder Ereignisse möglich sein sollen – soweit die eingesetzten Verfahren dies gewährleisten.

Die Literatur unterscheidet zwei grundlegende Typen:

  • Teilsynthetische Daten (partial synthetic data): Nur ein Teil eines realen Datensatzes wird durch synthetische Werte ersetzt – typischerweise besonders sensible Bestandteile wie personenbezogene Kontaktinformationen.
  •  
  • Vollsynthetische Daten (full synthetic data): Der gesamte Datensatz wird neu erzeugt und enthält keine realen Datenpunkte. Er basiert dennoch auf denselben Verteilungen und statistischen Kennwerten wie das Ausgangsmaterial.

Wie funktioniert Synthetic Data?

AWS beschreibt als grundlegendes Prinzip den Einsatz von Computersimulationen und Modellen, die statistische Eigenschaften realer Daten imitieren. Dabei werden drei konzeptionelle Ansätze unterschieden:

  1. Erzeugung aus statistischen Verteilungen: Sampling aus definierten Verteilungen wie Normal- oder Chi-Quadrat-Verteilungen.
  2.  
  3. Modellbasierte Verfahren: Ein ML-Modell wird trainiert, um Charakteristika realer Daten nachzubilden und neue Daten gemäß denselben Verteilungen zu generieren.
  4.  
  5. Deep-Learning-Methoden: Für komplexe Datentypen kommen Architekturen wie GANs (Generative Adversarial Networks) und VAEs (Variational Autoencoders) zum Einsatz.

Beim GAN-Ansatz konkurrieren zwei neuronale Netze: Ein Generator erzeugt synthetische Daten, ein zweites Netzwerk bewertet und klassifiziert sie. Das System optimiert sich so lange, bis der Prüfer synthetische Daten kaum noch von echten unterscheiden kann. Transformer- bzw. GPT-basierte Modelle werden zusätzlich für Textgenerierung eingesetzt, bei der aus einem Startprompt ein Sequenzverlauf generiert wird.

Vorteile von Synthetic Data

  • Lücken in Trainingsdaten schließen: Fehlende oder unterrepräsentierte Datenpunkte lassen sich gezielt ergänzen.
  •  
  • Präzise Annotationen: Für Computer-Vision-Aufgaben können „perfekt beschriftete" Daten erzeugt werden – etwa Bounding-Boxen für Objekterkennung oder pixelgenaue Masken für semantische Segmentierung – ohne menschliche Beschriftungsfehler.
  •  
  • Bias reduzieren: Unterrepräsentierte Gruppen oder Umweltbedingungen lassen sich durch synthetische Generierung gezielt ausbalancieren oder mit Gegenbeispielen ergänzen.
  •  
  • Datenschutz- und Compliance-Anforderungen unterstützen: Sensible oder personenbezogene Daten müssen nicht direkt verwendet werden.

Abgrenzung: Synthetic Data vs. Data Augmentation

Synthetic Data ist nicht mit Data Augmentation gleichzusetzen. Data Augmentation arbeitet mit Transformationen auf vorhandenem Bildmaterial – etwa Spiegeln, Drehen, Zuschneiden oder Farbanpassung. Synthetic Data erzeugt dagegen neue Dateninstanzen von Grund auf. Das schließt auch die Simulation von Szenarien ein, die bisher noch nie mit einer Kamera erfasst wurden.

Worauf du achten solltest

AWS betont die Notwendigkeit eines Qualitäts- und Kontrollprozesses. Synthetische Daten müssen auf ausreichende Genauigkeit geprüft werden. Der Versuch, Rückführbarkeit auf reale Informationen zu verhindern, kann dabei mit einem Trade-off zur Datenqualität verbunden sein. Algorithmen können reale Randfälle, Ausreißer und Anomalien nur begrenzt nachbilden. Hinzu kommen organisatorische Akzeptanz- und Erwartungseffekte, weil Ergebnisse auf kontrollierten, synthetisch erzeugten Daten basieren.

Fazit

Synthetic Data sind algorithmisch generierte Daten, die statistische Eigenschaften und strukturelle Merkmale realer Daten nachahmen. Sie eignen sich, um Trainings- und Testdatensätze zu erweitern, Annotationen zu vereinheitlichen und Datenschutzanforderungen zu unterstützen. Eine sorgfältige Qualitätsprüfung und ein bewusster Umgang mit den Grenzen der Nachbildung realer Ereignisse bleiben dabei entscheidend.