← Zurück zum Glossar

Synthetic Data

Definition

Künstlich erzeugte Daten, die statistische oder strukturelle Eigenschaften echter Daten nachbilden — generiert durch Sprachmodelle, generative Bildmodelle, Simulationen oder regelbasierte Verfahren. Eingesetzt für Training, Augmentation, Testing oder datenschutz-konforme Analysen.

Noise — Signal

Synthetic Data wird als Ausweg aus Datenknappheit und Datenschutzproblemen verkauft. Beides nur eingeschränkt zutreffend. Synthetisch erzeugte Daten erben den Bias der Generatoren und können selten Edge Cases abbilden, die im Realbetrieb auftreten — sie sind ein Pendel-Verstärker für bekannte Muster, kein Generator für unbekannte. Datenschutzrechtlich gelten sie nur dann nicht als personenbezogen, wenn die Re-Identifikation nachweislich ausgeschlossen ist; viele Implementierungen liefern diesen Nachweis nicht.

Die richtige Frage

Nicht: "Können wir das Modell mit synthetischen Daten trainieren?" Sondern: "Welche Lücke unserer realen Datenbasis soll die synthetische Erweiterung schließen, wie validieren wir, dass sie das tut, und welcher Datenschutz- und Audit-Nachweis ist nötig, damit synthetische Daten regulatorisch tragen?"

← Zurück zum Glossar