Federated Learning

Federated Learning

Definition

Trainings-Verfahren, bei dem ein gemeinsames Modell über mehrere dezentrale Datenquellen hinweg trainiert wird, ohne dass die Trainingsdaten selbst die Quellen verlassen. Stattdessen werden nur Modell-Updates — Gradienten oder Gewichts-Deltas — ausgetauscht und auf einem koordinierenden Server aggregiert.

Noise — Signal

Federated Learning wird als "Datenschutz-Wunder" beworben: Daten bleiben lokal, das Modell wird trotzdem besser. Die Realität ist nuancierter. Erstens lassen sich Modell-Updates unter bestimmten Bedingungen so analysieren, dass Trainingsdaten teilweise rekonstruierbar werden (Membership Inference, Gradient Leakage); echte Privatheit erfordert zusätzlich Differential Privacy oder Secure Aggregation. Zweitens erhöhen Federated Setups die Komplexität in Orchestrierung, Versionierung und Eval signifikant. Drittens funktioniert das Verfahren am besten, wenn die verteilten Datenquellen homogen sind — die Heterogenität, die Federated Learning eigentlich rechtfertigt, ist gleichzeitig ihr größter Qualitäts-Hebel.

Die richtige Frage

Nicht: "Können wir Federated Learning einsetzen, um unsere Daten zu schützen?" Sondern: "Welche regulatorische oder vertragliche Anforderung verbietet das Zusammenführen der Daten konkret, welche zusätzlichen Privacy-Mechanismen sind dafür notwendig, und steht der Komplexitätsaufwand im Verhältnis zur tatsächlichen Datenschutz-Verbesserung gegenüber zentralisiertem Training mit DP?"

Definition

Noise — Signal

Die richtige Frage

Verwandte Begriffe

Differential Privacy

Synthetic Data

On-Premises AI

Fine-Tuning