Embedding
Definition
Numerische Vektorrepräsentation eines Texts, Bildes oder anderen Datenobjekts in einem hochdimensionalen Raum, in dem semantisch ähnliche Objekte nahe beieinander liegen. Grundlage für semantische Suche, Klassifikation, Clustering und RAG.
Noise — Signal
Embeddings werden als "AI versteht jetzt Bedeutung statt nur Wörter" verkauft. Was sie tatsächlich erfassen, ist die Verteilung von Begriffen im Trainingskorpus des Embedding-Modells — nicht Bedeutung im erkenntnistheoretischen Sinn. Ein Embedding-Modell, das auf englischen Web-Daten trainiert wurde, performt schlechter auf deutschen Fachtexten; ein Modell von 2023 kennt die Terminologie eines 2025er Regulierungstextes nicht. Die Wahl des Embedding-Modells ist eine Architekturentscheidung mit Folgen für Suchqualität und Compliance.
Die richtige Frage
Nicht: "Welches Embedding-Modell ist State of the Art?" Sondern: "Auf welcher Sprache, welcher Domäne und welchem Zeitraum ist das Modell trainiert, und wie messen wir, ob die Suchqualität auf unseren tatsächlichen Inhalten — nicht auf Benchmarks — den Anforderungen genügt?"