Mixture of Experts (MoE)

Definition

Architekturmuster, in dem ein Sprachmodell aus mehreren spezialisierten "Experten"-Subnetzen besteht, von denen pro Token nur eine kleine Auswahl aktiviert wird (sparse activation). Erlaubt deutlich höhere Gesamtparameter-Zahlen bei vergleichbaren Inferenz-Compute-Kosten. Beispiele 2026: Mixtral-Familie, DeepSeek-V3-Linie und mehrere Frontier-Modelle, deren Architektur nicht öffentlich, aber als MoE vermutet ist.

Noise — Signal

MoE wird als "die Architektur, mit der wir effizient skalieren" verkauft. Tatsächlich verschiebt sie nur die Skalierungsachse: weniger Inferenz-Compute pro Token, aber höherer Speicherbedarf (alle Experten müssen geladen sein), höhere Komplexität im Routing und schwierigere Hardware-Auslastung — besonders bei On-Premises-Setups mit begrenztem GPU-Speicher. Für die Anwender-Sicht relevant ist: MoE-Modelle können bei vergleichbarer Qualität günstiger pro Token sein, solange das Hosting den Speicher-Overhead trägt; auf eigener Hardware ist diese Annahme nicht selbstverständlich.

Die richtige Frage

Nicht: "Sollten wir MoE-Modelle einsetzen?" Sondern: "Welche Implikationen hat die MoE-Architektur für unser Hosting (GPU-Speicher, Auslastung), unsere Latenz-Anforderungen und die Verfügbarkeit auf On-Premises-Stacks im Vergleich zu Dense-Modellen ähnlicher Qualität?"

Mixture of Experts (MoE)

Definition

Noise — Signal

Die richtige Frage

Verwandte Begriffe

Foundation Model

Inference Cost / TCO

On-Premises AI