← Zurück zum Glossar

Multimodal

Definition

Eigenschaft eines AI-Modells, mehrere Eingabe- und Ausgabemodalitäten zu verarbeiten — typischerweise Kombinationen aus Text, Bild, Audio und Video. Im Jahr 2026 ist Multimodalität bei Frontier-Modellen Standard, bei spezialisierten Modellen weiterhin eine Architekturentscheidung.

Noise — Signal

Multimodalität wird gern als Universal-Fähigkeit präsentiert. In der Praxis sind die Modalitäten unterschiedlich gut abgedeckt: Text und Bildverstehen sind stabil, Audio-Generierung in regulierten Anwendungen heikel (Stimm-Klonierung, Authentizität), Video-Generierung weiter qualitätssensitiv. Außerdem skalieren Kosten und Latenzen mit der Modalität — ein Bild im Prompt entspricht oft mehreren Tausend Tokens, Video mehreren Hunderttausend.

Die richtige Frage

Nicht: "Brauchen wir ein multimodales Modell?" Sondern: "Welche Modalität liefert für welchen konkreten Use Case nachweisbaren Mehrwert gegenüber einer Text-Pipeline, und rechtfertigt dieser Mehrwert die Kosten- und Compliance-Implikationen?"

← Zurück zum Glossar