Inference Cost / TCO

Definition

Inference Cost bezeichnet die laufenden Kosten für die Modellnutzung pro Anfrage — typischerweise pro Token, pro Bild oder pro Sekunde Compute. Total Cost of Ownership (TCO) umfasst zusätzlich Entwicklung, Datenaufbereitung, Eval, Hosting, Monitoring, Re-Training und Compliance-Aufwände über den Lebenszyklus.

Noise — Signal

AI-Business-Cases werden routinemäßig auf Basis von Listenpreisen ("$5 pro Million Token") gerechnet. In Produktion liegen die tatsächlichen Kosten typischerweise um den Faktor drei bis zehn höher: lange Prompts, mehrfache Modellaufrufe pro Nutzeraktion (Routing, Reasoning, Verifikation), Re-Tries, Eval-Calls, Monitoring-Pipelines. Hinzu kommen Skalierungskosten der Infrastruktur, die bei Foundation-Model-APIs auf den Anbieter abgewälzt werden, bei On-Premises-Setups aber sichtbar bleiben.

Die richtige Frage

Nicht: "Was kostet uns das Modell?" Sondern: "Was sind die vollständigen Kosten pro produktiver Nutzeraktion über den gesamten Anwendungspfad — und wie verändert sich das Verhältnis, wenn wir um den Faktor 10 oder 100 skalieren?"

Vertiefung im Blog

Enterprise AI & Open Source: Was drei Praktiker über tragfähige Architektur gesagt haben

Passende Leistung

Interim AI Leadership →

← Zurück zum Glossar

Inference Cost / TCO

Definition

Noise — Signal

Die richtige Frage

Verwandte Begriffe

Reasoning Model

On-Premises AI

Mixture of Experts (MoE)

Distillation

Vertiefung im Blog

Passende Leistung