Context Window

Definition

Maximale Anzahl an Tokens (in etwa: Wortbausteinen), die ein Sprachmodell pro Anfrage gleichzeitig verarbeiten kann — einschließlich Eingabe, abgerufener Dokumente und Ausgabe. Im Jahr 2026 reichen die Werte von rund 8.000 (kleine Modelle) bis über zwei Millionen Tokens (Frontier-Modelle).

Noise — Signal

Größere Context Windows werden vermarktet als "das Modell kann jetzt unsere ganze Dokumentation lesen". Technisch stimmt das. Praktisch nutzt das Modell den langen Kontext nicht gleichmäßig — Inhalte am Anfang und Ende werden zuverlässiger berücksichtigt als in der Mitte ("Lost in the Middle"-Effekt). Außerdem skalieren Inferenzkosten linear oder superlinear mit der Kontextlänge, was große Anfragen unwirtschaftlich machen kann.

Die richtige Frage

Nicht: "Brauchen wir das Modell mit dem größten Context Window?" Sondern: "Was ist die typische Eingabegröße unserer Use Cases, wie messen wir, ob das Modell die relevanten Stellen tatsächlich findet, und wann ist eine RAG-Architektur ökonomischer als ein größeres Context Window?"

← Zurück zum Glossar

Context Window

Definition

Noise — Signal

Die richtige Frage

Verwandte Begriffe

RAG (Retrieval-Augmented Generation)

Inference Cost / TCO

Foundation Model