Context Window
Definition
Maximale Anzahl an Tokens (in etwa: Wortbausteinen), die ein Sprachmodell pro Anfrage gleichzeitig verarbeiten kann — einschließlich Eingabe, abgerufener Dokumente und Ausgabe. Im Jahr 2026 reichen die Werte von rund 8.000 (kleine Modelle) bis über zwei Millionen Tokens (Frontier-Modelle).
Noise — Signal
Größere Context Windows werden vermarktet als "das Modell kann jetzt unsere ganze Dokumentation lesen". Technisch stimmt das. Praktisch nutzt das Modell den langen Kontext nicht gleichmäßig — Inhalte am Anfang und Ende werden zuverlässiger berücksichtigt als in der Mitte ("Lost in the Middle"-Effekt). Außerdem skalieren Inferenzkosten linear oder superlinear mit der Kontextlänge, was große Anfragen unwirtschaftlich machen kann.
Die richtige Frage
Nicht: "Brauchen wir das Modell mit dem größten Context Window?" Sondern: "Was ist die typische Eingabegröße unserer Use Cases, wie messen wir, ob das Modell die relevanten Stellen tatsächlich findet, und wann ist eine RAG-Architektur ökonomischer als ein größeres Context Window?"