Die neue KI-Architektur 2026: Harness, Evaluation, Open Source
Wer 2026 mit den drei Verschiebungen baut, hat 2027 mehrere Use Cases produktiv. Wer ohne sie baut, hat 2027 noch immer den ersten Pilot.
Die wichtigste Bewegung der PyCon DE & PyData 2026 stand nicht in einem einzelnen Talk. Sie lag im Tonwechsel: weg von „look at what's possible", hin zu „läuft seit Februar". Die Branche ist nicht am Ziel. Aber sie hat ihre erste KI-Welle verarbeitet — und daraus drei Architekturverschiebungen gelernt: vom Modell zum Harness, vom Test zur Architektur (Evaluation), von der Sparvariante zum Souveränitätshebel (Open Source). 2026 ist die Trennlinie zwischen Programmen, die mit diesen Verschiebungen rechnen, und solchen, die nach 2024er Logik weiterbauen — der Liefer-Unterschied wird 2027 sichtbar.
Auf einen Blick
- Drei Verschiebungen, die in dieser Serie sichtbar wurden, fügen sich zu einem Bild: KI-Architektur 2026 verlangt anderes Denken als 2024.
- Vom Modell zum Harness; vom Test zur Architektur (Evaluation); von der Sparvariante zum Souveränitätshebel (Open Source).
- Was die Konferenz nicht gelöst hat: Standardisierung im LLMOps-Stack, Review-Kapazität, klare Skill-Pfade. Saucedos Survey-Datenpunkt: rund die Hälfte der Organisationen hat noch immer kein produktives ML-Monitoring.
- 2026 ist die Trennlinie zwischen Programmen, die mit diesen Verschiebungen rechnen, und solchen, die nach 2024er Logik bauen. Der Liefer-Unterschied wird 2027 sichtbar.
Verschiebung 1: Vom Modell zum Harness
2024 war die zentrale Frage in vielen Programmen: welches Modell ist das beste? 2026 ist sie es nicht mehr. Sebastian Raschka brachte es im Fireside Chat Stop Waiting, Start Shipping, durch den ich ihn moderierte, auf eine Linie, die für Europa besonders relevant ist: Post-Training und Harness, nicht Base-Modell-Race.
Das Lehrstück war Cursors Composer 2 — produktiv im Einsatz, deutlich besser als die meisten Coding-LLMs des Markts, dennoch nicht aus eigenem Pre-Training entstanden. Im Kern: ein offenes Basismodell, Kimi 2.5, mit zusätzlichem Reinforcement Learning obendrauf — Cursor-Mitgründer Aman Sanger hat das im März 2026 öffentlich bestätigt; Moonshot AI beschrieb das Verfahren als „continued pretraining & high-compute RL training" auf Kimi 2.5. Der Produktionsgewinn entstand nicht aus der Modellwahl, sondern aus der Schicht darüber.
Dasselbe Muster zeigt Claude Code: so stark als Coding-Agent, weil Claude Code ein sehr gutes Harness für Programmierarbeit ist. Unter der Haube läuft weniger Modell-Magie als kleinteilige Arbeitsteilung spezialisierter Kleinprogramme — Code-Suche, Patch-Generierung, Test-Ausführung, Diff-Erzeugung, Sandbox-Aufruf. Das Modell orchestriert; die Arbeit leisten die Tools.
Auf Agent-Architekturen schlägt diese Verschiebung doppelt durch. Die Programme, die 2026 produktive Agenten betreiben, haben striktes Kontextmanagement, deterministische Fallback-Pfade und Evaluation-gekoppelte Releases. Sie haben Trust Boundaries als Vertrag, nicht als Slogan. Sie haben — wie Gabriela Bogk in ihrer Keynote als Formel pointierte — über jeden autonomen Schritt die Frage „was ist der Blast Radius?" gestellt, bevor sie ihn freigegeben haben.
Wer 2026 noch immer das beste Modell vergleicht, optimiert an der falschen Stelle. Der Hebel sitzt zwei Schichten höher.
Verschiebung 2: Von Test zu Architektur (Evaluation)
Die zweite Verschiebung ist unspektakulär, aber zentral: Teams bauen nicht mehr erst und schauen dann, ob es funktioniert. Sie testen zuerst — und bauen dann gezielt gegen das, was sie messen wollen. 2024 war Evaluation in vielen Programmen eine nachgelagerte Prüfung. 2026 ist sie der Taktgeber produktiver KI-Entwicklung.
Frank Rust und Thomas Prexl haben in ihrem Talk It Works on My Machine exemplarisch beschrieben, wie das in der Praxis aussieht: bevor die erste Codezeile geschrieben wird, sammeln sie 100 oder mehr reale Nutzerfragen mit korrekten Antworten und Quellverweis. Das Set wird im Sprint-Review gegen die Baseline verglichen, gemeinsam mit den Power-Usern. Andrei Beliankou und Evgeniya Ovchinnikova (E.ON) haben die operative Schicht darüber gezeigt: drei Beobachtbarkeits-Stacks parallel, Tracing einzelner Spans, Cost-Breakdown — und der pointierte Hinweis auf den Failure Mode der Eval-Schleife, in den jedes Programm ohne diese Disziplin läuft.
Die Konsequenz ist eine andere als die meisten Teams denken: nicht das Modell ist der strategische Kern eines Programms, es ist das Eval-Set.
Modelle wechseln jedes Quartal. Eval-Sets bleiben.
Sie sind 2026 das wertvollste Asset eines KI-Programms — und sie gehören in Woche 1, nicht in Phase 4.
Damit verschiebt sich auch die Hiring-Kategorie. Der Engpass-Hire 2026 ist nicht der ML-PhD, sondern der Domänenexperte mit Experimentierwillen — eine These, die ich in der Eval-Disziplin verankert habe. Eval-Disziplin lebt von Domäne, nicht von ML-Tiefe.
Verschiebung 3: Von Sparvariante zu Souveränitätshebel
Die dritte Verschiebung trifft das Verhältnis zwischen Open-Source-Stacks und Enterprise-Strategie. 2024 war Open Source in vielen DACH-Vorständen die Sparvariante — kostenlos, riskant, irgendwie nicht „ernsthaft". 2026 ist genau diese Zuordnung nicht mehr haltbar. Open Source ist die Architekturform, in der Datenkontrolle, Auditierbarkeit und strategisches Post-Training zusammenlaufen. Drei Achsen tragen den Wechsel.
Daten-Souveränität durch lokale Modelle
Lokale Modelle sind 2026 für sensible Workloads die selbstverständlichere Wahl — wie Bogk aus CISO-Perspektive bestätigt hat. Vertrauliche Tickets, Code-Repositories, Vertragsentwürfe verlassen den eigenen Kontrollraum nicht mehr. Souveränität wandert vom Strategiepapier in den Stack.
Audit-Souveränität durch offene Modelle
Sylvain Corlay (QuantStack/Jupyter) hat im Open-Source-Business-Panel, das ich moderierte, formuliert, was regulierte Industrie ebenso trifft wie Wissenschaft: Black-Box-Werkzeuge sind dort, wo Nachvollziehbarkeit Pflicht ist, prinzipiell ungeeignet. Modellgewichte in eigener Hand, Audit-Logs auf Inferenz-Ebene, Inspektion des Modellverhaltens — das geht ohne offene Modelle nicht.
Strategische Souveränität durch Post-Training
Yann Lechelle (Probabl/scikit-learn) hat im selben Panel die ökonomische Klarstellung geliefert: Open Source ist kein Geschäftsmodell, sondern Distributions-, Community-, Governance- und Marketing-Asset. Daraus formt sich eine andere Frage als „offen oder geschlossen": welche Schicht kontrollieren wir, welche delegieren wir? Differenzierung entsteht im Post-Training auf eigenen Daten — auf einem Base-Modell, das man sich nicht selbst leisten muss.
Das europäische Open-Source-Wirtschafts-Ökosystem — Probabl, QuantStack, spaCy und weitere — ist als Partner-Markt für genau diese Souveränitätsprogramme verfügbar. Der ausführliche Blick darauf trägt der Sovereignty-Beitrag dieser Serie. Wer 2026 noch immer „Make-vs-Buy" zwischen US-Hyperscaler und eigenem Modell denkt, übersieht einen substantiellen Markt.
Standardisierung im LLMOps-Stack
Alejandro Saucedo (Zalando) brachte aus seiner Survey zum State of Production Machine Learning Operations eine unbequeme Zahl mit: rund die Hälfte der Organisationen hat noch immer kein produktives ML-Monitoring. Was im LLMOps-Stack 2026 fehlt, ist genau das, was im MLOps-Stack zwischen 2018 und 2022 langsam entstanden ist: gemeinsame Standards, gemeinsame Pattern, gemeinsame Tooling-Erwartungen. OpenTelemetry-Standards für GenAI sind ein Anfang, aber das Feld ist heterogen und wird es noch eine Weile bleiben.
Review-Kapazität bei Faktor-10-Code-Anstieg
Die New York Times hat im April 2026 den Fall eines Finanzdienstleisters dokumentiert, der mit Cursor von 25.000 auf 250.000 Code-Zeilen pro Monat sprang — und einen Review-Backlog von einer Million Zeilen aufbaute. Diese Schere zwischen Code-Generierung und Review-Kapazität ist 2026 nicht gelöst. Die Konferenz hat sie benannt, nicht aufgelöst.
Klare Skill-Pfade für Domänenexperten
Wenn der Engpass-Hire 2026 der Domänenexperte mit Experimentierwillen ist, brauchen diese Menschen einen Lernpfad. Den gibt es heute nicht in strukturierter Form. Bootcamps treffen das Profil nicht, klassische ML-Studiengänge auch nicht. Was 2026 entsteht, ist im besten Fall ein Mentoring-Modell — externe Beratung trifft interne Domäne. Das skaliert begrenzt.
2026 markiert eine Trennlinie in der KI-Strategie von Unternehmen. Es entstehen zwei sehr unterschiedliche Arten von Programmen.
Die einen haben verstanden, dass der Wettbewerb nicht mehr allein über größere Modelle und mehr Rechenleistung entschieden wird. Sie investieren gezielt in die Schichten, die für das eigene Geschäft wirklich relevant sind: die Ein- und Anpassung von Modellen an eigene Daten und Prozesse, die Qualitätssicherung von KI-Ergebnissen, die Einbindung in bestehende Systeme und eine Architektur, die Compliance, Datensicherheit und Nachvollziehbarkeit von Anfang an mitdenkt.
Diese Unternehmen machen KI-Souveränität praktisch. Sie sprechen nicht nur darüber, sondern betreiben erste Anwendungen auf kontrollierbaren eigenen oder offenen Stacks. Sie dokumentieren, wie ihre Systeme getestet werden, welche Daten genutzt werden dürfen, wo Risiken entstehen und wie Entscheidungen überprüfbar bleiben. Sie suchen dafür nicht nur klassische KI-Forscher, sondern vor allem Menschen, die Domänenwissen, technisches Verständnis und Experimentierfähigkeit verbinden.
Für Entscheider heißt das
Erstens: Investitionen vom Base-Modell-Compute zum Harness verschieben
Das Programmbudget gehört nicht in den nächsten Vendor-Vergleich, sondern in Post-Training, Harness und Eval-Pipeline. Wer 2026 noch immer auf Modellwahl optimiert, optimiert zwei Schichten unter dem Hebel. Cursors Composer 2 ist das Lehrstück: der Produktionsgewinn entstand nicht aus dem Base-Modell, sondern aus der Schicht darüber.
Zweitens: Hiring-Profile von ML-Markt zu Domänenexpertise verschieben
Domänenexperten mit Experimentierwillen sind der Engpass-Hire 2026, nicht ML-PhDs. Eval-Disziplin lebt von Domäne, nicht von ML-Tiefe — und der Talentmarkt dafür ist verfügbar, oft günstiger und für die meisten Programme passender. Wer das akzeptiert, erschließt einen anderen Talentpool als der Wettbewerb.
Drittens: Souveränität operativ machen, nicht rhetorisch
Souveränität gehört nicht auf die Vorstandsfolie, sondern in den Stack: lokale Modelle für sensible Workloads, offene Modelle für Audit-Pflicht, Post-Training auf eigenen Daten für strategische Differenzierung. Mehrere Use Cases auf eigenem Stack mit dokumentierter Eval-Spur und nachvollziehbarem Compliance-Frame — das ist die operative Marke 2026.
2026 entscheidet nicht mehr, wer das größte Modell hat. Entscheidend ist, wer Harness, Evaluation und Open-Source-Souveränität als Architektur ernst nimmt.
Welche der drei Verschiebungen ist in Ihrem Programm bereits angekommen, welche noch nicht? Was kommt als Nächstes?"
Lassen Sie uns sprechenLinks zum Thema
- PyCon DE & PyData 2026 — Konferenz-Programm2026-04
- Stop Waiting, Start Shipping — Fireside Chat mit Sebastian Raschka2026-04
- Production ML across 2015–2035 — Alejandro Saucedo (Zalando)2026-04
- Open Source as a Business — Models, Paths, and Practice (Panel, Hendorf-Moderation)2026-04
- Honey, I vibe coded some crypto — Keynote Gabriela Bogk2026-04
- It Works on My Machine — Thomas Prexl, Frank Rust2026-04
- Don't call your LLM too often — Andrei Beliankou, Evgeniya Ovchinnikova (E.ON)2026-04
- Cursor admits its new coding model was built on top of Moonshot AI's Kimi — TechCrunch2026-03-22
- AI Code Overload — New York Times2026-04-06
Diese Synthese baut auf vier vorherigen Beiträgen dieser Serie auf: Stop Waiting, Start Shipping (offener Stack); Agenten in Produktion (Harness und Trust Boundaries); Evaluation schlägt Architektur (Eval-Disziplin); Souveränität durch Open Source (Enterprise-Adoption). Material-Basis ist die PyCon DE & PyData 2026, mit Fireside Chat und Open-Source-Business-Panel in eigener Moderation.