EN
← Alle Artikel

Stop Waiting, Start Shipping — der offene KI-Stack ist 2026 die erwachsene Wahl

open-sourceai-strategydigital-sovereigntyenterprise-aipost-trainingeu-ai-actllms
Sebastian Raschka und Alexander C. S. Hendorf im Fireside Chat „Stop Waiting, Start Shipping" auf der PyCon DE & PyData 2026, Darmstadt
Sebastian Raschka ist eine wichtige Stimme in der modernen KI, bekannt dafür, komplexe Konzepte aus Machine Learning und Large Language Models verständlich zu erklären, ohne technische Tiefe zu verlieren. Sein aktueller Auftritt im Lex Fridman Podcast unterstreicht seine Rolle als Praktiker und Vermittler, der Forschung, Umsetzung und verantwortungsvolle KI-Entwicklung miteinander verbindet.

Auf einen Blick

Der falsche Reflex der "Aufholjagd"

Im Fireside Chat Stop Waiting, Start Shipping auf der PyCon DE & PyData 2026 — der führenden europäischen Konferenz für KI-Anwendungen mit Open Source, mit über 2.000 Teilnehmenden — sprach ich mit Sebastian Raschka, dessen Bücher zu LLMs in der Praxis Standard sind, über die aktuellsten Fragen rund um LLMs und KI-Architektur. Er formulierte dabei einen Satz, der in der deutschen Souveränitätsdebatte bisher selten so klar gesagt wird: 99,9 Prozent der Unternehmen müssen kein eigenes Modell von Grund auf trainieren — das wäre eine Verschwendung, die durch keine strategische Begründung mehr zu rechtfertigen ist.

Das ist keine resignative Aussage, im Gegenteil. Sie verschiebt die Frage. Nicht das Pre-Training ist der entscheidende Hebel — es ist die Stufe darüber. Und genau dort, antwortete Raschka auf meine Frage nach Europas Investitionsentscheidung, würde er den nächsten Euro investieren: in Post-Training und Harness, nicht in den Versuch, ein eigenes Frontier-Modell zu bauen.

Diese Verschiebung ist 2026 für deutsche und europäische Unternehmen, die ihre AI-Strategie ernsthaft denken, die zentrale strategische Einsicht. Sie ersetzt die Debatte, ob "wir ein eigenes ChatGPT brauchen", durch die produktivere Frage: Wo investieren wir, damit aus offenen Modellen Wertschöpfung wird, die uns gehört.

Das "Winner takes all"-Mantra ist tot

In der medialen Berichterstattung dominiert weiter die Erzählung vom Wettlauf — entweder OpenAI oder Anthropic, entweder USA oder China. Auf der PyCon DE & PyData 2026 wurde sichtbar, dass diese Erzählung 2026 nicht mehr trägt.

Das Ökosystem ist breiter geworden, nicht enger: Llama-, Qwen-, DeepSeek-, Mistral-, Gemma-, GPT-OSS-Familien existieren parallel, mit je eigenen Stärken und Charakteristika. Die nützlichere Frage ist nicht mehr "welches Modell gewinnt", sondern "welche Modellfamilie passt zu welchem Use Case". Coding-Agents profitieren von anderen Modellen als juristische Recherche, anders als medizinische Klassifikation.

Mistral als europäischer Anbieter zeigt das exemplarisch. Nach Raschkas Beobachtung im Fireside Chat setzt Mistral Large 3 strukturell auf der DeepSeek-V3-Architektur auf — eine offene Architektur post-trainiert, nicht von Null neu erfunden. Ein technischer Report von Mistral, der diese Architekturverwandtschaft offiziell dokumentiert, liegt nicht öffentlich vor; die Aussage ist eine Praktiker-Einordnung, kein Mistral-Statement. Tragfähig bleibt die strategische Pointe: 2026 ist es keine Schwäche, eine offene Architektur als Ausgangspunkt zu nehmen, sondern die ökonomisch und technisch sinnvolle Strategie. Niemand sollte 2026 ein Base-Modell von Grund auf trainieren, wenn fünf gleichwertige Open-Weight-Optionen verfügbar sind.

Post-Training ist der Hebel — Composer-3 als Lehrstück

Cursor, eines der erfolgreichsten Coding-Tools 2025/26, betreibt mit "Composer-3" ein eigenes Coding-Modell, das deutlich besser als die meisten verfügbaren LLMs für Coding-Aufgaben ist. Cursor hat das Basismodell nicht offiziell bestätigt; Raschkas Praktiker-Lesart im Chat ist Kimi K2.5. Unabhängig von der konkreten Modellwahl ist die Lektion eindeutig: der Produktionsgewinn entstand durch das Post-Training, nicht durch das Basismodell.

Wer 2026 ein vergleichbares Programm denkt, kopiert nicht eine konkrete Modellwahl. Er kopiert die Investitionsstruktur — Pre-Training delegieren, Post-Training und Harness ins eigene Haus.

Für deutsche und europäische Unternehmen, die in regulierten Industrien arbeiten, ist diese Logik doppelt wertvoll: Post-Training auf einem offenen Modell ermöglicht eine eigene Inferenz-Schicht, die nachvollziehbar, dokumentierbar und auf Run-Time-Ebene auditierbar ist. Wo dabei die Grenzen liegen — etwa bei der Auditierbarkeit der Trainingsdaten des Basismodells —, ist im Compliance-Abschnitt weiter unten ausgeführt.

Lokale Modelle sind 2026 produktiv möglich

Das Argument, lokale Modelle seien zwar regulatorisch attraktiv, aber technisch nicht konkurrenzfähig, ist 2026 nicht mehr haltbar. Raschka berichtete, ein Qwen-3.5-27B-Modell laufe auf konsumentennaher Hardware so gut, dass es für viele OpenCode-Anwendungsfälle vollkommen ausreiche — kostenfrei, lokal, ohne API-Token-Verbrennung.

Auch Beispiele aus dem Konsumenten-Bereich zeigen die Reife des lokalen Stacks: die Live-Übersetzung in den AirPods läuft als kleines Modell auf dem iPhone, mit etwa zwei Sekunden Latenz. Das ist nicht GPT-4-Qualität, aber es ist live, privat und unabhängig vom Server-Datenfluss. Diese Charakteristik — gut genug für den Use Case, dafür souverän und latenzarm — ist für Enterprise-Anwendungen oft die strategisch relevantere Konstellation.

Gabriela Bogk, CISO bei Mobile.de und langjähriges Mitglied des Chaos Computer Club, hat in ihrer Keynote auf der Konferenz die gleiche Linie aus Sicht eines deutschen Sicherheits-Mandats gezogen: für sensible Daten seien lokal lauffähige Modelle 2026 die selbstverständlichere Wahl. "If you have the need to protect your data a little bit better or if you have the want to protect your data a little bit better, run local models, absolutely." Sie verwies auf konkrete Hardware-Pfade — Mac mit Unified Memory, GPU aus Gaming- oder Mining-Resten — und auf die Reife der downloadbaren Modelle: nicht auf Frontier-Niveau, aber für viele Enterprise-Use-Cases ausreichend, ohne Datenfluss zu US-Servern. Aus der CISO-Perspektive eines deutschen Unternehmens ist das die operationale Bestätigung dessen, was Raschka strategisch formuliert.

Konkret: für interne Wissensbasen, Coding-Assistenz auf vertraulichem Code, Klassifikationsaufgaben in regulierten Pipelines, dokumentennahe Q&A-Systeme — für all das gibt es 2026 einen lokal lauffähigen Open-Weight-Pfad, der vor zwölf Monaten noch keiner war. Wer Souveränität nicht als Compliance-Pflicht versteht, sondern als Architekturentscheidung, hat hier eine Option, die 2024 nicht existierte.

Eine ehrliche Einordnung der Modellwahl

Wer für eine deutsche Bank oder einen Versicherer Open-Weight-Modelle ins Spiel bringt, bekommt im Vorstand zuerst eine Frage, die in technischen Diskussionen oft fehlt: woher kommt das Modell. Die produktiv nutzbaren Open-Weight-Familien 2026 verteilen sich auf drei geopolitische Cluster — chinesische Modelle (Qwen, DeepSeek, Kimi), US-trainierte Modelle (Llama, Gemma, GPT-OSS) und europäisch-trainierte Modelle (Mistral). Wer das ignoriert, verliert das Argument im Vorstand sofort an Glaubwürdigkeit.

Die ehrliche Einordnung als persönliche Einschätzung — nicht als verbindliche Compliance-Beratung, die im Einzelfall mit Aufsicht und Rechtsabteilung geklärt werden muss — sieht ungefähr so aus:

Diese Differenzierung schwächt das Souveränitäts-Argument nicht — sie schärft es. Souveränität bedeutet, die Modellwahl bewusst und mit Kontext zu treffen, nicht reflexhaft "das beste Open-Weight-Modell vom Benchmark" zu nehmen.

Was das für die deutsche und europäische Strategie heißt

Wenn die strategisch richtige Investition Post-Training und Harness ist, hat das zwei konkrete Konsequenzen für Programme, die 2026 in DACH und Europa anlaufen:

Compliance: vom Hindernis zum Argument

Für regulierte Branchen verschiebt sich 2026 auch die Compliance-Logik. Der EU AI Act und die sich ausformenden DORA- und MaRisk-Erwartungen verlangen nicht primär das beste Modell — sie verlangen Nachvollziehbarkeit, Datenherkunft, Auditfähigkeit und Risiko-Proportionalität.

An welcher Stelle Open-Weight-Modelle hier helfen, lohnt eine genaue Differenzierung. Open-Weight bedeutet: die Modellgewichte sind zugänglich, die Inferenz läuft auf eigener Infrastruktur, Audit-Logs auf Run-Time-Ebene sind eigenständig erzeugbar, der Datenfluss zur Laufzeit liegt unter eigener Kontrolle. Was Open-Weight nicht automatisch löst: die Auditierbarkeit der Trainingsdaten — die ist bei den meisten produktiven Open-Weight-Modellen ebenfalls nicht vollständig dokumentiert. Compliance-Argumente, die sich auf Trainingsdaten-Provenienz stützen, müssen Open-Weight von Open-Data trennen. Beides ist verfügbar, aber nicht im selben Modell.

Die proprietären Anbieter sind ihrerseits keine reine Black Box mehr: OpenAI Enterprise, Anthropic Claude for Work, Azure OpenAI bieten Datenresidenz, Zero-Retention-Modi, BAA-Verträge und Audit-Logs auf Inferenz-Ebene. Der ehrliche Unterschied bleibt: kein Modellgewicht in eigener Hand, keine Trainingsdaten-Einsicht, kein direkter Zugriff auf das Modellverhalten. Das ist für viele Use Cases vollkommen ausreichend. Für Use Cases, in denen Modell-Inspektion oder eigenes Post-Training Teil der Compliance-Argumentation sind, ist es nicht ausreichend.

Wo Open-Weight wirtschaftlich tatsächlich kippt, ist eine Faustregel-Frage: ab einem monatlichen Token-Volumen, das nach Erfahrungswerten aus der Beratungspraxis grob im einstelligen bis niedrigen zweistelligen Millionen-Bereich liegt, wird Self-Hosting in einem normalen Coding- oder Wissens-Use-Case wirtschaftlich. Das ist eine Größenordnung, keine Studie — die genaue Schwelle hängt an Hardware, Stromkosten, Personal- und Betriebsaufwand und der Latenz-Anforderung. Wer die TCO-Rechnung im eigenen Programm machen will, sollte sie selbst durchrechnen, nicht aus diesem Beitrag übernehmen.

Daraus formt sich ein Argument, das vor zwölf Monaten noch nicht trug: für eine bestimmte Klasse von Anwendungen wird Compliance zum Treiber für offene Modelle, nicht zur Bremse. Diese Verschiebung ist 2026 in Vorstandsdiskussionen erstmals operational greifbar — nicht als pauschale Regel, sondern als Use-Case-spezifische Architekturentscheidung.

Stop Waiting, Start Shipping

Bühnen-Setup zum Fireside Chat „Stop Waiting, Start Shipping — Real-World Strategy for Open-Source LLMs" mit Sebastian Raschka und Alexander C. S. Hendorf, PyCon DE & PyData 2026

Raschkas Schlussrat im Fireside Chat war einfach und direkt: Wartet nicht, fangt an. Probiert es aus. Plant nicht zu lange — was ihr heute lange durchplant, ist morgen irrelevant.

Dieser Rat fällt aus der Logik der "großen, durchdachten Entscheidung" heraus, in der viele europäische Programme bisher gefangen sind. 2026 ist genau das der Punkt: wer anfängt — mit klarem Use Case, kleiner Investition, Open-Weight-Modell, eigenem Post-Training auf eigenen Daten — baut Erfahrung und Hebel auf, die einen Vorsprung schaffen, der sich später nur mit erheblichem Aufwand einholen lässt.

Warten ist keine Option. Aufholen ist auch keine. Die richtige Strategie ist: jetzt offene Modelle produktiv machen — mit der Ernsthaftigkeit, die das verdient.

Open-Source-Stack als strategische Investition statt Aufholjagd. Wo sitzt der Hebel in Ihrem Programm?

Lassen Sie uns sprechen

Links zum Thema

  1. Stop Waiting, Start Shipping: Real-World Strategy for Open-Source LLMs — Fireside Chat mit Sebastian Raschka2026-04
  2. Sebastian Raschka — Persönliche Webseite
  3. Build a Large Language Model (From Scratch) — Sebastian Raschka
  4. Honey, I vibe coded some crypto — Security in the age of LLMs (Keynote) — Gabriela Bogk (CISO Mobile.de)2026-04
Basierend auf dem Fireside Chat "Stop Waiting, Start Shipping: Real-World Strategy for Open-Source LLMs" mit Sebastian Raschka, PyCon DE & PyData 2026. Mehrere Aussagen in diesem Beitrag — etwa zur Architekturverwandtschaft Mistral Large 3 / DeepSeek-V3 oder zum Basismodell von Cursor Composer-3 — sind als Praktiker-Einschätzung Raschkas markiert; offizielle Bestätigungen der jeweiligen Anbieter liegen nicht vor. Hinweis: Dieser Beitrag entsteht vor der öffentlichen Veröffentlichung der zitierten Konferenz-Aufzeichnungen, die voraussichtlich im Sommer 2026 erscheinen.