Stop Waiting, Start Shipping — der offene KI-Stack ist 2026 die erwachsene Wahl
Sebastian Raschka ist eine wichtige Stimme in der modernen KI, bekannt dafür, komplexe Konzepte aus Machine Learning und Large Language Models verständlich zu erklären, ohne technische Tiefe zu verlieren. Sein aktueller Auftritt im Lex Fridman Podcast unterstreicht seine Rolle als Praktiker und Vermittler, der Forschung, Umsetzung und verantwortungsvolle KI-Entwicklung miteinander verbindet.
Auf einen Blick
- Sebastian Raschka hinterfragt im Fireside Chat hart, ob jedes Unternehmen ein eigenes Base-Modell von Grund auf trainieren muss — seine Antwort: für 99,9 % nicht. Damit verschiebt sich die deutsche Souveränitätsdebatte von der Aufholjagd-Frage einzelner Häuser hin zur Frage, wo wir investieren.
- Offene Modelle tragen 2026 auf drei Achsen produktiv: in der Leistung haben sie den Abstand zur proprietären Spitze stark verringert und sind für viele Anwendungen praktisch vergleichbar, ab einem bestimmten Nutzungsvolumen werden sie wirtschaftlicher als der API-Bezug, und für relevante Anwendungen laufen sie zuverlässig auf eigener Infrastruktur.
- Die strategisch richtige Investition für Europa und für jeden europäischen Konzern: Post-Training und Harness, nicht Base-Modell-Race.
Der falsche Reflex der "Aufholjagd"
Im Fireside Chat Stop Waiting, Start Shipping auf der PyCon DE & PyData 2026 — der führenden europäischen Konferenz für KI-Anwendungen mit Open Source, mit über 2.000 Teilnehmenden — sprach ich mit Sebastian Raschka, dessen Bücher zu LLMs in der Praxis Standard sind, über die aktuellsten Fragen rund um LLMs und KI-Architektur. Er formulierte dabei einen Satz, der in der deutschen Souveränitätsdebatte bisher selten so klar gesagt wird: 99,9 Prozent der Unternehmen müssen kein eigenes Modell von Grund auf trainieren — das wäre eine Verschwendung, die durch keine strategische Begründung mehr zu rechtfertigen ist.
Das ist keine resignative Aussage, im Gegenteil. Sie verschiebt die Frage. Nicht das Pre-Training ist der entscheidende Hebel — es ist die Stufe darüber. Und genau dort, antwortete Raschka auf meine Frage nach Europas Investitionsentscheidung, würde er den nächsten Euro investieren: in Post-Training und Harness, nicht in den Versuch, ein eigenes Frontier-Modell zu bauen.
Diese Verschiebung ist 2026 für deutsche und europäische Unternehmen, die ihre AI-Strategie ernsthaft denken, die zentrale strategische Einsicht. Sie ersetzt die Debatte, ob "wir ein eigenes ChatGPT brauchen", durch die produktivere Frage: Wo investieren wir, damit aus offenen Modellen Wertschöpfung wird, die uns gehört.
Das "Winner takes all"-Mantra ist tot
In der medialen Berichterstattung dominiert weiter die Erzählung vom Wettlauf — entweder OpenAI oder Anthropic, entweder USA oder China. Auf der PyCon DE & PyData 2026 wurde sichtbar, dass diese Erzählung 2026 nicht mehr trägt.
Das Ökosystem ist breiter geworden, nicht enger: Llama-, Qwen-, DeepSeek-, Mistral-, Gemma-, GPT-OSS-Familien existieren parallel, mit je eigenen Stärken und Charakteristika. Die nützlichere Frage ist nicht mehr "welches Modell gewinnt", sondern "welche Modellfamilie passt zu welchem Use Case". Coding-Agents profitieren von anderen Modellen als juristische Recherche, anders als medizinische Klassifikation.
Mistral als europäischer Anbieter zeigt das exemplarisch. Nach Raschkas Beobachtung im Fireside Chat setzt Mistral Large 3 strukturell auf der DeepSeek-V3-Architektur auf — eine offene Architektur post-trainiert, nicht von Null neu erfunden. Ein technischer Report von Mistral, der diese Architekturverwandtschaft offiziell dokumentiert, liegt nicht öffentlich vor; die Aussage ist eine Praktiker-Einordnung, kein Mistral-Statement. Tragfähig bleibt die strategische Pointe: 2026 ist es keine Schwäche, eine offene Architektur als Ausgangspunkt zu nehmen, sondern die ökonomisch und technisch sinnvolle Strategie. Niemand sollte 2026 ein Base-Modell von Grund auf trainieren, wenn fünf gleichwertige Open-Weight-Optionen verfügbar sind.
Post-Training ist der Hebel — Composer-3 als Lehrstück
Cursor, eines der erfolgreichsten Coding-Tools 2025/26, betreibt mit "Composer-3" ein eigenes Coding-Modell, das deutlich besser als die meisten verfügbaren LLMs für Coding-Aufgaben ist. Cursor hat das Basismodell nicht offiziell bestätigt; Raschkas Praktiker-Lesart im Chat ist Kimi K2.5. Unabhängig von der konkreten Modellwahl ist die Lektion eindeutig: der Produktionsgewinn entstand durch das Post-Training, nicht durch das Basismodell.
Wer 2026 ein vergleichbares Programm denkt, kopiert nicht eine konkrete Modellwahl. Er kopiert die Investitionsstruktur — Pre-Training delegieren, Post-Training und Harness ins eigene Haus.
Für deutsche und europäische Unternehmen, die in regulierten Industrien arbeiten, ist diese Logik doppelt wertvoll: Post-Training auf einem offenen Modell ermöglicht eine eigene Inferenz-Schicht, die nachvollziehbar, dokumentierbar und auf Run-Time-Ebene auditierbar ist. Wo dabei die Grenzen liegen — etwa bei der Auditierbarkeit der Trainingsdaten des Basismodells —, ist im Compliance-Abschnitt weiter unten ausgeführt.
Lokale Modelle sind 2026 produktiv möglich
Das Argument, lokale Modelle seien zwar regulatorisch attraktiv, aber technisch nicht konkurrenzfähig, ist 2026 nicht mehr haltbar. Raschka berichtete, ein Qwen-3.5-27B-Modell laufe auf konsumentennaher Hardware so gut, dass es für viele OpenCode-Anwendungsfälle vollkommen ausreiche — kostenfrei, lokal, ohne API-Token-Verbrennung.
Auch Beispiele aus dem Konsumenten-Bereich zeigen die Reife des lokalen Stacks: die Live-Übersetzung in den AirPods läuft als kleines Modell auf dem iPhone, mit etwa zwei Sekunden Latenz. Das ist nicht GPT-4-Qualität, aber es ist live, privat und unabhängig vom Server-Datenfluss. Diese Charakteristik — gut genug für den Use Case, dafür souverän und latenzarm — ist für Enterprise-Anwendungen oft die strategisch relevantere Konstellation.
Gabriela Bogk, CISO bei Mobile.de und langjähriges Mitglied des Chaos Computer Club, hat in ihrer Keynote auf der Konferenz die gleiche Linie aus Sicht eines deutschen Sicherheits-Mandats gezogen: für sensible Daten seien lokal lauffähige Modelle 2026 die selbstverständlichere Wahl. "If you have the need to protect your data a little bit better or if you have the want to protect your data a little bit better, run local models, absolutely." Sie verwies auf konkrete Hardware-Pfade — Mac mit Unified Memory, GPU aus Gaming- oder Mining-Resten — und auf die Reife der downloadbaren Modelle: nicht auf Frontier-Niveau, aber für viele Enterprise-Use-Cases ausreichend, ohne Datenfluss zu US-Servern. Aus der CISO-Perspektive eines deutschen Unternehmens ist das die operationale Bestätigung dessen, was Raschka strategisch formuliert.
Konkret: für interne Wissensbasen, Coding-Assistenz auf vertraulichem Code, Klassifikationsaufgaben in regulierten Pipelines, dokumentennahe Q&A-Systeme — für all das gibt es 2026 einen lokal lauffähigen Open-Weight-Pfad, der vor zwölf Monaten noch keiner war. Wer Souveränität nicht als Compliance-Pflicht versteht, sondern als Architekturentscheidung, hat hier eine Option, die 2024 nicht existierte.
Eine ehrliche Einordnung der Modellwahl
Wer für eine deutsche Bank oder einen Versicherer Open-Weight-Modelle ins Spiel bringt, bekommt im Vorstand zuerst eine Frage, die in technischen Diskussionen oft fehlt: woher kommt das Modell. Die produktiv nutzbaren Open-Weight-Familien 2026 verteilen sich auf drei geopolitische Cluster — chinesische Modelle (Qwen, DeepSeek, Kimi), US-trainierte Modelle (Llama, Gemma, GPT-OSS) und europäisch-trainierte Modelle (Mistral). Wer das ignoriert, verliert das Argument im Vorstand sofort an Glaubwürdigkeit.
Die ehrliche Einordnung als persönliche Einschätzung — nicht als verbindliche Compliance-Beratung, die im Einzelfall mit Aufsicht und Rechtsabteilung geklärt werden muss — sieht ungefähr so aus:
- Für Coding-Assistenz, technische Klassifikation, dokumentennahe Suche: die politische Bias-Frage des Basismodells ist meist irrelevant. Raschka brachte das im Chat auf den Punkt: bei einem Coding-Agent zählt nicht die politische Sichtweise des Basismodells.
- Für inhalts-erzeugende Anwendungen mit externer Sichtbarkeit (Kundenkommunikation, Vertragsentwürfe, redaktionelle Arbeit): das Cluster der Trainings-Herkunft ist Teil der Risikoabschätzung. Continued Pre-Training auf eigenem Korpus kann Bias systematisch korrigieren — Raschka bestätigte den Pfad — kostet aber Zeit und Compute.
- Für regulierte Bank- und Versicherungs-Use-Cases: Mistral, Llama oder Gemma sind die natürlichen Erstkandidaten, weil ihre Trainings-Provenienz innerhalb des EU/US-Rahmens liegt. Chinesische Open-Weight-Modelle bleiben technisch interessant, müssen aber in den Procurement-Prozess mit der Compliance-Frage hinein.
Was das für die deutsche und europäische Strategie heißt
Wenn die strategisch richtige Investition Post-Training und Harness ist, hat das zwei konkrete Konsequenzen für Programme, die 2026 in DACH und Europa anlaufen:
- Der Hiring-Schwerpunkt verschiebt sich. Engpass-Hire ist 2026 der Domänenexperte mit Experimentierwillen, nicht der ML-PhD. Wer ein Modell selbst nachtrainieren kann, ist nützlich — wer das Geschäftsmodell und die Daten kennt, ist unverzichtbar.
- Open Source ist nicht die Sparvariante, sondern die strategisch reifere Wahl. Die Vorstellung, dass für ernsthafte Enterprise-Anwendungen das proprietäre Modell die "sichere" Wahl sei, kehrt sich 2026 in mehreren Achsen um — bei Compliance, Datensouveränität, langfristigen TCO und der Fähigkeit, das System zu verstehen und zu kontrollieren, hat der offene Stack 2026 die Oberhand.
Compliance: vom Hindernis zum Argument
Für regulierte Branchen verschiebt sich 2026 auch die Compliance-Logik. Der EU AI Act und die sich ausformenden DORA- und MaRisk-Erwartungen verlangen nicht primär das beste Modell — sie verlangen Nachvollziehbarkeit, Datenherkunft, Auditfähigkeit und Risiko-Proportionalität.
An welcher Stelle Open-Weight-Modelle hier helfen, lohnt eine genaue Differenzierung. Open-Weight bedeutet: die Modellgewichte sind zugänglich, die Inferenz läuft auf eigener Infrastruktur, Audit-Logs auf Run-Time-Ebene sind eigenständig erzeugbar, der Datenfluss zur Laufzeit liegt unter eigener Kontrolle. Was Open-Weight nicht automatisch löst: die Auditierbarkeit der Trainingsdaten — die ist bei den meisten produktiven Open-Weight-Modellen ebenfalls nicht vollständig dokumentiert. Compliance-Argumente, die sich auf Trainingsdaten-Provenienz stützen, müssen Open-Weight von Open-Data trennen. Beides ist verfügbar, aber nicht im selben Modell.
Die proprietären Anbieter sind ihrerseits keine reine Black Box mehr: OpenAI Enterprise, Anthropic Claude for Work, Azure OpenAI bieten Datenresidenz, Zero-Retention-Modi, BAA-Verträge und Audit-Logs auf Inferenz-Ebene. Der ehrliche Unterschied bleibt: kein Modellgewicht in eigener Hand, keine Trainingsdaten-Einsicht, kein direkter Zugriff auf das Modellverhalten. Das ist für viele Use Cases vollkommen ausreichend. Für Use Cases, in denen Modell-Inspektion oder eigenes Post-Training Teil der Compliance-Argumentation sind, ist es nicht ausreichend.
Wo Open-Weight wirtschaftlich tatsächlich kippt, ist eine Faustregel-Frage: ab einem monatlichen Token-Volumen, das nach Erfahrungswerten aus der Beratungspraxis grob im einstelligen bis niedrigen zweistelligen Millionen-Bereich liegt, wird Self-Hosting in einem normalen Coding- oder Wissens-Use-Case wirtschaftlich. Das ist eine Größenordnung, keine Studie — die genaue Schwelle hängt an Hardware, Stromkosten, Personal- und Betriebsaufwand und der Latenz-Anforderung. Wer die TCO-Rechnung im eigenen Programm machen will, sollte sie selbst durchrechnen, nicht aus diesem Beitrag übernehmen.
Daraus formt sich ein Argument, das vor zwölf Monaten noch nicht trug: für eine bestimmte Klasse von Anwendungen wird Compliance zum Treiber für offene Modelle, nicht zur Bremse. Diese Verschiebung ist 2026 in Vorstandsdiskussionen erstmals operational greifbar — nicht als pauschale Regel, sondern als Use-Case-spezifische Architekturentscheidung.
Stop Waiting, Start Shipping
Raschkas Schlussrat im Fireside Chat war einfach und direkt: Wartet nicht, fangt an. Probiert es aus. Plant nicht zu lange — was ihr heute lange durchplant, ist morgen irrelevant.
Dieser Rat fällt aus der Logik der "großen, durchdachten Entscheidung" heraus, in der viele europäische Programme bisher gefangen sind. 2026 ist genau das der Punkt: wer anfängt — mit klarem Use Case, kleiner Investition, Open-Weight-Modell, eigenem Post-Training auf eigenen Daten — baut Erfahrung und Hebel auf, die einen Vorsprung schaffen, der sich später nur mit erheblichem Aufwand einholen lässt.
Warten ist keine Option. Aufholen ist auch keine. Die richtige Strategie ist: jetzt offene Modelle produktiv machen — mit der Ernsthaftigkeit, die das verdient.
Open-Source-Stack als strategische Investition statt Aufholjagd. Wo sitzt der Hebel in Ihrem Programm?
Lassen Sie uns sprechenLinks zum Thema
- Stop Waiting, Start Shipping: Real-World Strategy for Open-Source LLMs — Fireside Chat mit Sebastian Raschka2026-04
- Sebastian Raschka — Persönliche Webseite
- Build a Large Language Model (From Scratch) — Sebastian Raschka
- Honey, I vibe coded some crypto — Security in the age of LLMs (Keynote) — Gabriela Bogk (CISO Mobile.de)2026-04