Den folgenden Input zum aktuellen Stand der KI-Entwicklung habe ich im Rahmen des Formats “StrateKI Breakfast Club” am 13. Januar 2026 gehalten, den ich monatlich zusammen mit Franziska Bluhm und Kerstin Hoffmann digital veranstalte. Falls du dich für die nächste Ausgabe kostenlos anmelden möchtest, abonniere unseren Newsletter auf Steady.

In meiner täglichen Arbeit als Technikjournalist für THE DECODER verfolge ich die neusten Bewegungen der KI-Industrie und -Forschung praktisch im Sekundentakt. Entsprechend schnell schleichen sich technologische Durchbrüche in meinen Alltag ein und ich halte sie wenig später für völlig selbstverständlich, als wären sie schon immer dagewesen. Doch als ich für meinen Kurzvortrag recherchiert habe, wo wir erst vor einem Jahr standen, war ich einigermaßen erstaunt:
- Die aktuellsten und leistungsfähigsten KI-Bildmodelle waren Midjourney v6.1 und DALL-E 3 (übrigens immer noch fest in den Bing Image Creator integriert), die Bilder auf solchem Niveau produzierten:

Es gab den Begriff “Vibecoding” nicht, den Ex-OpenAI-Forscher Andrej Karpathy erst am 3. Februar in einem Post auf X prägte.
Das chinesische Unternehmen DeepSeek war ein geheimnisvoller Newcomer und setzte US-Anbieter mit ihren immer weiter steigenden Trainingsbudgets unter Druck.
Die Deep-Research-Funktion existierte nicht, jedenfalls nicht in ChatGPT. Google war zugegebenermaßen schon etwas schneller und veröffentlichte das Feature, das in einem längeren Prozess Hunderte Webseiten zu einem (manchmal etwas zu) ausführlichen Bericht kondensiert, Ende 2024. Seitdem sind viele andere Chatbots nachgezogen.
Die meisten KI-Videos hatten keine native Audiospur und wirkten mehr wie bewegte Standbilder.
Anfang 2025 sah es also noch so aus, als würde die KI-Karawane in eine Sackgasse navigieren. Seitdem ist aber so viel passiert, als dass ich das letzte Jahr rückblickend als eines der disruptivsten Jahre der jüngeren Vergangenheit einordnen würde. Nicht nur im multimodalen Bereich, also der Verknüpfung von Bild- und Textinformationen, sondern auch in der intelligenten Verschaltung bestehender Bausteine gab es große Fortschritte.
- Nano Banana Pro, das derzeit als eines der genauesten und nützlichsten Bild-Modelle gilt, übernimmt mühelos Aufgaben, die erst kurz zuvor noch nur mit professionellen Grafikprogrammen möglich waren. Dank der Kombination mit dem immer besseren Bildverständnis ist das Modell sehr gut in der Lage, nur bestimmte Bildregionen zu verändern und den Rest vom Original zu übernehmen. Eingefügte Objekte werden außerdem hervorragend an den Look des Bildes angepasst und etwa mit Schatten versehen.

(Kannst du noch mit bloßem Auge erkennen, welches Objekt ich dazugedichtet habe? Kleiner Tipp, der komplizierte Prompt war: “add a calculator on the desk”.)
- “Vibecoding” ist längst kein theoretisches Konzept oder technische Spielerei mehr, sondern bei großen Unternehmen genauso wie Indie-Hacker:innen fest verwurzelt. Das Internet ist überflutet von Webseiten, die nur mit natürlicher Sprache beschrieben statt mit Code entwickelt wurden. Klar, da ist auch viel Schrott bei, aber: Die Zeit der maßgeschneiderten Software-on-demand ist angebrochen. Ein gutes Beispiel dafür ist etwa das Dashboard, das sich Shopify-CEO Tobias Lütke mal eben für seine MRT-Scans gebaut hat, anstatt mit einer kommerziellen Software zu hantieren. Indes hat Microsoft unter anderem die Ära des “Vibeworkings” eingeläutet und bietet uns einen Ausblick auf eine Zukunft, in der wir Software über Chatfenster statt Oberflächen bedienen.

- Auch wenn chinesische Konzerne wie Tencent und Alibaba schon lange in ihre KI-Entwicklung investieren, hat erst das Start-up DeepSeek wirklich vor Augen geführt, dass offene Modelle eine ernsthafte Alternative zu den kommerziellen Spitzenreitern aus den USA darstellen. Nicht nur machten sie deutlich, dass auch niedrigere Trainingsbudgets zu hoher Leistung führen können, auch prägten ihre wissenschaftlichen Innovationen die Konkurrenz und löste etwa eine Welle Reasoning-fähiger Sprachmodelle aus. Mittlerweile sind Newcomer wie Zhipu AI mit der GLM-Reihe oder Moonshot AI mit Kimi aus den obersten Plätze von Benchmarklisten nicht mehr wegzudenken. Aktuelle Untersuchungen zeigen, wie vor allem Qwen von Alibaba als wichtige Grundlage für neue Modelle dient, und etwa die mutmaßlich vor ihrem Ende stehende Llama-Serie von Meta abgelöst hat.

KI überhaupt zu nutzen ist spätestens seit der Einführung der AI Overviews in die weltweit größte Suchmaschine Google keine bewusste Entscheidung mehr. Die Übersichten haben auf SEO-Content ausgelegte Websites in Windeseile abgelöst und beantworten regelmäßig Fragen, ohne einen werbeerlösbringenden Seitenbesuch nach sich zu ziehen.
Gleichzeitig können Sprachmodelle sowohl über Chatbots als auch API auf eine wachsende Menge interner (Python-Ausführung, Web-Recherche) und externer Tools wie Photoshop oder Canva zugreifen.
Mit Veo 3 hat Google seine multimodalen Fähigkeiten auch im Videobereich unter Beweis gestellt. Die Modelle können inzwischen nicht nur täuschend echt aussehende, fotorealistische Sequenzen mit kohärenten Aktionen produzieren, sondern liefern gleich auch noch die passende Audiospur mit. In Sozialen Netzwerken wie TikTok verbreiten sich solche Clips rasant, teils wiederum gesteuert von KI-gestützten Bot-Systemen, die die Feeds mit Falschinformationen förmlich fluten. Die eigentlich notwendigen Kennzeichnungen werden nicht konsequent umgesetzt, und im Umkehrschluss trauen Nutzer:innen selbst authentischen Inhalten nicht mehr auf den ersten Blick, egal, wer der Absender ist. Und ganz ehrlich: Diese Story mit den Schafen im Supermarkt habe ich zunächst auch nicht geglaubt.
Wo geht’s also hin? Werden 2026 Halluzinationen restlos beseitigt, Prompt-Following perfektioniert, die Geschwindigkeit vervielfacht und das Kontextfenster ins Unendliche vergrößert? Unwahrscheinlich, auch wenn es spannende Ansätze gibt, von denen wir in den kommenden zwölf Monaten hoffentlich mehr sehen, etwa die Mamba-Architektur als Ergänzung zum bestehenden Transformer, Diffusion für ganze Textblöcke in wenigen Sekunden, Tool-Verwendung bei der Bilderkennung oder deutlich bessere Schrifterkennung in Bildern, was wiederum zu einem längeren Gedächtnis führen könnte.
- Wie der gerade veröffentlichte Reuters Digital News Report 2026 zeigt, haben Publisher die sinkenden Statistiken im Blick: Mehr als 40 Prozent Trafficrückgang werden in den nächsten drei Jahren prognostiziert. Das sollen mehr Investitionen in Formate ausgleichen, die (vermeintlich) nur schwer von einer KI repliziert werden können, etwa Video und Vor-Ort-Berichterstattung. Ob wirklich der Bedarf an “menschlich geprüften” Inhalten steigt, wage ich aber leider zu bezweifeln, weil schon jetzt in durch empfehlungsalgorithmisch gesteuerten Netzwerken wie TikTok der Absender keine übergeordnete Rolle mehr spielt.
Overall, we may see something of a barbell effect with human distinctiveness on one side and more automated approaches on the other. Those in the middle could find their audiences and revenues squeezed.
Ziemlich sicher bin ich mir aber bei der Vorhersage, dass ChatGPT und Co. eher früher als später Werbung erhalten werden. Nur die wenigsten der fast eine Milliarde regelmäßigen Nutzer:innen haben eine kostenpflichtige Mitgliedschaft, während der Bedarf an finanziellen Mitteln immer weiter wächst. Ich tippe darauf, dass es mit Einbindung klassischer Produktempfehlungen losgeht, bin aber gleichzeitig neugierig und besorgt, was sie mit dem über hunderte Konversationen geschärften individuellen Profil anstellen.
Zuguterletzt bin ich auch überzeugt davon, dass uns die kürzlich entflammte Speicherkrise noch eine ganze Weile begleiten wird. Der unersättliche Hunger nach HBM4-Systemspeicher, DDR5-Arbeitsspeicher und GDDR6-Grafikspeicher verteuert zusehends Produkte wie Smartphones, Notebooks und sogar Fernseher für Endverbraucher:innen.




