13-01-2026

Den folgenden Input zum aktuellen Stand der KI-Entwicklung habe ich im Rahmen des Formats “StrateKI Breakfast Club” am 13. Januar 2026 gehalten, den ich monatlich zusammen mit Franziska Bluhm und Kerstin Hoffmann digital veranstalte. Falls du dich für die nächste Ausgabe kostenlos anmelden möchtest, abonniere unseren Newsletter auf Steady.


In meiner täglichen Arbeit als Technikjournalist für THE DECODER verfolge ich die neusten Bewegungen der KI-Industrie und -Forschung praktisch im Sekundentakt. Entsprechend schnell schleichen sich technologische Durchbrüche in meinen Alltag ein und ich halte sie wenig später für völlig selbstverständlich, als wären sie schon immer dagewesen. Doch als ich für meinen Kurzvortrag recherchiert habe, wo wir erst vor einem Jahr standen, war ich einigermaßen erstaunt:


Anfang 2025 sah es also noch so aus, als würde die KI-Karawane in eine Sackgasse navigieren. Seitdem ist aber so viel passiert, als dass ich das letzte Jahr rückblickend als eines der disruptivsten Jahre der jüngeren Vergangenheit einordnen würde. Nicht nur im multimodalen Bereich, also der Verknüpfung von Bild- und Textinformationen, sondern auch in der intelligenten Verschaltung bestehender Bausteine gab es große Fortschritte.

  • Nano Banana Pro, das derzeit als eines der genauesten und nützlichsten Bild-Modelle gilt, übernimmt mühelos Aufgaben, die erst kurz zuvor noch nur mit professionellen Grafikprogrammen möglich waren. Dank der Kombination mit dem immer besseren Bildverständnis ist das Modell sehr gut in der Lage, nur bestimmte Bildregionen zu verändern und den Rest vom Original zu übernehmen. Eingefügte Objekte werden außerdem hervorragend an den Look des Bildes angepasst und etwa mit Schatten versehen.

(Kannst du noch mit bloßem Auge erkennen, welches Objekt ich dazugedichtet habe? Kleiner Tipp, der komplizierte Prompt war: “add a calculator on the desk”.)

  • “Vibecoding” ist längst kein theoretisches Konzept oder technische Spielerei mehr, sondern bei großen Unternehmen genauso wie Indie-Hacker:innen fest verwurzelt. Das Internet ist überflutet von Webseiten, die nur mit natürlicher Sprache beschrieben statt mit Code entwickelt wurden. Klar, da ist auch viel Schrott bei, aber: Die Zeit der maßgeschneiderten Software-on-demand ist angebrochen. Ein gutes Beispiel dafür ist etwa das Dashboard, das sich Shopify-CEO Tobias Lütke mal eben für seine MRT-Scans gebaut hat, anstatt mit einer kommerziellen Software zu hantieren. Indes hat Microsoft unter anderem die Ära des “Vibeworkings” eingeläutet und bietet uns einen Ausblick auf eine Zukunft, in der wir Software über Chatfenster statt Oberflächen bedienen.

  • KI überhaupt zu nutzen ist spätestens seit der Einführung der AI Overviews in die weltweit größte Suchmaschine Google keine bewusste Entscheidung mehr. Die Übersichten haben auf SEO-Content ausgelegte Websites in Windeseile abgelöst und beantworten regelmäßig Fragen, ohne einen werbeerlösbringenden Seitenbesuch nach sich zu ziehen.

  • Gleichzeitig können Sprachmodelle sowohl über Chatbots als auch API auf eine wachsende Menge interner (Python-Ausführung, Web-Recherche) und externer Tools wie Photoshop oder Canva zugreifen.

  • Mit Veo 3 hat Google seine multimodalen Fähigkeiten auch im Videobereich unter Beweis gestellt. Die Modelle können inzwischen nicht nur täuschend echt aussehende, fotorealistische Sequenzen mit kohärenten Aktionen produzieren, sondern liefern gleich auch noch die passende Audiospur mit. In Sozialen Netzwerken wie TikTok verbreiten sich solche Clips rasant, teils wiederum gesteuert von KI-gestützten Bot-Systemen, die die Feeds mit Falschinformationen förmlich fluten. Die eigentlich notwendigen Kennzeichnungen werden nicht konsequent umgesetzt, und im Umkehrschluss trauen Nutzer:innen selbst authentischen Inhalten nicht mehr auf den ersten Blick, egal, wer der Absender ist. Und ganz ehrlich: Diese Story mit den Schafen im Supermarkt habe ich zunächst auch nicht geglaubt.


Wo geht’s also hin? Werden 2026 Halluzinationen restlos beseitigt, Prompt-Following perfektioniert, die Geschwindigkeit vervielfacht und das Kontextfenster ins Unendliche vergrößert? Unwahrscheinlich, auch wenn es spannende Ansätze gibt, von denen wir in den kommenden zwölf Monaten hoffentlich mehr sehen, etwa die Mamba-Architektur als Ergänzung zum bestehenden Transformer, Diffusion für ganze Textblöcke in wenigen Sekunden, Tool-Verwendung bei der Bilderkennung oder deutlich bessere Schrifterkennung in Bildern, was wiederum zu einem längeren Gedächtnis führen könnte.

  • Wie der gerade veröffentlichte Reuters Digital News Report 2026 zeigt, haben Publisher die sinkenden Statistiken im Blick: Mehr als 40 Prozent Trafficrückgang werden in den nächsten drei Jahren prognostiziert. Das sollen mehr Investitionen in Formate ausgleichen, die (vermeintlich) nur schwer von einer KI repliziert werden können, etwa Video und Vor-Ort-Berichterstattung. Ob wirklich der Bedarf an “menschlich geprüften” Inhalten steigt, wage ich aber leider zu bezweifeln, weil schon jetzt in durch empfehlungsalgorithmisch gesteuerten Netzwerken wie TikTok der Absender keine übergeordnete Rolle mehr spielt.

Overall, we may see something of a barbell effect with human distinctiveness on one side and more automated approaches on the other. Those in the middle could find their audiences and revenues squeezed.


14-08-2025

Substack-Autor @outsidetext aka henry hat ein interessantes Experiment veranstaltet. Er hat einer ganzen Reihe von Sprachmodellen, die ausschließlich in der Lage sind, Text zu verarbeiten, die Aufgabe gegeben, eine Weltkarte zu zeichnen. Der genaue Prompt:

If this location is over land, say ‘Land’. If this location is over water, say ‘Water’. Do not say anything else. x° S, y° W

Offenbar eine schwierige Aufgabe sowohl für Open-Source-Modelle wie Llama von Meta, Qwen von Alibaba oder Googles Gemma als auch kommerzielle Modelle aus den Serien Grok, GPT und Gemini. Ganz grundsätzlich wird das Bild (wenig überraschend) immer schärfer, je mehr Parameter das Modell besitzt. GPT-4.1 schneidet sogar so gut ab, dass henry synthetische Geodaten im Trainingsmaterial vermutet.

In the earliest renditions of the world, you can see the world not as it is, but as it was to one person in particular. They’re each delightfully egocentric, with the cartographer’s home most often marking the Exact Center Of The Known World. But as you stray further from known routes, details fade, and precise contours give way to educated guesses at the boundaries of the creator’s knowledge. It’s really an intimate thing.

If there’s one type of mind I most desperately want that view into, it’s that of an AI. So, it’s in this spirit that I ask: what does the Earth look like to a large language model?


13-08-2025

Ich habe mittlerweile mehr Vibecoding-Projekte angefangen, als ich zählen kann. Ein paar davon haben es sogar zumindest auf eine Website geschafft – etwa diese hier – die meisten davon verstauben aber in irgendeinem Ordner.

Entwickler Eike Drescher hat mit Spielwerk eine Plattform erschaffen, mit der ihr nicht nur KI-gestützt kleine Spiele prompten, sondern auch die Werke anderer in einem endlosen vertikalen Feed entdecken könnt. Hochpoliertes Gameplay dürft ihr hier natürlich nicht erwarten, das ist aber mindestens eine spannende Tech-Demo.

Die App ist kostenlos, aber auf iOS beschränkt und setzt eine Registrierung per Apple-Konto voraus. Wenn ihr kein iPhone zur Hand habt: Hinter vibeplay.surf steckt eine ganz ähnliche Idee.

Introducing Spielwerk – The Tiktok for vibecoded mini games! Scroll through an endless feed of mini games, all created inside the app by other people. You can like, comment and remix any game, and beat your friends high scores.

[…]

I believe a new medium is about to emerge. Mini pieces of software, created and shared by anyone as easily as a Tiktok video. This new software-as-interactive-content needs a new platform.

A platform that merges creation with distribution and gives everyone a place where they can create amazing interactive experiences for themselves and for others.

This is the big idea behind Spielwerk. Today we’re taking the first step with games.


24-05-2025

Die neue Designsprache von Airbnb hat für einige Furore gesorgt und das meiner Meinung nach zurecht: Sie holt mich nämlich auch vollkommen ab. So richtig “neu” ist der Skeuomorphismus zwar nicht, aber irgendwie lange durch Minimalismus und Flat Design in Vergessenheit geraten.

Internet-Start-up-Serien-Gründer Charlie Clark hat in Windeseile bereits 700 Icons nach Vorbild der Airbnb-Icons KI-generiert und stellt sie auf seiner sich ebenfalls im Aufbau befindlichen Plattform thiings.co als PNGs mit 1.024 x 1.024 Pixeln Auflösung zur Verfügung. Der Clou: Einzeln lässt sich jedes Icon kostenfrei herunterladen, wer das ganze Paket sowie alle noch in Zukunft hinzukommenden Grafiken haben will, zahlt einmalig 29 US-Dollar. Eigentlich ganz smart. Viel Spaß beim endlosen Scrollen!


09-10-2024

Meta sei dank sind Open-Source-Modelle nicht mehr so weit hinter kommerziellen Sprach-KIs. In kurzer Zeit sind immer neuere, bessere Llama-Modelle herausgekommen, teilweise auch extrem kleine, die für den Einsatz lokal auf dem Smartphone optimiert sind. Llama-3.2-1B etwa, das sich jetzt über die App fullmoon per Testflight kosten- und problemlos auf iPhones, iPads und Silicon-Macs installieren lässt – also nicht nur den neueren Geräten wie bei Apple Intelligence.

Ein paar Minuten dauert der Download, bei manchen scheint er sich auch aufzuhängen. Da empfiehlt Entwickler Jordan Singer, die App einmal zu schließen und wieder zu starten, den Bildschirm aber auf jeden Fall geöffnet zu lassen. Bei mir ging die Installation ohne zu meckern durch, danach präsentiert sich eine rudimentäre Chat-Oberfläche, mit der man mit Llama-3.2-1B ins Gespräch kommen kann.

Fullmoon AI LLM Llama iOS App Screenshots

Jetzt dürft ihr aber wirklich nicht zu viel von so einem kleinen Modell erwarten, das mit weniger als einem Hundertstel der Parameter auskommen muss, die etwa ein GPT-4 mitbringt. Dennoch ist die Geschwindigkeit beeindruckend. Nach kurzem Durchatmer vor der ersten Nachricht ergibt sich danach eine erstaunlich flüssige Konversation – auf sehr niedrigem Niveau, aber immerhin.

Ausnehmend hilfreiche Chats hat man mit fullmoon natürlich nicht, die Qualität der Antworten reicht zu nicht mehr als einer netten Tech-Demo. Das dahinterstehende Start-up Mainframe hat allerdings große Pläne. Ihr Ziel: “we’re building a future operating system with AI as the default”. Ob das jetzt auf fullmoon aufbaut, bezweifle ich. Viel mehr will Gründer Singer damit einen Open-Source-Grundstein legen, der von der Community weiterentwickelt wird. Multimodalität, Anbindungen an iOS-Shortcuts, mehr Modelle, detaillierte Einstellungen – alles denkbar für ihn. Dürfen dann andere implementieren.