Wenn KI Bilder malt und plötzlich richtig schreiben kann

AI & UXR, CHAT GPT, HUMAN VS AI

MIN

18. Sept. 2025

Eine neue Qualität: KI-Bilder mit Bedeutung

Bilder generieren war schon länger möglich – aber oft ein Glücksspiel. Besonders dann, wenn im Bild Text auftauchen sollte: statt "UX Matters" stand da oft "UX Mertres", "UsX MaRer" oder eine Fantasiekombination aus Zeichen, die irgendwie wie Buchstaben aussahen. Für ernsthafte Anwendungen war das kaum brauchbar.

Seit kurzem aber ändert sich etwas Grundsätzliches. Bildgenerierung in ChatGPT – konkret: mit DALL·E 3 – hat einen Reifegrad erreicht, bei dem Schrift im Bild korrekt erzeugt werden kann. Und nicht nur das: Ich kann inzwischen gezielt auf bestehende Bilder referenzieren, Teile davon verändern lassen oder bestimmte Details anpassen. Wer das bisher nur von Midjourney kannte, wird überrascht sein, wie viel präziser und semantisch stabiler das inzwischen geht.

Warum war das früher eigentlich so schwer?

Der Grund liegt im Verständnis der KI. Frühere Bildgeneratoren – auch Midjourney, DALL·E 2 oder Stable Diffusion – behandeln Bilder rein visuell. Das heißt: Sie erkennen, dass ein Straßenschild eine bestimmte Form hat, aber nicht, was draufsteht. Schrift wurde behandelt wie eine Textur oder ein visuelles Muster – nicht als lesbarer, bedeutungstragender Inhalt.

Das ändert sich erst mit multimodalen Modellen. ChatGPT mit DALL·E 3 verbindet Sprachverständnis mit Bildkomposition. Dadurch wird es möglich, dass die KI wirklich versteht, was Begriffe wie „Titel mittig oben: UX rettet Produkte“ bedeuten – und diesen Auftrag dann im Bild korrekt umsetzt.

Kontext ist alles – jetzt kann ich Bilder referenzieren

Eine der wichtigsten Neuerungen: Ich kann auf bereits erstellte Bilder gezielt Bezug nehmen. Das bedeutet: Ich lade ein Bild hoch oder verwende ein zuvor generiertes, und formuliere dann eine Anweisung wie „wie dieses Bild, aber mit hellerem Hintergrund und ohne Text“ oder „ersetze die Figur durch eine Frau im Business-Outfit“.

Die KI erkennt dabei den Gesamtzusammenhang – also was im Bild passiert, wo sich bestimmte Elemente befinden und was verändert werden soll, ohne das ganze Bild neu zu interpretieren. Das ist ein echter Unterschied zur klassischen „Remix“-Logik von Midjourney, wo man oft ungewollt gleich mehrere Aspekte verändert.

Was Du beim Prompting beachten solltest

Damit das funktioniert, braucht es eine gewisse Klarheit im Prompt – und ein paar kleine Tricks:

Erstens: Englisch ist oft stabiler. Die Modelle wurden überwiegend mit englischen Bildbeschreibungen trainiert. Deutsche Prompts funktionieren meist gut, aber manchmal schleichen sich Fehler oder seltsame Interpretationen ein. Wenn es wichtig ist, versuche es testweise auch auf Englisch.

Zweitens: Rechtschreibung zählt wirklich. Wenn ein Wort im Prompt falsch geschrieben ist, übernimmt die KI diese Schreibweise gnadenlos ins Bild. Es ist also keine gute Idee, sich auf Autokorrektur zu verlassen – lieber zweimal prüfen, bevor „Ux Esprience“ auf dem Plakat steht.

Drittens: konkrete Titel helfen. Statt „Ein Titel, der die Bedeutung von UX zeigt“, lieber direkt „Titel: UX rettet Produkte“ oder „Schrift in der Mitte: Design mit Sinn“. Je klarer die Anweisung, desto wahrscheinlicher das richtige Ergebnis.

Viertens: Text kurz halten. Lange Sätze, Absätze oder verschachtelte Formulierungen führen oft zu Fehlern. Ein bis zwei Zeilen sind realistisch, drei riskant. Wer längere Inhalte will, sollte mit Leerräumen arbeiten und den Text später selbst einfügen.

Was kann ChatGPT besser als Midjourney – und umgekehrt?

Midjourney hat sich den Ruf als ästhetische Königin unter den Bild-KIs verdient. Die Ergebnisse sind atmosphärisch, stilsicher, kreativ. Aber wenn es darum geht, gezielt Inhalte zu steuern, Text korrekt ins Bild zu integrieren oder kleine Details nachzubearbeiten, kommt das System schnell an seine Grenzen.

ChatGPT mit DALL·E 3 punktet genau hier: Ich kann sagen, „Ersetze das rote T-Shirt durch ein blaues“ – und es passiert. Ich kann den Text ändern, den Hintergrund anpassen, ein Objekt entfernen, ohne dass das gesamte Bild neu interpretiert wird. Diese semantische Steuerbarkeit macht DALL·E in vielen UX-Kontexten nützlicher – insbesondere dann, wenn ich Illustrationen mit klarer Botschaft, erklärende Grafiken oder wiedererkennbare Bildreihen für Slides, Artikel oder Social Media brauche.

Warum das für UX-Leute relevant ist

Visuals sind in der UX-Kommunikation kein Beiwerk. Sie transportieren Haltung, Fokus, Struktur – und helfen, komplexe Inhalte zugänglich zu machen. Wenn ich heute mit ChatGPT ein Bild mit Text erzeuge, das sinnvoll aussieht und inhaltlich korrekt ist, spare ich mir oft den Umweg über Grafiktools, Stockfotos oder Bildmanipulationen.

Außerdem erlaubt die Kombination aus Referenzbild und sprachgesteuerter Änderung eine sehr iterative Arbeitsweise. Ich kann experimentieren, anpassen, vergleichen – und dadurch visuelle Konzepte schnell entwickeln oder testen. Das ist besonders hilfreich in frühen Projektphasen, bei UX-Konzepten oder in der internen Kommunikation.

Fazit: Bild-KI wird nützlicher – nicht nur schöner

ChatGPT ist keine Designerin. Und DALL·E wird Dir keine vollständige Infografik mit Grid-System und sauberem Satzspiegel bauen. Aber: Die neuen Fähigkeiten, Text korrekt darzustellen, bestehende Bilder gezielt zu verändern und visuelle Ideen verständlich umzusetzen, machen das System endlich praktikabel – nicht nur inspirierend.

Für UX-Menschen bedeutet das: Wer heute Ideen kommunizieren will, muss nicht mehr auf perfekt gerenderte Mockups warten. Ein gutes Prompt, ein Bild, ein paar gezielte Anpassungen – und plötzlich wird aus einer Idee etwas Sichtbares. Etwas, das verstanden wird. Etwas, das wirkt.

Und genau darum geht’s doch in UX.

💌 Noch nicht genug? Dann lies weiter – in unserem Newsletter.

Kommt viermal im Jahr. Bleibt länger im Kopf. https://www.uintent.com/de/newsletter

Illustration von Donald Trump mit erhobener Hand vor abstraktem, digitalem Hintergrund, der Sprachblasen und Datenstrukturen andeutet.

Donald Trump Prompt: Wie provokante KI-Prompts UX-Budgets bewegen

AI & UXR, PROMPTS, STAKEHOLDER MANAGEMENT

AI & UXR, CHAT GPT, HUMAN VS AI

​

Eine neue Qualität: KI-Bilder mit Bedeutung

Warum war das früher eigentlich so schwer?

Kontext ist alles – jetzt kann ich Bilder referenzieren

Was Du beim Prompting beachten solltest

Was kann ChatGPT besser als Midjourney – und umgekehrt?

Warum das für UX-Leute relevant ist

Fazit: Bild-KI wird nützlicher – nicht nur schöner

Donald Trump Prompt: Wie provokante KI-Prompts UX-Budgets bewegen

Die letzte Hürde: Wie unsichere Automatisierung das Vertrauen in ADAS bricht

Ersetzt KI UX Jobs? Was eine Studie mit 200.000 KI-Konversationen wirklich zeigt

Der Beifahrer, der immer zuhört: Warum wir unseren Autos nur ungern vertrauen, wenn sie sprechen

AI Ergebnisse bewerten im UX Research: So navigierst du die Blackbox

Haptische Gewissheit vs. digitale Verlockung: Der Kampf um die besten Bedienelemente im Auto

UX & AI: Wie „Ux Potemkin“ Deine Research- UND Design-Entscheidungen Untergräbt

Deep Research KI | So nutzt Du ChatGPT sinnvoll für UX-Arbeit

Wie Yupp Feedback nutzt, um KI-Modelle fair zu bewerten – und was UX-Profis daraus lernen können

Warum UX Research seine Glaubwürdigkeit verliert und wie wir sie zurückgewinnen

Prompts kaufen, teilen, verkaufen – was Prompt-Marktplätze heute leisten (und warum das für UX relevant ist)

ChatGPT halluziniert – trotz Anti-Halluzinations-Prompt

Warum KI manchmal nicht bis 3 zählen kann – und was das mit Tokens zu tun hat

GPT-5 ist da: Verändert diese UX AI wirklich alles für Researcher:innen?

Wenn KI Bilder malt und plötzlich richtig schreiben kann

Wenn der Text zu glatt ist: Wie man KI-Sprache menschlicher macht

Kein Science Fiction – KI macht sich selbstständig

Zwischen Argument und Einfluss – Wie überzeugend darf KI sein?

Digital Health Apps & Interfaces: Warum gute UX entscheidet, ob Patienten wirklich profitieren

Zensur trifft KI: Was DeepSeek über Menschenrechte verschweigt – und warum das UX betrifft

VERWANDTE ARTIKEL DIE SIE INTERESSIEREN KÖNNTEN

AUTHOR