Warum KI manchmal nicht bis 3 zählen kann – und was das mit Tokens zu tun hat

AI & UXR, TOKEN, LLM

MIN

25. Sept. 2025

Wenn KI sich verzählt

„Wie viele r sind in strawberry?“ – eine einfache Frage, oder?

Nicht für Sprachmodelle. Lange Zeit war die häufige KI-Antwort: „2“. Wer mitzählt, merkt schnell: Das ist falsch. Strawberry enthält drei r – eindeutig.

Ein Fehler, der so absurd simpel wirkt, dass man ins Grübeln kommt: Wie kann ein hochentwickeltes Sprachmodell wie ChatGPT daran scheitern?

Die Antwort führt uns mitten ins Herz der Sprachmodell-Architektur – genauer gesagt: in die Welt der Tokenisierung. Und die ist faszinierender, als es auf den ersten Blick scheint.

Was passiert da eigentlich?

Sprachmodelle wie ChatGPT zählen nicht wirklich. Sie analysieren auch keine Buchstaben, zumindest nicht so, wie wir das tun würden.

Stattdessen zerlegen sie Text in sogenannte Tokens – also kleinere Einheiten, mit denen das Modell trainiert wurde. Tokens können ein ganzes Wort sein, ein Wortbestandteil oder auch nur eine Silbe.

Und hier liegt die Krux: „r“ ist kein Token.

Das Modell „sieht“ den Buchstaben nicht einzeln, sondern eingebettet in größere Textsegmente. Es erkennt das „r“ nur, wenn man es explizit dazu auffordert – und selbst dann kann es je nach Prompt und Kontext danebenliegen.

Denn Sprachmodelle arbeiten nicht deterministisch, sondern probabilistisch: Sie raten, was wahrscheinlich gemeint ist – und nicht unbedingt, was rechnerisch korrekt wäre.

Tokenisierung am Beispiel „strawberry“

Das Wort strawberry wird z. B. von GPT-4o in genau zwei Tokens zerlegt:

["straw", "berry"]

Das bedeutet: Das Modell kennt strawberry als zwei typische Wortbestandteile. Und das „r“? Das steckt zwar in beiden Tokens drin – aber nie isoliert. Das Sprachmodell zählt nicht Buchstaben, sondern wahrscheinlichkeitsbasierte Bedeutungscluster.

Wer also fragt, wie viele r in strawberry stecken, stellt eine buchhalterische Frage an ein semantisches Wahrscheinlichkeitsmodell. Kein Wunder, dass es früher oft danebenlag.

Noch spannender: Deutsche Wörter

Deutsche Sprache, schwere Token: Unsere geliebten Komposita sind ein echter Stresstest für Tokenizer. Aber überraschenderweise schlägt sich GPT-4o hier gar nicht schlecht:

Word	Token	Number
Herausforderung	["Hera", "us", "ford", "er", "ung"]	5
Krankenhausaufenthalt	["Kranken", "haus", "auf", "ent", "halt"]	5
Datenschutzgrundverordnung	["Datenschutz", "grund", "ver", "ord", "nung"]	5
Arbeitszeiterfassungspflicht	["Arbeits", "zeit", "er", "fass", "ungs", "pflicht"]	6
Selbstverständlichkeit	["Selbst", "ver", "ständ", "lich", "keit"]	5

Das zeigt: Der Tokenizer erkennt viele sinnvolle Einheiten – wie „-keit“, „-ung“, „ver-“, „grund“ – und zerteilt Komposita auf semantisch kluge Weise.

Aber auch hier gilt: Kein Modell zählt Buchstaben. Es erkennt, verarbeitet, und kombiniert Tokens. Nur wenn es zusätzlich darauf trainiert oder durch ein Beispiel darauf vorbereitet wird, kann es korrekt zählen.

Warum das wichtig ist (auch für UX & Prompting)

Diese kleinen Zählfehler erzählen eine große Geschichte – über das Wesen von Sprachmodellen.

Sprachmodelle rechnen nicht, sie wahrscheinlichkeitsranken Sprache. Sie können genial in Bedeutungssprüngen und Nuancen sein, aber eben auch völlig danebenliegen, wenn es um einfache Strukturfragen geht – wie Buchstabenzählen, Alphabetisches Sortieren oder mathematische Reihen.

Gerade beim Prompting heißt das:

Wenn Präzision wichtig ist (z. B. bei Zählen, Formatierung, Extraktion) → Aufgaben ganz klar formulieren
Wenn Halluzinationen vermieden werden sollen → Beispiele mitgeben
Wenn UX-Researcher mit KI arbeiten → das Verhalten des Tokenizers im Hinterkopf behalten

Denn viele vermeintliche „Fehler“ sind eigentlich Konsequenzen der Architektur. Und wenn man das versteht, kann man viel bessere Prompts schreiben – und bessere Ergebnisse bekommen.

Fazit: Tokens sind die neue Semantik – oder das neue Stolperseil

Der Fehler mit dem „r“ in strawberry ist kein banaler Bug – er ist eine Einladung, Sprachmodelle besser zu verstehen.

Denn wer mit KI arbeitet, sollte sich bewusst sein:

KI versteht keine Buchstaben – sie versteht Tokens.
KI zählt nicht – sie schätzt Wahrscheinlichkeiten.
KI ist nicht dumm – sie ist nur anders trainiert.

Wer das weiß, stolpert seltener über einfache Aufgaben – und bekommt aus komplexen Prompts mehr heraus.

Bonus: Selbst ausprobieren

🔧 Tool-Tipp

Wer selbst ausprobieren möchte, wie Wörter in Tokens zerlegt werden, kann z. B. dieses OpenAI-Tool nutzen:

👉 https://platform.openai.com/tokenizer

🧠 Prompt-Tipp fürs Zählen

„Zähle bitte exakt, wie oft der Buchstabe ‚r‘ im folgenden Wort vorkommt: strawberry. Gib mir nur die Zahl zurück.“

📣 Mitmachfrage Wie viele s sind in „Mississippi“?

💌 Noch nicht genug? Dann lies weiter – in unserem Newsletter.

Kommt viermal im Jahr. Bleibt länger im Kopf. https://www.uintent.com/de/newsletter

zwei gefaltete Hände, die eine wachsende Pflanze halten

UX For a Better World: Wir verschenken ein UX-Forschungsprojekt an gemeinnützige Organisationen und nachhaltige Unternehmen!

UX INSIGHTS, UX FOR GOOD, TRENDS, RESEARCH

AI & UXR, TOKEN, LLM

​

Wenn KI sich verzählt

Was passiert da eigentlich?

Tokenisierung am Beispiel „strawberry“

Noch spannender: Deutsche Wörter

Warum das wichtig ist (auch für UX & Prompting)

Fazit: Tokens sind die neue Semantik – oder das neue Stolperseil

Bonus: Selbst ausprobieren

UX For a Better World: Wir verschenken ein UX-Forschungsprojekt an gemeinnützige Organisationen und nachhaltige Unternehmen!

KI Tools UX Research: Wie gehen diese Tools mit großen Dokumenten um?

Donald Trump Prompt: Wie provokante KI-Prompts UX-Budgets bewegen

Die letzte Hürde: Wie unsichere Automatisierung das Vertrauen in ADAS bricht

Ersetzt KI UX Jobs? Was eine Studie mit 200.000 KI-Konversationen wirklich zeigt

Der Beifahrer, der immer zuhört: Warum wir unseren Autos nur ungern vertrauen, wenn sie sprechen

AI Ergebnisse bewerten im UX Research: So navigierst du die Blackbox

Haptische Gewissheit vs. digitale Verlockung: Der Kampf um die besten Bedienelemente im Auto

UX & AI: Wie „Ux Potemkin“ Deine Research- UND Design-Entscheidungen Untergräbt

Deep Research KI | So nutzt Du ChatGPT sinnvoll für UX-Arbeit

Wie Yupp Feedback nutzt, um KI-Modelle fair zu bewerten – und was UX-Profis daraus lernen können

Warum UX Research seine Glaubwürdigkeit verliert und wie wir sie zurückgewinnen

Prompts kaufen, teilen, verkaufen – was Prompt-Marktplätze heute leisten (und warum das für UX relevant ist)

ChatGPT halluziniert – trotz Anti-Halluzinations-Prompt

Warum KI manchmal nicht bis 3 zählen kann – und was das mit Tokens zu tun hat

GPT-5 ist da: Verändert diese UX AI wirklich alles für Researcher:innen?

Wenn KI Bilder malt und plötzlich richtig schreiben kann

Wenn der Text zu glatt ist: Wie man KI-Sprache menschlicher macht

Kein Science Fiction – KI macht sich selbstständig

Zwischen Argument und Einfluss – Wie überzeugend darf KI sein?

VERWANDTE ARTIKEL DIE SIE INTERESSIEREN KÖNNTEN

AUTHOR