.png)
AI & UXR, TOKEN, LLM
Warum KI manchmal nicht bis 3 zählen kann – und was das mit Tokens zu tun hat
3
MIN
25. Sept. 2025
Wenn KI sich verzählt
„Wie viele r sind in strawberry?“ – eine einfache Frage, oder?
Nicht für Sprachmodelle. Lange Zeit war die häufige KI-Antwort: „2“. Wer mitzählt, merkt schnell: Das ist falsch. Strawberry enthält drei r – eindeutig.
Ein Fehler, der so absurd simpel wirkt, dass man ins Grübeln kommt: Wie kann ein hochentwickeltes Sprachmodell wie ChatGPT daran scheitern?
Die Antwort führt uns mitten ins Herz der Sprachmodell-Architektur – genauer gesagt: in die Welt der Tokenisierung. Und die ist faszinierender, als es auf den ersten Blick scheint.
Was passiert da eigentlich?
Sprachmodelle wie ChatGPT zählen nicht wirklich. Sie analysieren auch keine Buchstaben, zumindest nicht so, wie wir das tun würden.
Stattdessen zerlegen sie Text in sogenannte Tokens – also kleinere Einheiten, mit denen das Modell trainiert wurde. Tokens können ein ganzes Wort sein, ein Wortbestandteil oder auch nur eine Silbe.
Und hier liegt die Krux: „r“ ist kein Token.
Das Modell „sieht“ den Buchstaben nicht einzeln, sondern eingebettet in größere Textsegmente. Es erkennt das „r“ nur, wenn man es explizit dazu auffordert – und selbst dann kann es je nach Prompt und Kontext danebenliegen.
Denn Sprachmodelle arbeiten nicht deterministisch, sondern probabilistisch: Sie raten, was wahrscheinlich gemeint ist – und nicht unbedingt, was rechnerisch korrekt wäre.
Tokenisierung am Beispiel „strawberry“
Das Wort strawberry wird z. B. von GPT-4o in genau zwei Tokens zerlegt:
["straw", "berry"]
Das bedeutet: Das Modell kennt strawberry als zwei typische Wortbestandteile. Und das „r“? Das steckt zwar in beiden Tokens drin – aber nie isoliert. Das Sprachmodell zählt nicht Buchstaben, sondern wahrscheinlichkeitsbasierte Bedeutungscluster.
Wer also fragt, wie viele r in strawberry stecken, stellt eine buchhalterische Frage an ein semantisches Wahrscheinlichkeitsmodell. Kein Wunder, dass es früher oft danebenlag.
Noch spannender: Deutsche Wörter
Deutsche Sprache, schwere Token: Unsere geliebten Komposita sind ein echter Stresstest für Tokenizer. Aber überraschenderweise schlägt sich GPT-4o hier gar nicht schlecht:
Word | Token | Number |
Herausforderung | ["Hera", "us", "ford", "er", "ung"] | 5 |
Krankenhausaufenthalt | ["Kranken", "haus", "auf", "ent", "halt"] | 5 |
Datenschutzgrundverordnung | ["Datenschutz", "grund", "ver", "ord", "nung"] | 5 |
Arbeitszeiterfassungspflicht | ["Arbeits", "zeit", "er", "fass", "ungs", "pflicht"] | 6 |
Selbstverständlichkeit | ["Selbst", "ver", "ständ", "lich", "keit"] | 5 |
Das zeigt: Der Tokenizer erkennt viele sinnvolle Einheiten – wie „-keit“, „-ung“, „ver-“, „grund“ – und zerteilt Komposita auf semantisch kluge Weise.
Aber auch hier gilt: Kein Modell zählt Buchstaben. Es erkennt, verarbeitet, und kombiniert Tokens. Nur wenn es zusätzlich darauf trainiert oder durch ein Beispiel darauf vorbereitet wird, kann es korrekt zählen.
Warum das wichtig ist (auch für UX & Prompting)
Diese kleinen Zählfehler erzählen eine große Geschichte – über das Wesen von Sprachmodellen.
Sprachmodelle rechnen nicht, sie wahrscheinlichkeitsranken Sprache. Sie können genial in Bedeutungssprüngen und Nuancen sein, aber eben auch völlig danebenliegen, wenn es um einfache Strukturfragen geht – wie Buchstabenzählen, Alphabetisches Sortieren oder mathematische Reihen.
Gerade beim Prompting heißt das:
Wenn Präzision wichtig ist (z. B. bei Zählen, Formatierung, Extraktion) → Aufgaben ganz klar formulieren
Wenn Halluzinationen vermieden werden sollen → Beispiele mitgeben
Wenn UX-Researcher mit KI arbeiten → das Verhalten des Tokenizers im Hinterkopf behalten
Denn viele vermeintliche „Fehler“ sind eigentlich Konsequenzen der Architektur. Und wenn man das versteht, kann man viel bessere Prompts schreiben – und bessere Ergebnisse bekommen.
Fazit: Tokens sind die neue Semantik – oder das neue Stolperseil
Der Fehler mit dem „r“ in strawberry ist kein banaler Bug – er ist eine Einladung, Sprachmodelle besser zu verstehen.
Denn wer mit KI arbeitet, sollte sich bewusst sein:
KI versteht keine Buchstaben – sie versteht Tokens.
KI zählt nicht – sie schätzt Wahrscheinlichkeiten.
KI ist nicht dumm – sie ist nur anders trainiert.
Wer das weiß, stolpert seltener über einfache Aufgaben – und bekommt aus komplexen Prompts mehr heraus.
Bonus: Selbst ausprobieren
🔧 Tool-Tipp
Wer selbst ausprobieren möchte, wie Wörter in Tokens zerlegt werden, kann z. B. dieses OpenAI-Tool nutzen:
👉 https://platform.openai.com/tokenizer
🧠 Prompt-Tipp fürs Zählen
„Zähle bitte exakt, wie oft der Buchstabe ‚r‘ im folgenden Wort vorkommt: strawberry. Gib mir nur die Zahl zurück.“
📣 Mitmachfrage Wie viele s sind in „Mississippi“?
💌 Noch nicht genug? Dann lies weiter – in unserem Newsletter.
Kommt viermal im Jahr. Bleibt länger im Kopf. https://www.uintent.com/de/newsletter
VERWANDTE ARTIKEL DIE SIE INTERESSIEREN KÖNNTEN
AUTHOR
Tara Bosenick
Tara ist seit 1999 als UX-Spezialistin tätig und hat die Branche in Deutschland auf Agenturseite mit aufgebaut und geprägt. Sie ist spezialisiert auf die Entwicklung neuer UX-Methoden, die Quantifizierung von UX und die Einführung von UX in Unternehmen.
Gleichzeitig war sie immer daran interessiert, in ihren Unternehmen eine möglichst „coole“ Unternehmenskultur zu entwickeln, in der Spaß, Leistung, Teamgeist und Kundenerfolg miteinander verknüpft sind. Seit mehreren Jahren unterstützt sie daher Führungskräfte und Unternehmen auf dem Weg zu mehr New Work / Agilität und einem besseren Mitarbeitererlebnis.
Sie ist eine der führenden Stimmen in der UX-, CX- und Employee Experience-Branche.




















