top of page
uintent Firmenlogo

AI & UXR, CHAT GPT, HUMAN VS AI, OPEN AI

Anekdotische Evidenz oder systematische KI-Forschung – Stand der Dinge und was noch zu tun ist.


4

MIN

4. März 2025

In der Interaktion mit KI-Systemen wie ChatGPT, Gemini oder Claude gibt es durchaus wertvolle anekdotische Evidenz, die Nutzer:innen helfen kann, die Kommunikation effizienter zu gestalten. Ein Beispiel ist die Erkenntnis, dass viele Modelle besser auf Englisch antworten, weil sie in diesem Sprachraum komplexe Anfragen präziser bearbeiten können. Dies liegt oft daran, dass sie überwiegend in englischsprachigen Datensätzen trainiert wurden, was zu einem reicheren Sprachverständnis führt. Für User:innen bedeutet das, dass sich eine Anfrage manchmal durch einen Wechsel zur englischen Sprache verbessern lässt, insbesondere bei sehr technischen oder wissenschaftlichen Themen (siehe Blogartikel).


Ein weiteres Beispiel für konstruktive anekdotische Evidenz ist das Nachfragen. Da KI-Modelle dazu neigen, wichtige Aspekte manchmal zu übersehen oder zu verallgemeinern, hilft es, die KI konkret und mehrfach nach Details zu fragen. Ein Dialog in mehreren Schritten kann oft dazu beitragen, alle relevanten Informationen zu erhalten und Wissenslücken zu schließen. Diese Form der Nachfrage hat sich in der Praxis bewährt, um sicherzustellen, dass die Antwort wirklich alle gewünschten Aspekte abdeckt (siehe Blogartikel).


Ebenso ist der Ton in der Interaktion mit KI nicht unwesentlich. Studien zur Mensch-KI-Kommunikation zeigen, dass eine höfliche und strukturierte Anrede oft zu besser strukturierten Antworten führt – möglicherweise, weil das Modell die Höflichkeit als "ernsthaftes Interesse" interpretiert und sich dadurch gezielter auf die gestellte Frage konzentriert. Hier zeigen auch Anekdoten aus dem Alltag, dass eine respektvolle Sprache den Gesprächsfluss verbessert und Missverständnisse reduziert (siehe Blogartikel).


Doch während es diese positiven "Anwendungsanekdoten" gibt, die Nutzern helfen können, die Qualität von KI-Ergebnissen zu steigern, gibt es ebenso zahlreiche skurrile und absurd anmutende Fehlleistungen, die Fragen zur Qualität und Zuverlässigkeit von KI aufwerfen. Der humorvolle Aspekt dieser Anekdoten sorgt dafür, dass solche Fehlleistungen oft viel Aufmerksamkeit erlangen und ggf. auch viral gehen, z.B. die Frage, wie viele “r” in dem Wort Strawberry stecken und ChatGPTs Unfähigkeit, diese Frage richtig zu beantworten (siehe Blogartikel). Doch leider verdecken sie die Notwendigkeit, systematische Qualitätsbewertungsstandards für KI zu entwickeln – ein Thema, das in der wissenschaftlichen Forschung noch am Anfang steht.


Stand der Forschung zur systematischen Qualitätsbewertung 

In der wissenschaftlichen Forschung gibt es erste Ansätze zur Entwicklung systematischer Methoden für die Bewertung der Qualität von KI-Ergebnissen. Der "Multidimensionale Qualitätsmetriken"-Ansatz (MQM) bietet eine Möglichkeit, Übersetzungen oder generierte Texte anhand spezifischer Kategorien wie Kohärenz, Grammatik und Relevanz zu bewerten. Projekte wie die AIGIQA-20K-Datenbank, die auf CVPR 2024 Open Access Repository  verfügbar ist, verfolgen diesen Ansatz, um systematischere Einblicke in die Qualität von KI-generierten Bildern zu gewinnen (CVF Open Access).  


Ein weiteres Beispiel für systematische Bewertungsansätze sind Frameworks wie TruEra, die neben technischen Qualitätsstandards auch ethische und gesellschaftliche Kriterien wie Fairness und Transparenz berücksichtigen. Diese kombinierte Perspektive hilft, die Qualität und soziale Verträglichkeit von KI-Outputs umfassender zu bewerten, wie unter Truerab nachzulesen ist.


Regulatorische Rahmenbedingungen, wie sie mit dem EU AI Act entstehen, weisen ebenfalls darauf hin, dass eine zunehmende Notwendigkeit gesehen wird, KI-Systeme verlässlich und transparent zu gestalten. Diese Regulierungen sollen besonders in sicherheitskritischen Bereichen wie der Gesundheitsversorgung sicherstellen, dass KI-Outputs korrekt und nachvollziehbar sind und dass Nutzer den Systemen vertrauen können.

 

 

Herausforderungen und Potenziale für bessere KI-Ergebnisse 

Doch der Weg zu einer wirklich umfassenden Qualitätsbewertung bleibt komplex. Kontextabhängige Anpassungen und kontinuierliche Wartung sind bei der Bewertung von KI-Outputs unabdingbar. Eine einfache, standardisierte Metrik wird oft der Vielfältigkeit der Anwendungsszenarien nicht gerecht. Um eine realitätsnahe Bewertung zu erzielen, experimentieren Forscher deshalb mit Hybridmodellen, die menschliche Kontrolle – wie in "Human-in-the-Loop"-Ansätzen – und maschinelle Bewertungen kombinieren. Insbesondere in sensiblen Bereichen wie der Medizin zeigt sich, dass eine solche Kombination zuverlässigere und vertrauenswürdigere Ergebnisse liefert.

 

Ein weiteres Beispiel für die Bedeutung kontextspezifischer Metriken ist das BIG-Bench-Projekt, das Sprachmodelle über die reine Akkuratesse hinaus auf kreative Fähigkeiten und logisches Denken testet (ProjectPro). Solche anspruchsvollen Benchmarks tragen dazu bei, dass KI nicht nur korrekt, sondern auch "intelligent" antwortet – ein wichtiger Unterschied, um komplexe Aufgaben besser zu meistern.

 

Grenzen und Potenziale der KI im Alltag: humorvolle Anekdoten und ihre Bedeutung 

Neben den konstruktiven Anwendungen gibt es auch zahlreiche absurde Fehlinterpretationen und Missverständnisse, die KI-Ergebnisse oft humorvoll erscheinen lassen. Hier ein paar Beispiele für derartige Anekdoten (zu finden z.B. auf https://dataconomy.com/2024/06/03/funny-ai-fails-moments/):

 

  • Essbare Steine: Eine KI schlug vor, täglich einen kleinen Stein zu essen, um wichtige Mineralien zu erhalten. Diese Empfehlung sorgte für reichlich Belustigung, weil sie völlig missverständlich und gesundheitlich gefährlich ist.

  • Pizza-Kleber: Eine KI empfahl, ungiftigen Kleber auf die Pizza zu geben, um das Verrutschen des Käses zu verhindern. Auch wenn es eine kreative Lösung sein mag, zeugt sie von einem mangelnden Verständnis für Essgewohnheiten und Sicherheit.

  • Hamster als Menschen erkannt: In einem Gesichtserkennungssystem wurde ein Hamster als menschliches Gesicht eingestuft, was die Zuverlässigkeit der Technologie infrage stellte.

  • Acht-Tage-Woche für mehr Fitness: Ein KI-System schlug vor, acht Tage pro Woche zu trainieren, um fit zu bleiben. Eine "zeitlose" Empfehlung, die zeigt, dass selbst grundlegende Konzepte wie Zeit für KI-Modelle schwierig zu erfassen sind.

  • Balenciaga-Papst: Ein KI-generiertes Bild, das den Papst in einer Balenciaga-Jacke zeigt, wurde viral, weil es auf den ersten Blick realistisch aussah und gleichzeitig völlig surreal wirkte. Viele Menschen hielten das Bild für echt, bis klar wurde, dass es KI-generiert war.


Solche Fehlleistungen verdeutlichen die bestehenden Grenzen der KI-Systeme und zeigen, dass die Modelle oft Schwierigkeiten haben, ungewöhnliche Kontexte korrekt zu interpretieren.


Gesellschaftliche und ethische Implikationen 

Solche "humorvollen" Fehlleistungen können die öffentliche Wahrnehmung und das Vertrauen in KI-Systeme beeinflussen. Gerade in sicherheitskritischen Bereichen wie Medizin oder Recht könnten Fehler gravierende Auswirkungen haben. Daher wird zunehmend die Notwendigkeit von "explainable AI" (erklärbare KI) betont, um Entscheidungen nachvollziehbar und verständlich zu gestalten. Eine transparente Erklärung der Entscheidungsfindung kann das Vertrauen in KI stärken und gleichzeitig helfen, Missverständnisse oder Fehlinterpretationen zu vermeiden.


Die Verantwortung für solche Standards liegt auch bei den Entwickler:innen und Anbietern. Indem sie klare Qualitätsmanagementprozesse einführen und den Nutzer:innen zeigen, wie KI-Entscheidungen zustande kommen, tragen sie dazu bei, die Nutzung von KI sicherer und nachvollziehbarer zu machen.


Zusätzliche Perspektiven zur Qualitätsbewertung 

Abgesehen von systematischen Qualitätsstandards und ethischen Richtlinien ist ein strukturiertes Datenqualitätsmanagement von entscheidender Bedeutung. Die Qualität der genutzten Daten beeinflusst die Genauigkeit und Relevanz der KI-Outputs direkt und stellt sicher, dass Verzerrungen und Fehler minimiert werden. Regulatorische Maßnahmen wie der "EU AI Act" geben hierbei erste Hinweise darauf, wie wichtig eine verlässliche Datenbasis ist (Die Gesetzestexte | EU-Gesetz zur künstlichen Intelligenz).


Ein weiterer Aspekt ist die Schulung und Sensibilisierung der Nutzer:innen. Ein grundlegendes Verständnis von KI und deren Funktionsweise hilft, Missverständnisse zu vermeiden und die Technologie realistischer zu bewerten. Programmen zur Nutzerschulung kommt eine Schlüsselrolle zu, um die anekdotischen Fehlleistungen als das zu sehen, was sie sind: kuriose Ausnahmen, die nichts über die generelle Qualität der KI aussagen.


Fazit und Ausblick 

Die Anekdoten über Tipps zur KI-Nutzung und KI-Fehler sind das, was sie sind: Anekdoten. Wir brauchen neue Evaluationsmethoden (wie z.B. "Human-in-the-Loop" und kontextspezifischen Qualitätsmetriken), um KI-Modelle besser an realen Bedürfnissen zu orientieren und verantwortungsvoll einzusetzen.

Leuchtender futuristischer Schutzschild aus UI-Elementen hält digitale Gefahren im dunklen Raum ab.

UX Research Als Risikomanagement: Warum Wir Endlich Die Sprache Wechseln Müssen

HOW-TO, UX, UX QUALITY

Person am Schreibtisch zwischen Chaos und geordnetem Datenfluss, Lichtfokus in der Mitte

UX & AI: Die besten Newsletter und Podcasts – meine persönliche Auswahl

AI & UXR

Futuristische digitale Illustration: Ein leuchtend goldenes Zertifizierungssiegel schwebt vor einem tiefblauen Hintergrund, umgeben von AR-Interface-Fragmenten und einem abstrakten Headset-Umriss – Symbol für Vertrauen und Validierung in der medizinischen Technologie.

Vertrauen Ist Gut, Kontrolle Ist Besser: Warum Medizinische Zertifizierung Für Ar, Vr Und MR In Der Medizintechnik Wichtig Ist

HEALTHCARE, HUMAN-CENTERED DESIGN, UX

Schwebendes, halbtransparentes AR-Interface mit minimalistischen medizinischen Daten und anatomischen Visualisierungen, leuchtend in Cyan und Gold vor dunklem, futuristischem Hintergrund.

Die Magie Nutzbar Machen: Warum Usability-Engineering Für AR, VR Und MR In Der Medizintechnik Wichtig Ist

HEALTHCARE, MHEALTH

Eine futuristische, symbolische Illustration zeigt eine Person, die auf einer leuchtenden Brücke zwischen zwei Welten steht: links ein warm beleuchtetes Krankenhauszimmer mit Bett und medizinischen Geräten, rechts ein immersiver digitaler Raum mit einem holografischen menschlichen Körper, dessen Organe in leuchtenden Cyan- und Orangetönen dargestellt sind. Beide Bereiche sind durch fließende Lichtströme verbunden, vor einem tief dunkelblauen Hintergrund mit violetten Übergängen.

Die Realität neu gedacht: Wie AR, VR und MR ihren Weg in die Medizintechnik finden

DIGITISATION, HEALTHCARE

Leuchtende goldene Trophäe schwebt über einer Kluft, während darunter kleine Figuren an Nutzerforschung und Wireframes arbeiten, ohne vom Licht erreicht zu werden.

UX AI Benchmarks Verstehen: Was HLE Und METR Wirklich Über Ki-Tools Aussagen

AI & UXR

Futuristische digitale Illustration auf dunkelblauem Hintergrund: Eine menschliche Hand mit golden leuchtendem Bleistift und eine cyan-glühende Roboterhand greifen gemeinsam nach einem zentralen, strahlenden Datencluster. Umgeben von gestapelten Dokumenten und einem Netzwerk aus verbundenen Knoten symbolisiert die Szene die Zusammenarbeit von menschlicher Interpretation und digitaler Informationsverarbeitung.

NotebookLM Im UX Research: Ehrliche Einschätzung Eines Spezialisierten Ki-Tools

AI & UXR, HOW-TO, LLM

Futuristischer leuchtender Zylinder mit Segmenten, getrennt durch goldene Barrieren.

Gated Salami Prompting: Warum Du Komplexe Llm-aufgaben In Scheiben Schneiden Solltest

CHAT GPT, HOW-TO, LLM, PROMPTS

Futuristische, quadratische Illustration auf dunkelblauem Hintergrund: Eine leuchtende goldene Sprechblase zerfällt in Partikel, die sich teilweise falsch neu zusammensetzen; umgeben von Energie­bögen, Lichtknoten und einem stilisierten digitalen Kopf – Symbol für Halluzinationen von LLMs.

Erfundene Zitate, Verschwundene Nuancen: Das Halluzinationsproblem In Der Qualitativen Analyse Mit LLMs

CHAT GPT, HOW-TO, LLM, OPEN AI, PROMPTS, TOKEN, UX METHODS

Surreale futuristische Illustration eines leuchtenden digitalen Kopfes mit Datenströmen, Diagrammen und Bewertungssymbolen, die KI-Evaluationsmethoden darstellen.

Woher wissen wir, dass unser Prompt gute Arbeit leistet? Warum UX Research eine Evaluierungsmethodik für KI-gestützte Analyse braucht

AI WRITING, DIGITISATION, HOW-TO, PROMPTS

A surreal, futuristic illustration featuring a translucent human profile with a glowing brain connected by flowing data streams to a hovering, golden crystal.

Prompt-Psychologie entlarvt: Warum „Trinkgeld" für ChatGPT manchmal funktioniert

CHAT GPT, HOW-TO, LLM, UX

Surreale, futuristische Illustration einer Person von hinten in einer leuchtenden digitalen Stadtlandschaft.

System Prompts in UX Research: Was du über die unsichtbare KI-Steuerung wissen musst

PROMPTS, RESEARCH, UX, UX INSIGHTS

Abstrakte futuristische Illustration einer Person, verschiedene Videos und Notizen.

YouTube Video Zusammenfassen Mit KI: Drei Tools Im Ux-Research-Praxistest

LLM, UX, HOW-TO

zwei gefaltete Hände, die eine wachsende Pflanze halten

UX For a Better World: Wir verschenken ein UX-Forschungsprojekt an gemeinnützige Organisationen und nachhaltige Unternehmen!

UX INSIGHTS, UX FOR GOOD, TRENDS, RESEARCH

Abstrakte, futuristische Illustration eines Menschen vor einem leuchtenden Turm aus Dokumenten und Datenströmen.

KI Tools UX Research: Wie gehen diese Tools mit großen Dokumenten um?

LLM, CHAT GPT, HOW-TO

Illustration von Donald Trump mit erhobener Hand vor abstraktem, digitalem Hintergrund, der Sprachblasen und Datenstrukturen andeutet.

Donald Trump Prompt: Wie provokante KI-Prompts UX-Budgets bewegen

AI & UXR, PROMPTS, STAKEHOLDER MANAGEMENT

Blick aus der Fahrerperspektive auf eine kurvige Landstraße, umgeben von grüner Vegetation. Im Vordergrund sind Lenkrad, Armaturenbrett und Rückspiegel zu sehen.

Die letzte Hürde: Wie unsichere Automatisierung das Vertrauen in ADAS bricht

AUTOMATION, AUTOMOTIVE UX, AUTONOMOUS DRIVING, GAMIFICATION, TRENDS

Illustration einer Person an einer Weggabelung mit zwei gleichwertigen Wegen.

Ersetzt KI UX Jobs? Was eine Studie mit 200.000 KI-Konversationen wirklich zeigt

HUMAN VS AI, RESEARCH, AI & UXR

Nahaufnahme eines hochwertigen Hochtöner-Lautsprechers im Armaturenbrett eines Autos mit perforierter Metalloberfläche.

Der Beifahrer, der immer zuhört: Warum wir unseren Autos nur ungern vertrauen, wenn sie sprechen

AUTOMOTIVE UX, VOICE ASSISTANTS

Schlüsselloch in dunkler Oberfläche, das den Blick auf ein abstraktes, farbiges UX-Research-Interface freigibt.

AI Ergebnisse bewerten im UX Research: So navigierst du die Blackbox

AI & UXR, HOW-TO, HUMAN VS AI

 VERWANDTE ARTIKEL DIE SIE INTERESSIEREN KÖNNTEN 

AUTHOR

Tara Bosenick

Tara ist seit 1999 als UX-Spezialistin tätig und hat die Branche in Deutschland auf Agenturseite mit aufgebaut und geprägt. Sie ist spezialisiert auf die Entwicklung neuer UX-Methoden, die Quantifizierung von UX und die Einführung von UX in Unternehmen.


Gleichzeitig war sie immer daran interessiert, in ihren Unternehmen eine möglichst „coole“ Unternehmenskultur zu entwickeln, in der Spaß, Leistung, Teamgeist und Kundenerfolg miteinander verknüpft sind. Seit mehreren Jahren unterstützt sie daher Führungskräfte und Unternehmen auf dem Weg zu mehr New Work / Agilität und einem besseren Mitarbeitererlebnis.


Sie ist eine der führenden Stimmen in der UX-, CX- und Employee Experience-Branche.

bottom of page