top of page
uintent Firmenlogo

AI WRITING, DIGITISATION, HOW-TO, PROMPTS

Woher wissen wir, dass unser Prompt gute Arbeit leistet? Warum UX Research eine Evaluierungsmethodik für KI-gestützte Analyse braucht

8

MIN

26. Feb. 2026

Stell dir vor: Du hast 40 Nutzerinterviews mit einem sorgfältig formulierten Prompt kodiert. Die Ergebnisse sehen plausibel aus. Das Team ist zufrieden, das Projekt geht weiter. Aber dann fragst du dich leise: Wäre gestern dasselbe rausgekommen? Und wenn mein Kollege denselben Prompt nutzt – kommt er zum gleichen Schluss? Was passiert nach dem nächsten Modell-Update?


Diese Fragen sind nicht hypothetisch. Sie betreffen jedes UX-Team, das KI-gestützte Analyse einsetzt – also mittlerweile ziemlich viele von uns.


In meiner Arbeit als UX-Beraterin sehe ich seit 2023 eine rasante Verschiebung: Prompts werden zum Analysewerkzeug. Für Sentiment-Analysen, für die Kodierung qualitativer Daten, für die Synthese von Nutzerfeedback. Die Ergebnisse sind oft beeindruckend. Aber wir überspringen dabei einen Schritt, den wir bei jedem anderen Forschungsinstrument selbstverständlich einfordern würden: die Prüfung der Gütekriterien.


Dieser Artikel macht das Problem sichtbar. Er liefert keine fertige Lösung – aber er stellt die Fragen, die wir als UX-Research-Community dringend beantworten müssen.


📌 Das Wichtigste in Kürze

  • Prompts sind Messinstrumente – und brauchen dieselbe methodische Prüfung wie Fragebögen oder Testprotokolle.

  • Reliabilität (Stabilität, Robustheit, Modellunabhängigkeit) lässt sich teilweise automatisiert prüfen – tut aber kaum jemand.

  • Validität (Misst der Prompt das Richtige?) ist die schwierigere und wichtigere Frage – und aktuell völlig ungelöst.

  • Existierende Eval-Frameworks aus dem Engineering lösen Teilprobleme, adressieren aber Validität nicht systematisch.

  • UX Research verfügt über das methodische Wissen für dieses Problem – wendet es aber noch nicht auf Prompts an.

  • Ohne Gütekriterien für Prompts riskieren wir, Entscheidungen auf ungeprüfte Analysen zu stützen.


Warum sollten uns Gütekriterien für Prompts interessieren?

Weil wir als UX Researcher:innen Entscheidungen auf der Grundlage von Daten treffen – und die Qualität dieser Daten direkt von der Qualität unserer Instrumente abhängt.


Bei einem Fragebogen fragen wir: Ist er reliabel? Ist er valide? Wurde er pilotiert? Bei einem Usability-Test prüfen wir, ob die Aufgaben das messen, was wir messen wollen. Aber bei einem Prompt, der 200 Kundenrezensionen nach Schmerzpunkten kategorisiert? Da schauen wir auf das Ergebnis und denken: „Sieht gut aus."


Das ist kein Vorwurf. Die Tools machen es uns leicht, diesen Schritt zu überspringen. Aber „sieht gut aus" ist kein Gütekriterium. Es ist ein Bauchgefühl. Und auf Bauchgefühle stützen wir normalerweise keine Research-Ergebnisse.


Was bedeuten Reliabilität und Validität, wenn das Instrument ein Prompt ist?

Die Konzepte sind vertraut – die Übertragung auf UX AI Prompting ist es noch nicht.


Denk an den Prompt als Messinstrument und an den LLM-Output als Messergebnis. Dann gelten dieselben Gütekriterien wie bei jedem empirischen Werkzeug: Reliabilität fragt, ob das Instrument zuverlässig misst. Validität fragt, ob es das Richtige misst. Beides zusammen bestimmt, wie viel Vertrauen wir in die Ergebnisse setzen können.


Der Unterschied zu klassischen Instrumenten: Bei einem Fragebogen bleibt das Instrument stabil, solange niemand die Fragen ändert. Bei einem Prompt kann sich das Instrument verändern, ohne dass du etwas tust – nämlich immer dann, wenn der Modellanbieter ein Update ausspielt. Dein Prompt ist derselbe, aber das System dahinter nicht.


Wie stabil ist unser Prompt? Vier Facetten der Reliabilität

Reliabilität lässt sich in vier Facetten betrachten, die jeweils einen anderen Aspekt der Zuverlässigkeit abdecken.


Wiederholungsstabilität: Kommt zweimal dasselbe raus?

Schick denselben Input mit demselben Prompt dreimal hintereinander an dasselbe Modell. Wie ähnlich sind die Outputs? Bei deterministischen Einstellungen (Temperature 0) erwarten wir hohe Konsistenz. Aber viele Teams nutzen höhere Temperature-Werte für kreativere Outputs – und dann wird die Frage relevant: Variieren nur Formulierungen, oder variieren auch die inhaltlichen Aussagen?


Hypothetisches Szenario: Du analysierst Nutzerfeedback zu einer Banking-App. Der Prompt soll die drei wichtigsten Schmerzpunkte identifizieren. Beim ersten Run sind es „Ladezeiten, Navigation, Sicherheitsbedenken". Beim zweiten Run „Performance, unübersichtliches Menü, fehlendes Vertrauen". Inhaltlich ähnlich – aber nicht identisch. Welches Ergebnis nimmst du? Und was berichtest du dem Stakeholder?


Robustheit: Überlebt der Prompt eine anders formulierte Frage?

Echte Nutzer:innen formulieren nie so wie dein Testdatensatz. Wenn dein Prompt auf „Was stört dich an der App?" trainiert ist, aber jemand fragt „Welche Probleme haben Nutzer mit der Anwendung?" – liefert er dann inhaltlich dasselbe?


Das ist Parallelform-Reliabilität, übertragen auf UX AI Research: Wie robust ist der Prompt gegenüber natürlicher Sprachvariation in den Inputs?


Modellunabhängigkeit: Funktioniert der Prompt nur mit GPT?

Wenn dein Prompt mit GPT-4o gute Ergebnisse liefert, aber mit Claude oder Gemini merklich andere – dann misst er nicht das Konstrukt, sondern eine Modell-Eigenschaft. Das ist relevant, weil Modellwechsel in der Praxis regelmäßig vorkommen: aus Kostengründen, wegen Anbieterwechseln oder weil das Team andere Präferenzen hat.


In meiner Beratungspraxis sehe ich Teams, die Prompts sorgfältig für ein bestimmtes Modell optimieren – und dann überrascht feststellen, dass sie nach einem Modellwechsel nicht übertragbar sind. Das ist kein Fehler des Teams. Es ist ein Symptom fehlender Reliabilitätsprüfung.


Interne Konsistenz: Widersprechen sich die Teilergebnisse?

Viele UX AI Prompts adressieren mehrere Aspekte gleichzeitig: „Analysiere dieses Nutzerfeedback nach Sentiment, Thema und Dringlichkeit." Wenn ein Feedback als „sehr negativ" im Sentiment klassifiziert wird, aber als „niedrige Dringlichkeit" – ist das ein valider Randfall oder ein Widerspruch?


Interne Konsistenz prüft, ob die Teilergebnisse eines Multi-Aspekt-Prompts zusammenpassen. In der klassischen Testtheorie entspricht das Cronbachs Alpha – ein Maß dafür, ob die Items eines Tests dasselbe Konstrukt messen.


Misst unser Prompt das Richtige? Die Validitätsfrage

Reliabilität ist die Voraussetzung, Validität ist das Ziel. Ein Prompt kann hochreliabel sein – also stabil, robust, modellunabhängig – und trotzdem das Falsche messen. Und hier wird es wirklich unbequem.


Inhaltsvalidität: Deckt der Output ab, was er abdecken soll?

Die grundlegendste Frage: Enthält der Output alle relevanten Aspekte? Und enthält er nichts, was nicht reingehört?


Hypothetisches Szenario: Dein Prompt kodiert Interviews zum Thema „Onboarding-Erfahrung". Er identifiziert zuverlässig Themen wie „Tutorials", „Hilfebereich" und „erste Schritte". Aber er übersieht systematisch emotionale Aspekte wie Frustration, Überforderung oder Erfolgserlebnisse – weil die Rubrik diese Dimension nicht abfragt. Der Output ist nicht falsch. Er ist unvollständig. Und diese Unvollständigkeit ist unsichtbar, solange niemand gezielt danach sucht.


Inhaltsvalidität erfordert eine Expertenbeurteilung: Menschen, die das Fachgebiet kennen, prüfen systematisch, ob das Instrument das abdeckt, was es abdecken soll. Bei Fragebögen ist das Standard. Bei Prompts macht es fast niemand.


Kriteriumsvalidität: Stimmt der Output mit einem externen Maßstab überein?

Hier brauchen wir ein Außenkriterium – etwas, gegen das wir den Prompt-Output validieren können. Und das ist oft der schwierigste Punkt: Was ist der Gold Standard?


Mögliche Kriterien:

  • Expertenurteil: Erfahrene UX Researcher:innen kodieren dieselben Daten manuell. Dann vergleichen wir: Wie hoch ist die Übereinstimmung zwischen Mensch und Prompt? Das lässt sich als Korrelationskoeffizient oder als Cohen's Kappa (ein Maß für die Übereinstimmung zwischen zwei Beurteilenden, bereinigt um Zufallstreffer) ausdrücken.

  • Beobachtetes Verhalten: Wenn der Prompt Nutzungsprobleme identifiziert – finden wir dieselben Probleme in Usability-Tests? Das wäre prädiktive Validität.

  • Business-Metriken: Wenn der Prompt Verbesserungsvorschläge priorisiert – verbessern sich die relevanten KPIs, wenn wir den Empfehlungen folgen?


Jedes dieser Kriterien erfordert Aufwand. Aber ohne externes Kriterium bleibt jede Evaluation ein Zirkelschluss: Wir beurteilen den Output eines Prompts mit einem LLM-Judge, dessen Urteil wir ebenfalls nicht validiert haben.


Konstruktvalidität: Messen wir wirklich das, was wir zu messen glauben?

Die anspruchsvollste Ebene. Wenn dein LLM-Judge sagt „dieser Output ist hilfreich" – was bedeutet „hilfreich" eigentlich? Misst die Bewertungsrubrik tatsächlich Hilfsbereitschaft? Oder misst sie Ausführlichkeit, die mit Hilfsbereitschaft korreliert, aber nicht dasselbe ist?


Aus der Forschung zu LLM-as-a-Judge (dem Ansatz, ein LLM zur Bewertung von Outputs eines anderen LLMs einzusetzen) wissen wir: LLM-Judges bevorzugen systematisch längere Antworten [Dubois et al., 2024]. Das ist ein klassischer Fall von mangelnder Konstruktvalidität – das Instrument misst nicht das Konstrukt „Qualität", sondern das Proxy-Merkmal „Länge".


Für UX AI Research ist das hochrelevant: Wenn wir Prompts evaluieren, müssen wir sicherstellen, dass unsere Bewertungskriterien tatsächlich die Qualitätsdimensionen abbilden, die für unsere Forschungsfrage relevant sind – und nicht etwas anderes, das zufällig damit korreliert.


Was bietet der Markt aktuell – und wo reicht es nicht?

Es gibt mittlerweile eine ganze Reihe von Eval-Frameworks. Keines davon wurde für UX Research entwickelt, aber einige sind in Teilen nützlich. Hier ein ehrlicher Überblick (Stand: Februar 2026):


Ansatz

Was er kann

Was fehlt

LLM-as-a-Judge (z.B., Pydantic Evals, DeepEval)

Subjektive Qualitätsdimensionen skaliert bewerten anhand definierter Rubriken

Wer validiert den Judge? Die Rubrik ist selbst ein Prompt – also dasselbe Problem eine Ebene höher

RAG-Evaluationsmetriken (z.B. RAGAS)

Faithfulness, Context Recall – gut für Retrieval-Systeme

Nicht übertragbar auf offene Analyseaufgaben, wie sie in UX Research typisch sind

CI/CD-Pipelines (z.B. Promptfoo, Braintrust)

Veränderungen erkennen, automatisiert warnen bei Regressionen

Sagen „etwas hat sich geändert" – nicht „es ist besser oder schlechter geworden"

Pairwise Comparison(z.B. Chatbot Arena)

Relative Präferenzen sammeln, gut gegen menschliches Urteil validiert

Nicht auf domänenspezifische Analyseaufgaben anwendbar, setzt Crowd-Bewertung voraus

Alle diese Ansätze lösen Teilprobleme. Der LLM-as-a-Judge-Ansatz kommt dem am nächsten, was wir bräuchten – aber er setzt voraus, was eigentlich erst bewiesen werden müsste: dass die Evaluierungskriterien valide sind. Und keiner dieser Ansätze adressiert die Frage der Validität systematisch.


Fragen, die wir noch nicht beantwortet haben

Ich schließe diesen Artikel bewusst ohne Lösung. Nicht aus Bequemlichkeit, sondern weil ich glaube, dass wir die Fragen erst sauber formulieren müssen, bevor wir anfangen, Antworten zu bauen. Hier sind die, die mich am meisten beschäftigen:


Wer definiert, was „guter Output" bedeutet – und nach welchem Verfahren? 

Heute entscheidet oft die Person, die den Prompt schreibt. Aber eine Operationalisierung von Qualität ist eine methodische Aufgabe, kein Nebenprodukt der Prompt-Entwicklung. Welcher Prozess ist angemessen?


Wie kalibrieren wir automatisierte Evaluierungen gegen menschliches Urteil? 

Human-Eval ist aufwändig. LLM-Judges sind nicht validiert. Wie finden wir einen pragmatischen Weg dazwischen – einen, der methodisch vertretbar ist, ohne in jedem Projekt eine Vollvalidierung zu erfordern?


Was ist unser Gold Standard, wenn es keinen gibt? 

Bei vielen UX-Research-Aufgaben existiert keine objektiv „richtige" Antwort. Wenn drei erfahrene Researcher:innen ein Interview unterschiedlich kodieren – was ist dann die Referenz, gegen die wir den Prompt validieren?


Wie gehen wir mit einem Instrument um, das sich ohne unser Zutun verändert? 

Modell-Updates kommen ohne Vorwarnung. Der Prompt bleibt gleich, aber das System dahinter nicht. Das ist, als würde jemand über Nacht die Skala deines Fragebogens ändern. Welche Monitoring-Strategie ist angemessen?


Und ganz grundsätzlich: Ist es vertretbar, Prompt-basierte Analyse in Research-Projekten einzusetzen, solange wir keine Antworten auf diese Fragen haben? 

Ich finde: Ja, unter bestimmten Bedingungen. Aber wir müssen aufhören, so zu tun, als wäre die Qualitätsfrage schon gelöst. Das ist sie nicht. Und als UX-Research-Community sollten wir diejenigen sein, die das offen aussprechen.


Ich freue mich auf die Diskussion.


Häufige Fragen

Was bedeutet LLM-as-a-Judge? 

LLM-as-a-Judge ist ein Verfahren, bei dem ein LLM (Large Language Model) die Outputs eines anderen LLMs anhand definierter Kriterien bewertet. Es ist aktuell der verbreitetste Ansatz zur automatisierten Evaluation von Prompt-Ergebnissen – aber seine eigene Validität ist oft nicht geprüft.


Kann ich die Qualität meiner Prompts nicht einfach stichprobenartig prüfen? 

Stichprobenprüfung ist besser als keine Prüfung. Aber sie sagt dir nur, ob einzelne Outputs plausibel aussehen – nicht, ob der Prompt über Zeit, verschiedene Inputs und verschiedene Modelle hinweg zuverlässig arbeitet. Für systematische Qualitätssicherung brauchst du ein strukturiertes Evaluierungsverfahren.


Brauche ich als UX Researcher:in technische Kenntnisse, um Prompts zu evaluieren? 

Die methodischen Grundlagen – Reliabilität, Validität, Inter-Rater-Reliabilität – gehören bereits zum Handwerkszeug von UX Research. Die technische Umsetzung (Eval-Frameworks, automatisierte Pipelines) erfordert zusätzliche Skills oder Zusammenarbeit mit Entwickler:innen. Aber die wichtigste Kompetenz – das Evaluierungsdesign – liegt bei dir.


Verändert ein Modell-Update wirklich die Ergebnisse meines Prompts? 

Ja, das ist dokumentiert und in der Praxis häufig. Modell-Updates können subtile Verhaltensänderungen verursachen, die die Outputs deines Prompts beeinflussen – auch wenn du am Prompt selbst nichts geändert hast. Ohne systematisches Monitoring bleiben solche Veränderungen oft unbemerkt.




Über die Autorin: Tara Maria Bosenick arbeitet seit 1999 als UX-Beraterin und begleitet Unternehmen an der Schnittstelle von Nutzerforschung und Technologie. Sie verfügt über umfassende Erfahrung mit qualitativen und quantitativen Forschungsmethoden und beschäftigt sich aktuell intensiv mit der Frage, wie KI-gestützte Analyse in UX Research methodisch abgesichert werden kann.


💌 Noch nicht genug? Dann lies weiter – in unserem Newsletter.

Kommt viermal im Jahr. Bleibt länger im Kopf. https://www.uintent.com/de/newsletter

Futuristischer leuchtender Zylinder mit Segmenten, getrennt durch goldene Barrieren.

Gated Salami Prompting: Warum Du Komplexe Llm-aufgaben In Scheiben Schneiden Solltest

CHAT GPT, HOW-TO, LLM, PROMPTS

Futuristische, quadratische Illustration auf dunkelblauem Hintergrund: Eine leuchtende goldene Sprechblase zerfällt in Partikel, die sich teilweise falsch neu zusammensetzen; umgeben von Energie­bögen, Lichtknoten und einem stilisierten digitalen Kopf – Symbol für Halluzinationen von LLMs.

Erfundene Zitate, Verschwundene Nuancen: Das Halluzinationsproblem In Der Qualitativen Analyse Mit LLMs

CHAT GPT, HOW-TO, LLM, OPEN AI, PROMPTS, TOKEN, UX METHODS

Surreale futuristische Illustration eines leuchtenden digitalen Kopfes mit Datenströmen, Diagrammen und Bewertungssymbolen, die KI-Evaluationsmethoden darstellen.

Woher wissen wir, dass unser Prompt gute Arbeit leistet? Warum UX Research eine Evaluierungsmethodik für KI-gestützte Analyse braucht

AI WRITING, DIGITISATION, HOW-TO, PROMPTS

A surreal, futuristic illustration featuring a translucent human profile with a glowing brain connected by flowing data streams to a hovering, golden crystal.

Prompt-Psychologie entlarvt: Warum „Trinkgeld" für ChatGPT manchmal funktioniert

CHAT GPT, HOW-TO, LLM, UX

Surreale, futuristische Illustration einer Person von hinten in einer leuchtenden digitalen Stadtlandschaft.

System Prompts in UX Research: Was du über die unsichtbare KI-Steuerung wissen musst

PROMPTS, RESEARCH, UX, UX INSIGHTS

Abstrakte futuristische Illustration einer Person, verschiedene Videos und Notizen.

YouTube Video Zusammenfassen Mit KI: Drei Tools Im Ux-Research-Praxistest

LLM, UX, HOW-TO

zwei gefaltete Hände, die eine wachsende Pflanze halten

UX For a Better World: Wir verschenken ein UX-Forschungsprojekt an gemeinnützige Organisationen und nachhaltige Unternehmen!

UX INSIGHTS, UX FOR GOOD, TRENDS, RESEARCH

Abstrakte, futuristische Illustration eines Menschen vor einem leuchtenden Turm aus Dokumenten und Datenströmen.

KI Tools UX Research: Wie gehen diese Tools mit großen Dokumenten um?

LLM, CHAT GPT, HOW-TO

Illustration von Donald Trump mit erhobener Hand vor abstraktem, digitalem Hintergrund, der Sprachblasen und Datenstrukturen andeutet.

Donald Trump Prompt: Wie provokante KI-Prompts UX-Budgets bewegen

AI & UXR, PROMPTS, STAKEHOLDER MANAGEMENT

Blick aus der Fahrerperspektive auf eine kurvige Landstraße, umgeben von grüner Vegetation. Im Vordergrund sind Lenkrad, Armaturenbrett und Rückspiegel zu sehen.

Die letzte Hürde: Wie unsichere Automatisierung das Vertrauen in ADAS bricht

AUTOMATION, AUTOMOTIVE UX, AUTONOMOUS DRIVING, GAMIFICATION, TRENDS

Illustration einer Person an einer Weggabelung mit zwei gleichwertigen Wegen.

Ersetzt KI UX Jobs? Was eine Studie mit 200.000 KI-Konversationen wirklich zeigt

HUMAN VS AI, RESEARCH, AI & UXR

Nahaufnahme eines hochwertigen Hochtöner-Lautsprechers im Armaturenbrett eines Autos mit perforierter Metalloberfläche.

Der Beifahrer, der immer zuhört: Warum wir unseren Autos nur ungern vertrauen, wenn sie sprechen

AUTOMOTIVE UX, VOICE ASSISTANTS

Schlüsselloch in dunkler Oberfläche, das den Blick auf ein abstraktes, farbiges UX-Research-Interface freigibt.

AI Ergebnisse bewerten im UX Research: So navigierst du die Blackbox

AI & UXR, HOW-TO, HUMAN VS AI

Ein von Audi hergestelltes Fahrzeugcockpit. Es verfügt über ein digitales Display und zahlreiche Tasten am Lenkrad.

Haptische Gewissheit vs. digitale Verlockung: Der Kampf um die besten Bedienelemente im Auto

AUTOMOTIVE UX, AUTONOMOUS DRIVING, CONNECTIVITY, GAMIFICATION

Digitale Illustration einer klassischen Gebäudefassade mit Säulen, gestützt von sichtbarem Gerüst, symbolisiert eine fragile, rein oberflächliche Fassade.

UX & AI: Wie „Ux Potemkin“ Deine Research- UND Design-Entscheidungen Untergräbt

AI & UXR, HUMAN VS AI, LLM, UX

Silhouette eines Tauchers, der ruhig in tiefblaues Wasser hinabtaucht – Symbol für tiefgehende Recherche.

Deep Research KI | So nutzt Du ChatGPT sinnvoll für UX-Arbeit

CHAT GPT, HOW-TO, RESEARCH, AI & UXR

Ein:e Schiedsrichter:in hält eine Bewertungstafel mit der Aufschrift „Yupp.ai“ zwischen zwei stilisierten KI-Chatbots in einem Boxring hoch – Symbolbild für den fairen Vergleich von KI-Modellen durch Nutzer:innen.

Wie Yupp Feedback nutzt, um KI-Modelle fair zu bewerten – und was UX-Profis daraus lernen können

AI & UXR, CHAT GPT, HUMAN VS AI, LLM

Auf einem kleinen Tisch liegt ein braunes Buch mit dem Titel „Don't Make Me Think“ von Steve Krug. Licht scheint durch das Fenster.

Warum UX Research seine Glaubwürdigkeit verliert und wie wir sie zurückgewinnen

UX, UX QUALITY, UX METHODS

3D-Illustration eines digitalen Marktplatzes mit bunten Marktständen voller Prompt-Karten und einer Figur, die einen Prompt auswählt.

Prompts kaufen, teilen, verkaufen – was Prompt-Marktplätze heute leisten (und warum das für UX relevant ist)

AI & UXR, PROMPTS

Roboter hält zwei Schilder hoch: „ISO 9241 – 7 Prinzipien“ und „ISO 9241 – 10 Prinzipien“.

ChatGPT halluziniert – trotz Anti-Halluzinations-Prompt

AI & UXR, HUMAN VS AI, CHAT GPT

 VERWANDTE ARTIKEL DIE SIE INTERESSIEREN KÖNNTEN 

AUTHOR

Tara Bosenick

Tara ist seit 1999 als UX-Spezialistin tätig und hat die Branche in Deutschland auf Agenturseite mit aufgebaut und geprägt. Sie ist spezialisiert auf die Entwicklung neuer UX-Methoden, die Quantifizierung von UX und die Einführung von UX in Unternehmen.


Gleichzeitig war sie immer daran interessiert, in ihren Unternehmen eine möglichst „coole“ Unternehmenskultur zu entwickeln, in der Spaß, Leistung, Teamgeist und Kundenerfolg miteinander verknüpft sind. Seit mehreren Jahren unterstützt sie daher Führungskräfte und Unternehmen auf dem Weg zu mehr New Work / Agilität und einem besseren Mitarbeitererlebnis.


Sie ist eine der führenden Stimmen in der UX-, CX- und Employee Experience-Branche.

bottom of page