
AI WRITING, DIGITISATION, HOW-TO, PROMPTS
Woher wissen wir, dass unser Prompt gute Arbeit leistet? Warum UX Research eine Evaluierungsmethodik für KI-gestützte Analyse braucht
8
MIN
26. Feb. 2026
Stell dir vor: Du hast 40 Nutzerinterviews mit einem sorgfältig formulierten Prompt kodiert. Die Ergebnisse sehen plausibel aus. Das Team ist zufrieden, das Projekt geht weiter. Aber dann fragst du dich leise: Wäre gestern dasselbe rausgekommen? Und wenn mein Kollege denselben Prompt nutzt – kommt er zum gleichen Schluss? Was passiert nach dem nächsten Modell-Update?
Diese Fragen sind nicht hypothetisch. Sie betreffen jedes UX-Team, das KI-gestützte Analyse einsetzt – also mittlerweile ziemlich viele von uns.
In meiner Arbeit als UX-Beraterin sehe ich seit 2023 eine rasante Verschiebung: Prompts werden zum Analysewerkzeug. Für Sentiment-Analysen, für die Kodierung qualitativer Daten, für die Synthese von Nutzerfeedback. Die Ergebnisse sind oft beeindruckend. Aber wir überspringen dabei einen Schritt, den wir bei jedem anderen Forschungsinstrument selbstverständlich einfordern würden: die Prüfung der Gütekriterien.
Dieser Artikel macht das Problem sichtbar. Er liefert keine fertige Lösung – aber er stellt die Fragen, die wir als UX-Research-Community dringend beantworten müssen.
📌 Das Wichtigste in Kürze
Prompts sind Messinstrumente – und brauchen dieselbe methodische Prüfung wie Fragebögen oder Testprotokolle.
Reliabilität (Stabilität, Robustheit, Modellunabhängigkeit) lässt sich teilweise automatisiert prüfen – tut aber kaum jemand.
Validität (Misst der Prompt das Richtige?) ist die schwierigere und wichtigere Frage – und aktuell völlig ungelöst.
Existierende Eval-Frameworks aus dem Engineering lösen Teilprobleme, adressieren aber Validität nicht systematisch.
UX Research verfügt über das methodische Wissen für dieses Problem – wendet es aber noch nicht auf Prompts an.
Ohne Gütekriterien für Prompts riskieren wir, Entscheidungen auf ungeprüfte Analysen zu stützen.
Warum sollten uns Gütekriterien für Prompts interessieren?
Weil wir als UX Researcher:innen Entscheidungen auf der Grundlage von Daten treffen – und die Qualität dieser Daten direkt von der Qualität unserer Instrumente abhängt.
Bei einem Fragebogen fragen wir: Ist er reliabel? Ist er valide? Wurde er pilotiert? Bei einem Usability-Test prüfen wir, ob die Aufgaben das messen, was wir messen wollen. Aber bei einem Prompt, der 200 Kundenrezensionen nach Schmerzpunkten kategorisiert? Da schauen wir auf das Ergebnis und denken: „Sieht gut aus."
Das ist kein Vorwurf. Die Tools machen es uns leicht, diesen Schritt zu überspringen. Aber „sieht gut aus" ist kein Gütekriterium. Es ist ein Bauchgefühl. Und auf Bauchgefühle stützen wir normalerweise keine Research-Ergebnisse.
Was bedeuten Reliabilität und Validität, wenn das Instrument ein Prompt ist?
Die Konzepte sind vertraut – die Übertragung auf UX AI Prompting ist es noch nicht.
Denk an den Prompt als Messinstrument und an den LLM-Output als Messergebnis. Dann gelten dieselben Gütekriterien wie bei jedem empirischen Werkzeug: Reliabilität fragt, ob das Instrument zuverlässig misst. Validität fragt, ob es das Richtige misst. Beides zusammen bestimmt, wie viel Vertrauen wir in die Ergebnisse setzen können.
Der Unterschied zu klassischen Instrumenten: Bei einem Fragebogen bleibt das Instrument stabil, solange niemand die Fragen ändert. Bei einem Prompt kann sich das Instrument verändern, ohne dass du etwas tust – nämlich immer dann, wenn der Modellanbieter ein Update ausspielt. Dein Prompt ist derselbe, aber das System dahinter nicht.
Wie stabil ist unser Prompt? Vier Facetten der Reliabilität
Reliabilität lässt sich in vier Facetten betrachten, die jeweils einen anderen Aspekt der Zuverlässigkeit abdecken.
Wiederholungsstabilität: Kommt zweimal dasselbe raus?
Schick denselben Input mit demselben Prompt dreimal hintereinander an dasselbe Modell. Wie ähnlich sind die Outputs? Bei deterministischen Einstellungen (Temperature 0) erwarten wir hohe Konsistenz. Aber viele Teams nutzen höhere Temperature-Werte für kreativere Outputs – und dann wird die Frage relevant: Variieren nur Formulierungen, oder variieren auch die inhaltlichen Aussagen?
Hypothetisches Szenario: Du analysierst Nutzerfeedback zu einer Banking-App. Der Prompt soll die drei wichtigsten Schmerzpunkte identifizieren. Beim ersten Run sind es „Ladezeiten, Navigation, Sicherheitsbedenken". Beim zweiten Run „Performance, unübersichtliches Menü, fehlendes Vertrauen". Inhaltlich ähnlich – aber nicht identisch. Welches Ergebnis nimmst du? Und was berichtest du dem Stakeholder?
Robustheit: Überlebt der Prompt eine anders formulierte Frage?
Echte Nutzer:innen formulieren nie so wie dein Testdatensatz. Wenn dein Prompt auf „Was stört dich an der App?" trainiert ist, aber jemand fragt „Welche Probleme haben Nutzer mit der Anwendung?" – liefert er dann inhaltlich dasselbe?
Das ist Parallelform-Reliabilität, übertragen auf UX AI Research: Wie robust ist der Prompt gegenüber natürlicher Sprachvariation in den Inputs?
Modellunabhängigkeit: Funktioniert der Prompt nur mit GPT?
Wenn dein Prompt mit GPT-4o gute Ergebnisse liefert, aber mit Claude oder Gemini merklich andere – dann misst er nicht das Konstrukt, sondern eine Modell-Eigenschaft. Das ist relevant, weil Modellwechsel in der Praxis regelmäßig vorkommen: aus Kostengründen, wegen Anbieterwechseln oder weil das Team andere Präferenzen hat.
In meiner Beratungspraxis sehe ich Teams, die Prompts sorgfältig für ein bestimmtes Modell optimieren – und dann überrascht feststellen, dass sie nach einem Modellwechsel nicht übertragbar sind. Das ist kein Fehler des Teams. Es ist ein Symptom fehlender Reliabilitätsprüfung.
Interne Konsistenz: Widersprechen sich die Teilergebnisse?
Viele UX AI Prompts adressieren mehrere Aspekte gleichzeitig: „Analysiere dieses Nutzerfeedback nach Sentiment, Thema und Dringlichkeit." Wenn ein Feedback als „sehr negativ" im Sentiment klassifiziert wird, aber als „niedrige Dringlichkeit" – ist das ein valider Randfall oder ein Widerspruch?
Interne Konsistenz prüft, ob die Teilergebnisse eines Multi-Aspekt-Prompts zusammenpassen. In der klassischen Testtheorie entspricht das Cronbachs Alpha – ein Maß dafür, ob die Items eines Tests dasselbe Konstrukt messen.
Misst unser Prompt das Richtige? Die Validitätsfrage
Reliabilität ist die Voraussetzung, Validität ist das Ziel. Ein Prompt kann hochreliabel sein – also stabil, robust, modellunabhängig – und trotzdem das Falsche messen. Und hier wird es wirklich unbequem.
Inhaltsvalidität: Deckt der Output ab, was er abdecken soll?
Die grundlegendste Frage: Enthält der Output alle relevanten Aspekte? Und enthält er nichts, was nicht reingehört?
Hypothetisches Szenario: Dein Prompt kodiert Interviews zum Thema „Onboarding-Erfahrung". Er identifiziert zuverlässig Themen wie „Tutorials", „Hilfebereich" und „erste Schritte". Aber er übersieht systematisch emotionale Aspekte wie Frustration, Überforderung oder Erfolgserlebnisse – weil die Rubrik diese Dimension nicht abfragt. Der Output ist nicht falsch. Er ist unvollständig. Und diese Unvollständigkeit ist unsichtbar, solange niemand gezielt danach sucht.
Inhaltsvalidität erfordert eine Expertenbeurteilung: Menschen, die das Fachgebiet kennen, prüfen systematisch, ob das Instrument das abdeckt, was es abdecken soll. Bei Fragebögen ist das Standard. Bei Prompts macht es fast niemand.
Kriteriumsvalidität: Stimmt der Output mit einem externen Maßstab überein?
Hier brauchen wir ein Außenkriterium – etwas, gegen das wir den Prompt-Output validieren können. Und das ist oft der schwierigste Punkt: Was ist der Gold Standard?
Mögliche Kriterien:
Expertenurteil: Erfahrene UX Researcher:innen kodieren dieselben Daten manuell. Dann vergleichen wir: Wie hoch ist die Übereinstimmung zwischen Mensch und Prompt? Das lässt sich als Korrelationskoeffizient oder als Cohen's Kappa (ein Maß für die Übereinstimmung zwischen zwei Beurteilenden, bereinigt um Zufallstreffer) ausdrücken.
Beobachtetes Verhalten: Wenn der Prompt Nutzungsprobleme identifiziert – finden wir dieselben Probleme in Usability-Tests? Das wäre prädiktive Validität.
Business-Metriken: Wenn der Prompt Verbesserungsvorschläge priorisiert – verbessern sich die relevanten KPIs, wenn wir den Empfehlungen folgen?
Jedes dieser Kriterien erfordert Aufwand. Aber ohne externes Kriterium bleibt jede Evaluation ein Zirkelschluss: Wir beurteilen den Output eines Prompts mit einem LLM-Judge, dessen Urteil wir ebenfalls nicht validiert haben.
Konstruktvalidität: Messen wir wirklich das, was wir zu messen glauben?
Die anspruchsvollste Ebene. Wenn dein LLM-Judge sagt „dieser Output ist hilfreich" – was bedeutet „hilfreich" eigentlich? Misst die Bewertungsrubrik tatsächlich Hilfsbereitschaft? Oder misst sie Ausführlichkeit, die mit Hilfsbereitschaft korreliert, aber nicht dasselbe ist?
Aus der Forschung zu LLM-as-a-Judge (dem Ansatz, ein LLM zur Bewertung von Outputs eines anderen LLMs einzusetzen) wissen wir: LLM-Judges bevorzugen systematisch längere Antworten [Dubois et al., 2024]. Das ist ein klassischer Fall von mangelnder Konstruktvalidität – das Instrument misst nicht das Konstrukt „Qualität", sondern das Proxy-Merkmal „Länge".
Für UX AI Research ist das hochrelevant: Wenn wir Prompts evaluieren, müssen wir sicherstellen, dass unsere Bewertungskriterien tatsächlich die Qualitätsdimensionen abbilden, die für unsere Forschungsfrage relevant sind – und nicht etwas anderes, das zufällig damit korreliert.
Was bietet der Markt aktuell – und wo reicht es nicht?
Es gibt mittlerweile eine ganze Reihe von Eval-Frameworks. Keines davon wurde für UX Research entwickelt, aber einige sind in Teilen nützlich. Hier ein ehrlicher Überblick (Stand: Februar 2026):
Ansatz | Was er kann | Was fehlt |
LLM-as-a-Judge (z.B., Pydantic Evals, DeepEval) | Subjektive Qualitätsdimensionen skaliert bewerten anhand definierter Rubriken | Wer validiert den Judge? Die Rubrik ist selbst ein Prompt – also dasselbe Problem eine Ebene höher |
RAG-Evaluationsmetriken (z.B. RAGAS) | Faithfulness, Context Recall – gut für Retrieval-Systeme | Nicht übertragbar auf offene Analyseaufgaben, wie sie in UX Research typisch sind |
CI/CD-Pipelines (z.B. Promptfoo, Braintrust) | Veränderungen erkennen, automatisiert warnen bei Regressionen | Sagen „etwas hat sich geändert" – nicht „es ist besser oder schlechter geworden" |
Pairwise Comparison(z.B. Chatbot Arena) | Relative Präferenzen sammeln, gut gegen menschliches Urteil validiert | Nicht auf domänenspezifische Analyseaufgaben anwendbar, setzt Crowd-Bewertung voraus |
Alle diese Ansätze lösen Teilprobleme. Der LLM-as-a-Judge-Ansatz kommt dem am nächsten, was wir bräuchten – aber er setzt voraus, was eigentlich erst bewiesen werden müsste: dass die Evaluierungskriterien valide sind. Und keiner dieser Ansätze adressiert die Frage der Validität systematisch.
Fragen, die wir noch nicht beantwortet haben
Ich schließe diesen Artikel bewusst ohne Lösung. Nicht aus Bequemlichkeit, sondern weil ich glaube, dass wir die Fragen erst sauber formulieren müssen, bevor wir anfangen, Antworten zu bauen. Hier sind die, die mich am meisten beschäftigen:
Wer definiert, was „guter Output" bedeutet – und nach welchem Verfahren?
Heute entscheidet oft die Person, die den Prompt schreibt. Aber eine Operationalisierung von Qualität ist eine methodische Aufgabe, kein Nebenprodukt der Prompt-Entwicklung. Welcher Prozess ist angemessen?
Wie kalibrieren wir automatisierte Evaluierungen gegen menschliches Urteil?
Human-Eval ist aufwändig. LLM-Judges sind nicht validiert. Wie finden wir einen pragmatischen Weg dazwischen – einen, der methodisch vertretbar ist, ohne in jedem Projekt eine Vollvalidierung zu erfordern?
Was ist unser Gold Standard, wenn es keinen gibt?
Bei vielen UX-Research-Aufgaben existiert keine objektiv „richtige" Antwort. Wenn drei erfahrene Researcher:innen ein Interview unterschiedlich kodieren – was ist dann die Referenz, gegen die wir den Prompt validieren?
Wie gehen wir mit einem Instrument um, das sich ohne unser Zutun verändert?
Modell-Updates kommen ohne Vorwarnung. Der Prompt bleibt gleich, aber das System dahinter nicht. Das ist, als würde jemand über Nacht die Skala deines Fragebogens ändern. Welche Monitoring-Strategie ist angemessen?
Und ganz grundsätzlich: Ist es vertretbar, Prompt-basierte Analyse in Research-Projekten einzusetzen, solange wir keine Antworten auf diese Fragen haben?
Ich finde: Ja, unter bestimmten Bedingungen. Aber wir müssen aufhören, so zu tun, als wäre die Qualitätsfrage schon gelöst. Das ist sie nicht. Und als UX-Research-Community sollten wir diejenigen sein, die das offen aussprechen.
Ich freue mich auf die Diskussion.
Häufige Fragen
Was bedeutet LLM-as-a-Judge?
LLM-as-a-Judge ist ein Verfahren, bei dem ein LLM (Large Language Model) die Outputs eines anderen LLMs anhand definierter Kriterien bewertet. Es ist aktuell der verbreitetste Ansatz zur automatisierten Evaluation von Prompt-Ergebnissen – aber seine eigene Validität ist oft nicht geprüft.
Kann ich die Qualität meiner Prompts nicht einfach stichprobenartig prüfen?
Stichprobenprüfung ist besser als keine Prüfung. Aber sie sagt dir nur, ob einzelne Outputs plausibel aussehen – nicht, ob der Prompt über Zeit, verschiedene Inputs und verschiedene Modelle hinweg zuverlässig arbeitet. Für systematische Qualitätssicherung brauchst du ein strukturiertes Evaluierungsverfahren.
Brauche ich als UX Researcher:in technische Kenntnisse, um Prompts zu evaluieren?
Die methodischen Grundlagen – Reliabilität, Validität, Inter-Rater-Reliabilität – gehören bereits zum Handwerkszeug von UX Research. Die technische Umsetzung (Eval-Frameworks, automatisierte Pipelines) erfordert zusätzliche Skills oder Zusammenarbeit mit Entwickler:innen. Aber die wichtigste Kompetenz – das Evaluierungsdesign – liegt bei dir.
Verändert ein Modell-Update wirklich die Ergebnisse meines Prompts?
Ja, das ist dokumentiert und in der Praxis häufig. Modell-Updates können subtile Verhaltensänderungen verursachen, die die Outputs deines Prompts beeinflussen – auch wenn du am Prompt selbst nichts geändert hast. Ohne systematisches Monitoring bleiben solche Veränderungen oft unbemerkt.
Über die Autorin: Tara Maria Bosenick arbeitet seit 1999 als UX-Beraterin und begleitet Unternehmen an der Schnittstelle von Nutzerforschung und Technologie. Sie verfügt über umfassende Erfahrung mit qualitativen und quantitativen Forschungsmethoden und beschäftigt sich aktuell intensiv mit der Frage, wie KI-gestützte Analyse in UX Research methodisch abgesichert werden kann.
💌 Noch nicht genug? Dann lies weiter – in unserem Newsletter.
Kommt viermal im Jahr. Bleibt länger im Kopf. https://www.uintent.com/de/newsletter
VERWANDTE ARTIKEL DIE SIE INTERESSIEREN KÖNNTEN
AUTHOR
Tara Bosenick
Tara ist seit 1999 als UX-Spezialistin tätig und hat die Branche in Deutschland auf Agenturseite mit aufgebaut und geprägt. Sie ist spezialisiert auf die Entwicklung neuer UX-Methoden, die Quantifizierung von UX und die Einführung von UX in Unternehmen.
Gleichzeitig war sie immer daran interessiert, in ihren Unternehmen eine möglichst „coole“ Unternehmenskultur zu entwickeln, in der Spaß, Leistung, Teamgeist und Kundenerfolg miteinander verknüpft sind. Seit mehreren Jahren unterstützt sie daher Führungskräfte und Unternehmen auf dem Weg zu mehr New Work / Agilität und einem besseren Mitarbeitererlebnis.
Sie ist eine der führenden Stimmen in der UX-, CX- und Employee Experience-Branche.




















