AI WRITING, DIGITISATION, HOW-TO, PROMPTS

Woher wissen wir, dass unser Prompt gute Arbeit leistet? Warum UX Research eine Evaluierungsmethodik für KI-gestützte Analyse braucht

8 MIN

26. Feb. 2026

Stell dir vor: Du hast 40 Nutzerinterviews mit einem sorgfältig formulierten Prompt kodiert. Die Ergebnisse sehen plausibel aus. Das Team ist zufrieden, das Projekt geht weiter. Aber dann fragst du dich leise: Wäre gestern dasselbe rausgekommen? Und wenn mein Kollege denselben Prompt nutzt – kommt er zum gleichen Schluss? Was passiert nach dem nächsten Modell-Update?

Diese Fragen sind nicht hypothetisch. Sie betreffen jedes UX-Team, das KI-gestützte Analyse einsetzt – also mittlerweile ziemlich viele von uns.

In meiner Arbeit als UX-Beraterin sehe ich seit 2023 eine rasante Verschiebung: Prompts werden zum Analysewerkzeug. Für Sentiment-Analysen, für die Kodierung qualitativer Daten, für die Synthese von Nutzerfeedback. Die Ergebnisse sind oft beeindruckend. Aber wir überspringen dabei einen Schritt, den wir bei jedem anderen Forschungsinstrument selbstverständlich einfordern würden: die Prüfung der Gütekriterien.

Dieser Artikel macht das Problem sichtbar. Er liefert keine fertige Lösung – aber er stellt die Fragen, die wir als UX-Research-Community dringend beantworten müssen.

📌 Das Wichtigste in Kürze

Prompts sind Messinstrumente – und brauchen dieselbe methodische Prüfung wie Fragebögen oder Testprotokolle.
Reliabilität (Stabilität, Robustheit, Modellunabhängigkeit) lässt sich teilweise automatisiert prüfen – tut aber kaum jemand.
Validität (Misst der Prompt das Richtige?) ist die schwierigere und wichtigere Frage – und aktuell völlig ungelöst.
Existierende Eval-Frameworks aus dem Engineering lösen Teilprobleme, adressieren aber Validität nicht systematisch.
UX Research verfügt über das methodische Wissen für dieses Problem – wendet es aber noch nicht auf Prompts an.
Ohne Gütekriterien für Prompts riskieren wir, Entscheidungen auf ungeprüfte Analysen zu stützen.

Warum sollten uns Gütekriterien für Prompts interessieren?

Weil wir als UX Researcher:innen Entscheidungen auf der Grundlage von Daten treffen – und die Qualität dieser Daten direkt von der Qualität unserer Instrumente abhängt.

Bei einem Fragebogen fragen wir: Ist er reliabel? Ist er valide? Wurde er pilotiert? Bei einem Usability-Test prüfen wir, ob die Aufgaben das messen, was wir messen wollen. Aber bei einem Prompt, der 200 Kundenrezensionen nach Schmerzpunkten kategorisiert? Da schauen wir auf das Ergebnis und denken: „Sieht gut aus."

Das ist kein Vorwurf. Die Tools machen es uns leicht, diesen Schritt zu überspringen. Aber „sieht gut aus" ist kein Gütekriterium. Es ist ein Bauchgefühl. Und auf Bauchgefühle stützen wir normalerweise keine Research-Ergebnisse.

Was bedeuten Reliabilität und Validität, wenn das Instrument ein Prompt ist?

Die Konzepte sind vertraut – die Übertragung auf UX AI Prompting ist es noch nicht.

Denk an den Prompt als Messinstrument und an den LLM-Output als Messergebnis. Dann gelten dieselben Gütekriterien wie bei jedem empirischen Werkzeug: Reliabilität fragt, ob das Instrument zuverlässig misst. Validität fragt, ob es das Richtige misst. Beides zusammen bestimmt, wie viel Vertrauen wir in die Ergebnisse setzen können.

Der Unterschied zu klassischen Instrumenten: Bei einem Fragebogen bleibt das Instrument stabil, solange niemand die Fragen ändert. Bei einem Prompt kann sich das Instrument verändern, ohne dass du etwas tust – nämlich immer dann, wenn der Modellanbieter ein Update ausspielt. Dein Prompt ist derselbe, aber das System dahinter nicht.

Wie stabil ist unser Prompt? Vier Facetten der Reliabilität

Reliabilität lässt sich in vier Facetten betrachten, die jeweils einen anderen Aspekt der Zuverlässigkeit abdecken.

Wiederholungsstabilität: Kommt zweimal dasselbe raus?

Schick denselben Input mit demselben Prompt dreimal hintereinander an dasselbe Modell. Wie ähnlich sind die Outputs? Bei deterministischen Einstellungen (Temperature 0) erwarten wir hohe Konsistenz. Aber viele Teams nutzen höhere Temperature-Werte für kreativere Outputs – und dann wird die Frage relevant: Variieren nur Formulierungen, oder variieren auch die inhaltlichen Aussagen?

Hypothetisches Szenario: Du analysierst Nutzerfeedback zu einer Banking-App. Der Prompt soll die drei wichtigsten Schmerzpunkte identifizieren. Beim ersten Run sind es „Ladezeiten, Navigation, Sicherheitsbedenken". Beim zweiten Run „Performance, unübersichtliches Menü, fehlendes Vertrauen". Inhaltlich ähnlich – aber nicht identisch. Welches Ergebnis nimmst du? Und was berichtest du dem Stakeholder?

Robustheit: Überlebt der Prompt eine anders formulierte Frage?

Echte Nutzer:innen formulieren nie so wie dein Testdatensatz. Wenn dein Prompt auf „Was stört dich an der App?" trainiert ist, aber jemand fragt „Welche Probleme haben Nutzer mit der Anwendung?" – liefert er dann inhaltlich dasselbe?

Das ist Parallelform-Reliabilität, übertragen auf UX AI Research: Wie robust ist der Prompt gegenüber natürlicher Sprachvariation in den Inputs?

Modellunabhängigkeit: Funktioniert der Prompt nur mit GPT?

Wenn dein Prompt mit GPT-4o gute Ergebnisse liefert, aber mit Claude oder Gemini merklich andere – dann misst er nicht das Konstrukt, sondern eine Modell-Eigenschaft. Das ist relevant, weil Modellwechsel in der Praxis regelmäßig vorkommen: aus Kostengründen, wegen Anbieterwechseln oder weil das Team andere Präferenzen hat.

In meiner Beratungspraxis sehe ich Teams, die Prompts sorgfältig für ein bestimmtes Modell optimieren – und dann überrascht feststellen, dass sie nach einem Modellwechsel nicht übertragbar sind. Das ist kein Fehler des Teams. Es ist ein Symptom fehlender Reliabilitätsprüfung.

Interne Konsistenz: Widersprechen sich die Teilergebnisse?

Viele UX AI Prompts adressieren mehrere Aspekte gleichzeitig: „Analysiere dieses Nutzerfeedback nach Sentiment, Thema und Dringlichkeit." Wenn ein Feedback als „sehr negativ" im Sentiment klassifiziert wird, aber als „niedrige Dringlichkeit" – ist das ein valider Randfall oder ein Widerspruch?

Interne Konsistenz prüft, ob die Teilergebnisse eines Multi-Aspekt-Prompts zusammenpassen. In der klassischen Testtheorie entspricht das Cronbachs Alpha – ein Maß dafür, ob die Items eines Tests dasselbe Konstrukt messen.

Misst unser Prompt das Richtige? Die Validitätsfrage

Reliabilität ist die Voraussetzung, Validität ist das Ziel. Ein Prompt kann hochreliabel sein – also stabil, robust, modellunabhängig – und trotzdem das Falsche messen. Und hier wird es wirklich unbequem.

Inhaltsvalidität: Deckt der Output ab, was er abdecken soll?

Die grundlegendste Frage: Enthält der Output alle relevanten Aspekte? Und enthält er nichts, was nicht reingehört?

Hypothetisches Szenario: Dein Prompt kodiert Interviews zum Thema „Onboarding-Erfahrung". Er identifiziert zuverlässig Themen wie „Tutorials", „Hilfebereich" und „erste Schritte". Aber er übersieht systematisch emotionale Aspekte wie Frustration, Überforderung oder Erfolgserlebnisse – weil die Rubrik diese Dimension nicht abfragt. Der Output ist nicht falsch. Er ist unvollständig. Und diese Unvollständigkeit ist unsichtbar, solange niemand gezielt danach sucht.

Inhaltsvalidität erfordert eine Expertenbeurteilung: Menschen, die das Fachgebiet kennen, prüfen systematisch, ob das Instrument das abdeckt, was es abdecken soll. Bei Fragebögen ist das Standard. Bei Prompts macht es fast niemand.

Kriteriumsvalidität: Stimmt der Output mit einem externen Maßstab überein?

Hier brauchen wir ein Außenkriterium – etwas, gegen das wir den Prompt-Output validieren können. Und das ist oft der schwierigste Punkt: Was ist der Gold Standard?

Mögliche Kriterien:

Expertenurteil: Erfahrene UX Researcher:innen kodieren dieselben Daten manuell. Dann vergleichen wir: Wie hoch ist die Übereinstimmung zwischen Mensch und Prompt? Das lässt sich als Korrelationskoeffizient oder als Cohen's Kappa (ein Maß für die Übereinstimmung zwischen zwei Beurteilenden, bereinigt um Zufallstreffer) ausdrücken.
Beobachtetes Verhalten: Wenn der Prompt Nutzungsprobleme identifiziert – finden wir dieselben Probleme in Usability-Tests? Das wäre prädiktive Validität.
Business-Metriken: Wenn der Prompt Verbesserungsvorschläge priorisiert – verbessern sich die relevanten KPIs, wenn wir den Empfehlungen folgen?

Jedes dieser Kriterien erfordert Aufwand. Aber ohne externes Kriterium bleibt jede Evaluation ein Zirkelschluss: Wir beurteilen den Output eines Prompts mit einem LLM-Judge, dessen Urteil wir ebenfalls nicht validiert haben.

Konstruktvalidität: Messen wir wirklich das, was wir zu messen glauben?

Die anspruchsvollste Ebene. Wenn dein LLM-Judge sagt „dieser Output ist hilfreich" – was bedeutet „hilfreich" eigentlich? Misst die Bewertungsrubrik tatsächlich Hilfsbereitschaft? Oder misst sie Ausführlichkeit, die mit Hilfsbereitschaft korreliert, aber nicht dasselbe ist?

Aus der Forschung zu LLM-as-a-Judge (dem Ansatz, ein LLM zur Bewertung von Outputs eines anderen LLMs einzusetzen) wissen wir: LLM-Judges bevorzugen systematisch längere Antworten [Dubois et al., 2024]. Das ist ein klassischer Fall von mangelnder Konstruktvalidität – das Instrument misst nicht das Konstrukt „Qualität", sondern das Proxy-Merkmal „Länge".

Für UX AI Research ist das hochrelevant: Wenn wir Prompts evaluieren, müssen wir sicherstellen, dass unsere Bewertungskriterien tatsächlich die Qualitätsdimensionen abbilden, die für unsere Forschungsfrage relevant sind – und nicht etwas anderes, das zufällig damit korreliert.

Was bietet der Markt aktuell – und wo reicht es nicht?

Es gibt mittlerweile eine ganze Reihe von Eval-Frameworks. Keines davon wurde für UX Research entwickelt, aber einige sind in Teilen nützlich. Hier ein ehrlicher Überblick (Stand: Februar 2026):

Ansatz	Was er kann	Was fehlt
LLM-as-a-Judge (z.B., Pydantic Evals, DeepEval)	Subjektive Qualitätsdimensionen skaliert bewerten anhand definierter Rubriken	Wer validiert den Judge? Die Rubrik ist selbst ein Prompt – also dasselbe Problem eine Ebene höher
RAG-Evaluationsmetriken (z.B. RAGAS)	Faithfulness, Context Recall – gut für Retrieval-Systeme	Nicht übertragbar auf offene Analyseaufgaben, wie sie in UX Research typisch sind
CI/CD-Pipelines (z.B. Promptfoo, Braintrust)	Veränderungen erkennen, automatisiert warnen bei Regressionen	Sagen „etwas hat sich geändert" – nicht „es ist besser oder schlechter geworden"
Pairwise Comparison(z.B. Chatbot Arena)	Relative Präferenzen sammeln, gut gegen menschliches Urteil validiert	Nicht auf domänenspezifische Analyseaufgaben anwendbar, setzt Crowd-Bewertung voraus

Alle diese Ansätze lösen Teilprobleme. Der LLM-as-a-Judge-Ansatz kommt dem am nächsten, was wir bräuchten – aber er setzt voraus, was eigentlich erst bewiesen werden müsste: dass die Evaluierungskriterien valide sind. Und keiner dieser Ansätze adressiert die Frage der Validität systematisch.

Fragen, die wir noch nicht beantwortet haben

Ich schließe diesen Artikel bewusst ohne Lösung. Nicht aus Bequemlichkeit, sondern weil ich glaube, dass wir die Fragen erst sauber formulieren müssen, bevor wir anfangen, Antworten zu bauen. Hier sind die, die mich am meisten beschäftigen:

Wer definiert, was „guter Output" bedeutet – und nach welchem Verfahren?

Heute entscheidet oft die Person, die den Prompt schreibt. Aber eine Operationalisierung von Qualität ist eine methodische Aufgabe, kein Nebenprodukt der Prompt-Entwicklung. Welcher Prozess ist angemessen?

Wie kalibrieren wir automatisierte Evaluierungen gegen menschliches Urteil?

Human-Eval ist aufwändig. LLM-Judges sind nicht validiert. Wie finden wir einen pragmatischen Weg dazwischen – einen, der methodisch vertretbar ist, ohne in jedem Projekt eine Vollvalidierung zu erfordern?

Was ist unser Gold Standard, wenn es keinen gibt?

Bei vielen UX-Research-Aufgaben existiert keine objektiv „richtige" Antwort. Wenn drei erfahrene Researcher:innen ein Interview unterschiedlich kodieren – was ist dann die Referenz, gegen die wir den Prompt validieren?

Wie gehen wir mit einem Instrument um, das sich ohne unser Zutun verändert?

Modell-Updates kommen ohne Vorwarnung. Der Prompt bleibt gleich, aber das System dahinter nicht. Das ist, als würde jemand über Nacht die Skala deines Fragebogens ändern. Welche Monitoring-Strategie ist angemessen?

Und ganz grundsätzlich: Ist es vertretbar, Prompt-basierte Analyse in Research-Projekten einzusetzen, solange wir keine Antworten auf diese Fragen haben?

Ich finde: Ja, unter bestimmten Bedingungen. Aber wir müssen aufhören, so zu tun, als wäre die Qualitätsfrage schon gelöst. Das ist sie nicht. Und als UX-Research-Community sollten wir diejenigen sein, die das offen aussprechen.

Ich freue mich auf die Diskussion.

Häufige Fragen

Was bedeutet LLM-as-a-Judge?

LLM-as-a-Judge ist ein Verfahren, bei dem ein LLM (Large Language Model) die Outputs eines anderen LLMs anhand definierter Kriterien bewertet. Es ist aktuell der verbreitetste Ansatz zur automatisierten Evaluation von Prompt-Ergebnissen – aber seine eigene Validität ist oft nicht geprüft.

Kann ich die Qualität meiner Prompts nicht einfach stichprobenartig prüfen?

Stichprobenprüfung ist besser als keine Prüfung. Aber sie sagt dir nur, ob einzelne Outputs plausibel aussehen – nicht, ob der Prompt über Zeit, verschiedene Inputs und verschiedene Modelle hinweg zuverlässig arbeitet. Für systematische Qualitätssicherung brauchst du ein strukturiertes Evaluierungsverfahren.

Brauche ich als UX Researcher:in technische Kenntnisse, um Prompts zu evaluieren?

Die methodischen Grundlagen – Reliabilität, Validität, Inter-Rater-Reliabilität – gehören bereits zum Handwerkszeug von UX Research. Die technische Umsetzung (Eval-Frameworks, automatisierte Pipelines) erfordert zusätzliche Skills oder Zusammenarbeit mit Entwickler:innen. Aber die wichtigste Kompetenz – das Evaluierungsdesign – liegt bei dir.

Verändert ein Modell-Update wirklich die Ergebnisse meines Prompts?

Ja, das ist dokumentiert und in der Praxis häufig. Modell-Updates können subtile Verhaltensänderungen verursachen, die die Outputs deines Prompts beeinflussen – auch wenn du am Prompt selbst nichts geändert hast. Ohne systematisches Monitoring bleiben solche Veränderungen oft unbemerkt.

Über die Autorin: Tara Maria Bosenick arbeitet seit 1999 als UX-Beraterin und begleitet Unternehmen an der Schnittstelle von Nutzerforschung und Technologie. Sie verfügt über umfassende Erfahrung mit qualitativen und quantitativen Forschungsmethoden und beschäftigt sich aktuell intensiv mit der Frage, wie KI-gestützte Analyse in UX Research methodisch abgesichert werden kann.

💌 Noch nicht genug? Dann lies weiter – in unserem Newsletter.

Kommt viermal im Jahr. Bleibt länger im Kopf. https://www.uintent.com/de/newsletter

Prompt, Projekt oder Skill? Welches KI-Werkzeug deine UX Research wirklich beschleunigt

AI & UXR

SOFTWARE & WEB UX

Automotive UX

HEALTHCARE UX

Branchen

Employee Experience

Inspirierende UX und AI Vorträge

Barrierefreiheit

Workshops

AI in UX Research

Individuelle Lösungen

Newsletter

Workshops

Blog

Methodik

Unsere Expertise

Unsere Teststudios

Unser globales Netzwerk

Unsere Infrastruktur

Jobs

Unser Team

Über uintent

Lernen Sie uns kennen

Woher wissen wir, dass unser Prompt gute Arbeit leistet? Warum UX Research eine Evaluierungsmethodik für KI-gestützte Analyse braucht

​

8

MIN

26. Feb. 2026

📌 Das Wichtigste in Kürze

Warum sollten uns Gütekriterien für Prompts interessieren?

Was bedeuten Reliabilität und Validität, wenn das Instrument ein Prompt ist?

Wie stabil ist unser Prompt? Vier Facetten der Reliabilität

Wiederholungsstabilität: Kommt zweimal dasselbe raus?

Robustheit: Überlebt der Prompt eine anders formulierte Frage?

Modellunabhängigkeit: Funktioniert der Prompt nur mit GPT?

Interne Konsistenz: Widersprechen sich die Teilergebnisse?

Misst unser Prompt das Richtige? Die Validitätsfrage

Kriteriumsvalidität: Stimmt der Output mit einem externen Maßstab überein?

Konstruktvalidität: Messen wir wirklich das, was wir zu messen glauben?

Fragen, die wir noch nicht beantwortet haben

Häufige Fragen

💌 Noch nicht genug? Dann lies weiter – in unserem Newsletter.

Anmeldung zum Newsletter

Prompt, Projekt oder Skill? Welches KI-Werkzeug deine UX Research wirklich beschleunigt

UX Research Als Risikomanagement: Warum Wir Endlich Die Sprache Wechseln Müssen

UX & AI: Die besten Newsletter und Podcasts – meine persönliche Auswahl

Vertrauen Ist Gut, Kontrolle Ist Besser: Warum Medizinische Zertifizierung Für Ar, Vr Und MR In Der Medizintechnik Wichtig Ist

Die Magie Nutzbar Machen: Warum Usability-Engineering Für AR, VR Und MR In Der Medizintechnik Wichtig Ist

Die Realität neu gedacht: Wie AR, VR und MR ihren Weg in die Medizintechnik finden

UX AI Benchmarks Verstehen: Was HLE Und METR Wirklich Über Ki-Tools Aussagen

NotebookLM Im UX Research: Ehrliche Einschätzung Eines Spezialisierten Ki-Tools

Gated Salami Prompting: Warum Du Komplexe Llm-aufgaben In Scheiben Schneiden Solltest

Erfundene Zitate, Verschwundene Nuancen: Das Halluzinationsproblem In Der Qualitativen Analyse Mit LLMs

Woher wissen wir, dass unser Prompt gute Arbeit leistet? Warum UX Research eine Evaluierungsmethodik für KI-gestützte Analyse braucht

Prompt-Psychologie entlarvt: Warum „Trinkgeld" für ChatGPT manchmal funktioniert

System Prompts in UX Research: Was du über die unsichtbare KI-Steuerung wissen musst

YouTube Video Zusammenfassen Mit KI: Drei Tools Im Ux-Research-Praxistest

UX For a Better World: Wir verschenken ein UX-Forschungsprojekt an gemeinnützige Organisationen und nachhaltige Unternehmen!

KI Tools UX Research: Wie gehen diese Tools mit großen Dokumenten um?

Donald Trump Prompt: Wie provokante KI-Prompts UX-Budgets bewegen

Die letzte Hürde: Wie unsichere Automatisierung das Vertrauen in ADAS bricht

Ersetzt KI UX Jobs? Was eine Studie mit 200.000 KI-Konversationen wirklich zeigt

Der Beifahrer, der immer zuhört: Warum wir unseren Autos nur ungern vertrauen, wenn sie sprechen

VERWANDTE ARTIKEL DIE SIE INTERESSIEREN KÖNNTEN

AUTHOR