top of page
uintent Firmenlogo
Kontakt

AI & UXR, CHAT GPT, HUMAN VS AI, LLM

Wie Yupp Feedback nutzt, um KI-Modelle fair zu bewerten – und was UX-Profis daraus lernen können

3

MIN

30. Okt. 2025

Das Wichtigste in Kürze: 

  • Yupp vergleicht KI-Antworten via Crowd-Voting 

  • Nutzer:innen bewerten Qualität, Tempo & Klarheit 

  • Bewertungen werden statistisch als Paarvergleiche ausgewertet 

  • Der VIBE-Score zeigt, welches Modell im Alltag besser performt 

  • Bias wird durch Blindtests aktiv kontrolliert 

  • Segmentierung zeigt: Modellwahl hängt vom Nutzungskontext ab 

  • Praxisnahes Vorbild für UX-Testmethoden 

 

Einleitung: Was, wenn Feedback das Produkt ist? 

Kennst Du das? Du stellst ChatGPT, Claude oder Gemini dieselbe Frage – und bekommst drei völlig unterschiedliche Antworten. Mal ist eine genial, mal total daneben. Aber: Wer sagt eigentlich, welche "besser" ist?


Und nach welchen Kriterien? 

Hier kommt Yupp.ai ins Spiel. Eine Plattform, die genau solche Vergleiche zum Prinzip macht. Sie zeigt, wie Nutzer:innen durch einfaches Feedback zur Bewertung von KI-Modellen beitragen können. Und was das mit UX zu tun hat? Eine Menge. Denn viele der Methoden, die Yupp nutzt, sind aus unserer Praxis bekannt – nur viel größer gedacht. 

Ich arbeite seit vielen Jahren als UX-Beraterin in globalen Projekten. Was mich an Yupp fasziniert: Die Plattform bringt UX-Methodik und KI-Evaluation auf smarte Weise zusammen. Und lässt sich hervorragend als Inspiration für eigene Testprozesse nutzen. 

 

Wie funktioniert Yupp eigentlich genau? 

Yupp ist keine klassische KI-Plattform, sondern ein „Meta“-System: Du gibst eine Frage ein und bekommst Antworten von mehreren KI-Modellen. Deine Aufgabe: Entscheide, welche Antwort Dir besser gefällt – und warum. 


Das Entscheidende: Diese Bewertungen fließen nicht einfach in ein Sterne-Rating ein. Stattdessen nutzt Yupp das Bradley-Terry-Modell – ein Paarvergleichsverfahren, das aus vielen Einzelentscheidungen eine konsistente Rangfolge erstellt. Ergebnis: Der VIBE-Score ("Value Informed Benchmark Evaluation") zeigt, welches Modell im direkten Vergleich überzeugt. 

 

Nach welchen Kriterien wird bewertet? 

Yupp bewertet nicht nur nach "Gefallen". Mehrere Dimensionen spielen eine Rolle: 

  • Antwortqualität: Wie klar, hilfreich und relevant ist die Antwort? 

  • Antwortgeschwindigkeit: Wie schnell reagiert das Modell? 

  • Kosten: Was kostet eine Antwort, z. B. bei API-Nutzung? 

  • Konfidenz: Gibt das Modell klare Aussagen oder bleibt es vage? 


Diese Werte werden zusammen mit dem Nutzerfeedback analysiert – je nach Gewichtung und Zielgruppe. 


Praxisbeispiel: 

In einem Experiment mit faktischen vs. kreativen Prompts schnitten Claude und GPT-4 unterschiedlich ab: Claude war besser in der Argumentation, GPT-4 besser im Storytelling. Die Bewertung ergab sich aber nicht allein aus der Antwortlänge oder Faktenlage, sondern aus der Nutzerwahrnehmung. 

 

Was passiert mit Bias? Kann man die Bewertungen trauen? 

Gute Frage. Yupp testet aktiv auf Verzerrungen. Zum Beispiel durch Blindtests: Die Modellnamen werden ausgeblendet, sodass Nutzer:innen nicht wissen, ob die Antwort von GPT-4 oder Claude stammt. 


Das reduziert den sogenannten Brand Bias. Gleichzeitig werden systematische Unterschiede zwischen Nutzergruppen betrachtet (z. B. Einsteiger:innen vs. KI-Power-User). 


UX-Parallele: 

Auch in der Usability-Forschung ist Blinding ein wichtiges Tool, um Wahrnehmungsverzerrungen zu vermeiden. Yupp überträgt dieses Prinzip auf die KI-Evaluation – skalierbar und datenbasiert. 

 

Warum Segmentierung so wichtig ist 

Nicht jede Frage ist gleich. Yupp analysiert deshalb auch den Kontext der Anfragen

  • Ist es eine faktische Frage oder eine kreative? 

  • Ist der oder die Fragestellende technisch versiert oder eher Laie? 

So entstehen Segment-Scores, die zeigen, welches Modell bei welchen Anwendungsfällen besonders gut abschneidet. Für uns UX-Professionals ist das ein klares Learning: Pauschalwerte bringen wenig. Entscheidend ist die Performance im Nutzungskontext


Beispiel: 

Ein Modell mag im Durchschnitt sehr gut sein – aber bei barrierefreien Anwendungen oder sensiblen Gesundheitsthemen versagen. Yupp macht solche Unterschiede sichtbar. 

 

Was passiert mit dem Feedback? 

Hier wird’s spannend: Feedback ist bei Yupp nicht Beiwerk – es ist das Produkt. Die Plattform verkauft anonymisierte Bewertungsdaten an KI-Anbieter, die damit ihre Modelle verbessern. Nutzer:innen erhalten dafür Yupp-Credits, die sich auszahlen lassen (max. 50€/Monat). 

Das heißt: Nutzer:innen werden zu echten Datenlieferanten – fair vergütet und transparent. Auch das ist ein interessanter Gedanke für die UX-Branche: Was wäre, wenn Nutzerfeedback nicht nur erhoben, sondern strategisch und monetär genutzt würde? 

 

FAQ: Was UX-Teams über Yupp wissen wollen 

1. Muss ich Programmierkenntnisse haben, um Yupp zu nutzen? 

 Nein. Die Plattform ist sehr niedrigschwellig. Frage eingeben, Antworten vergleichen, fertig. 

2. Wie viele Modelle werden verglichen? 

 In der Regel zwei bis vier pro Anfrage. Meist sind GPT-4, Claude, Gemini und Grok dabei. 

3. Kann ich Feedback auch anonym geben? 

 Ja. Du brauchst nur einen Account, aber deine Bewertungen werden nicht personenbezogen gespeichert. 

4. Gibt es eine API für eigene Tests? 

 Noch nicht offiziell. Yupp plant jedoch, Evaluation-as-a-Service für Firmen anzubieten. 

5. Was bringt mir das als UX-Team konkret? 

 Yupp ist eine Inspirationsquelle: für Bewertungslogiken, Bias-Checks, Segmentanalysen und Feedback-Systeme – alles Themen, die UX-Teams täglich bewegen. 

 

Fazit: Was wir als UX-Community von Yupp lernen können 

Yupp zeigt, dass nutzerzentriertes Feedback in großem Stil möglich ist – ohne an Tiefe zu verlieren. Die Plattform nutzt Methoden, die wir aus der UX-Praxis kennen, und bringt sie auf ein skalierbares, auswertbares Level. 

Für UX-Teams lohnt sich ein Blick auf Yupp, um: 

  • eigene Testprozesse zu reflektieren, 

  • neue Ideen für KI-Evaluationen zu bekommen, 

  • und bessere Entscheidungen bei der Modellwahl zu treffen. 


Du willst eigene Prompts systematisch testen? Oder verstehen, wie andere Modelle performen? Dann wirf einen Blick auf Yupp.ai. 


💌 Noch nicht genug? Dann lies weiter – in unserem Newsletter.

Kommt viermal im Jahr. Bleibt länger im Kopf.  https://www.uintent.com/de/newsletter

Anmeldung zum Newsletter

Symbolische digitale Illustration: Ein leuchtender Prompt-Cursor schwebt im Zentrum eines dunklen Raums, verbunden mit einem sparsamen Netzwerk aus Lichtpunkten. Einige Knoten leuchten hell, andere verblassen – ein Bild für bewussten, gezielten KI-Einsatz.

Nachhaltig prompten: Ein Denkanstoß für UX-Teams

AI & UXR

Prompt, Projekt oder Skill? Welches KI-Werkzeug deine UX Research wirklich beschleunigt

AI & UXR

Leuchtender futuristischer Schutzschild aus UI-Elementen hält digitale Gefahren im dunklen Raum ab.

UX Research Als Risikomanagement: Warum Wir Endlich Die Sprache Wechseln Müssen

HOW-TO, UX, UX QUALITY

Person am Schreibtisch zwischen Chaos und geordnetem Datenfluss, Lichtfokus in der Mitte

UX & AI: Die besten Newsletter und Podcasts – meine persönliche Auswahl

AI & UXR

Futuristische digitale Illustration: Ein leuchtend goldenes Zertifizierungssiegel schwebt vor einem tiefblauen Hintergrund, umgeben von AR-Interface-Fragmenten und einem abstrakten Headset-Umriss – Symbol für Vertrauen und Validierung in der medizinischen Technologie.

Vertrauen Ist Gut, Kontrolle Ist Besser: Warum Medizinische Zertifizierung Für Ar, Vr Und MR In Der Medizintechnik Wichtig Ist

HEALTHCARE, HUMAN-CENTERED DESIGN, UX

Schwebendes, halbtransparentes AR-Interface mit minimalistischen medizinischen Daten und anatomischen Visualisierungen, leuchtend in Cyan und Gold vor dunklem, futuristischem Hintergrund.

Die Magie Nutzbar Machen: Warum Usability-Engineering Für AR, VR Und MR In Der Medizintechnik Wichtig Ist

HEALTHCARE, MHEALTH

Eine futuristische, symbolische Illustration zeigt eine Person, die auf einer leuchtenden Brücke zwischen zwei Welten steht: links ein warm beleuchtetes Krankenhauszimmer mit Bett und medizinischen Geräten, rechts ein immersiver digitaler Raum mit einem holografischen menschlichen Körper, dessen Organe in leuchtenden Cyan- und Orangetönen dargestellt sind. Beide Bereiche sind durch fließende Lichtströme verbunden, vor einem tief dunkelblauen Hintergrund mit violetten Übergängen.

Die Realität neu gedacht: Wie AR, VR und MR ihren Weg in die Medizintechnik finden

DIGITISATION, HEALTHCARE

Leuchtende goldene Trophäe schwebt über einer Kluft, während darunter kleine Figuren an Nutzerforschung und Wireframes arbeiten, ohne vom Licht erreicht zu werden.

UX AI Benchmarks Verstehen: Was HLE Und METR Wirklich Über Ki-Tools Aussagen

AI & UXR

Futuristische digitale Illustration auf dunkelblauem Hintergrund: Eine menschliche Hand mit golden leuchtendem Bleistift und eine cyan-glühende Roboterhand greifen gemeinsam nach einem zentralen, strahlenden Datencluster. Umgeben von gestapelten Dokumenten und einem Netzwerk aus verbundenen Knoten symbolisiert die Szene die Zusammenarbeit von menschlicher Interpretation und digitaler Informationsverarbeitung.

NotebookLM Im UX Research: Ehrliche Einschätzung Eines Spezialisierten Ki-Tools

AI & UXR, HOW-TO, LLM

Futuristischer leuchtender Zylinder mit Segmenten, getrennt durch goldene Barrieren.

Gated Salami Prompting: Warum Du Komplexe Llm-aufgaben In Scheiben Schneiden Solltest

CHAT GPT, HOW-TO, LLM, PROMPTS

Futuristische, quadratische Illustration auf dunkelblauem Hintergrund: Eine leuchtende goldene Sprechblase zerfällt in Partikel, die sich teilweise falsch neu zusammensetzen; umgeben von Energie­bögen, Lichtknoten und einem stilisierten digitalen Kopf – Symbol für Halluzinationen von LLMs.

Erfundene Zitate, Verschwundene Nuancen: Das Halluzinationsproblem In Der Qualitativen Analyse Mit LLMs

CHAT GPT, HOW-TO, LLM, OPEN AI, PROMPTS, TOKEN, UX METHODS

Surreale futuristische Illustration eines leuchtenden digitalen Kopfes mit Datenströmen, Diagrammen und Bewertungssymbolen, die KI-Evaluationsmethoden darstellen.

Woher wissen wir, dass unser Prompt gute Arbeit leistet? Warum UX Research eine Evaluierungsmethodik für KI-gestützte Analyse braucht

AI WRITING, DIGITISATION, HOW-TO, PROMPTS

A surreal, futuristic illustration featuring a translucent human profile with a glowing brain connected by flowing data streams to a hovering, golden crystal.

Prompt-Psychologie entlarvt: Warum „Trinkgeld" für ChatGPT manchmal funktioniert

CHAT GPT, HOW-TO, LLM, UX

Surreale, futuristische Illustration einer Person von hinten in einer leuchtenden digitalen Stadtlandschaft.

System Prompts in UX Research: Was du über die unsichtbare KI-Steuerung wissen musst

PROMPTS, RESEARCH, UX, UX INSIGHTS

Abstrakte futuristische Illustration einer Person, verschiedene Videos und Notizen.

YouTube Video Zusammenfassen Mit KI: Drei Tools Im Ux-Research-Praxistest

LLM, UX, HOW-TO

zwei gefaltete Hände, die eine wachsende Pflanze halten

UX For a Better World: Wir verschenken ein UX-Forschungsprojekt an gemeinnützige Organisationen und nachhaltige Unternehmen!

UX INSIGHTS, UX FOR GOOD, TRENDS, RESEARCH

Abstrakte, futuristische Illustration eines Menschen vor einem leuchtenden Turm aus Dokumenten und Datenströmen.

KI Tools UX Research: Wie gehen diese Tools mit großen Dokumenten um?

LLM, CHAT GPT, HOW-TO

Illustration von Donald Trump mit erhobener Hand vor abstraktem, digitalem Hintergrund, der Sprachblasen und Datenstrukturen andeutet.

Donald Trump Prompt: Wie provokante KI-Prompts UX-Budgets bewegen

AI & UXR, PROMPTS, STAKEHOLDER MANAGEMENT

Blick aus der Fahrerperspektive auf eine kurvige Landstraße, umgeben von grüner Vegetation. Im Vordergrund sind Lenkrad, Armaturenbrett und Rückspiegel zu sehen.

Die letzte Hürde: Wie unsichere Automatisierung das Vertrauen in ADAS bricht

AUTOMATION, AUTOMOTIVE UX, AUTONOMOUS DRIVING, GAMIFICATION, TRENDS

Illustration einer Person an einer Weggabelung mit zwei gleichwertigen Wegen.

Ersetzt KI UX Jobs? Was eine Studie mit 200.000 KI-Konversationen wirklich zeigt

HUMAN VS AI, RESEARCH, AI & UXR

 VERWANDTE ARTIKEL DIE SIE INTERESSIEREN KÖNNTEN 

AUTHOR

Tara Bosenick

Tara ist seit 1999 als UX-Spezialistin tätig und hat die Branche in Deutschland auf Agenturseite mit aufgebaut und geprägt. Sie ist spezialisiert auf die Entwicklung neuer UX-Methoden, die Quantifizierung von UX und die Einführung von UX in Unternehmen.


Gleichzeitig war sie immer daran interessiert, in ihren Unternehmen eine möglichst „coole“ Unternehmenskultur zu entwickeln, in der Spaß, Leistung, Teamgeist und Kundenerfolg miteinander verknüpft sind. Seit mehreren Jahren unterstützt sie daher Führungskräfte und Unternehmen auf dem Weg zu mehr New Work / Agilität und einem besseren Mitarbeitererlebnis.


Sie ist eine der führenden Stimmen in der UX-, CX- und Employee Experience-Branche.

bottom of page