top of page
uintent Firmenlogo

AI & UXR, CHAT GPT, HUMAN VS AI, LLM

Wie Yupp Feedback nutzt, um KI-Modelle fair zu bewerten – und was UX-Profis daraus lernen können

3

MIN

30. Okt. 2025

Das Wichtigste in Kürze: 

  • Yupp vergleicht KI-Antworten via Crowd-Voting 

  • Nutzer:innen bewerten Qualität, Tempo & Klarheit 

  • Bewertungen werden statistisch als Paarvergleiche ausgewertet 

  • Der VIBE-Score zeigt, welches Modell im Alltag besser performt 

  • Bias wird durch Blindtests aktiv kontrolliert 

  • Segmentierung zeigt: Modellwahl hängt vom Nutzungskontext ab 

  • Praxisnahes Vorbild für UX-Testmethoden 

 

Einleitung: Was, wenn Feedback das Produkt ist? 

Kennst Du das? Du stellst ChatGPT, Claude oder Gemini dieselbe Frage – und bekommst drei völlig unterschiedliche Antworten. Mal ist eine genial, mal total daneben. Aber: Wer sagt eigentlich, welche "besser" ist?


Und nach welchen Kriterien? 

Hier kommt Yupp.ai ins Spiel. Eine Plattform, die genau solche Vergleiche zum Prinzip macht. Sie zeigt, wie Nutzer:innen durch einfaches Feedback zur Bewertung von KI-Modellen beitragen können. Und was das mit UX zu tun hat? Eine Menge. Denn viele der Methoden, die Yupp nutzt, sind aus unserer Praxis bekannt – nur viel größer gedacht. 

Ich arbeite seit vielen Jahren als UX-Beraterin in globalen Projekten. Was mich an Yupp fasziniert: Die Plattform bringt UX-Methodik und KI-Evaluation auf smarte Weise zusammen. Und lässt sich hervorragend als Inspiration für eigene Testprozesse nutzen. 

 

Wie funktioniert Yupp eigentlich genau? 

Yupp ist keine klassische KI-Plattform, sondern ein „Meta“-System: Du gibst eine Frage ein und bekommst Antworten von mehreren KI-Modellen. Deine Aufgabe: Entscheide, welche Antwort Dir besser gefällt – und warum. 


Das Entscheidende: Diese Bewertungen fließen nicht einfach in ein Sterne-Rating ein. Stattdessen nutzt Yupp das Bradley-Terry-Modell – ein Paarvergleichsverfahren, das aus vielen Einzelentscheidungen eine konsistente Rangfolge erstellt. Ergebnis: Der VIBE-Score ("Value Informed Benchmark Evaluation") zeigt, welches Modell im direkten Vergleich überzeugt. 

 

Nach welchen Kriterien wird bewertet? 

Yupp bewertet nicht nur nach "Gefallen". Mehrere Dimensionen spielen eine Rolle: 

  • Antwortqualität: Wie klar, hilfreich und relevant ist die Antwort? 

  • Antwortgeschwindigkeit: Wie schnell reagiert das Modell? 

  • Kosten: Was kostet eine Antwort, z. B. bei API-Nutzung? 

  • Konfidenz: Gibt das Modell klare Aussagen oder bleibt es vage? 


Diese Werte werden zusammen mit dem Nutzerfeedback analysiert – je nach Gewichtung und Zielgruppe. 


Praxisbeispiel: 

In einem Experiment mit faktischen vs. kreativen Prompts schnitten Claude und GPT-4 unterschiedlich ab: Claude war besser in der Argumentation, GPT-4 besser im Storytelling. Die Bewertung ergab sich aber nicht allein aus der Antwortlänge oder Faktenlage, sondern aus der Nutzerwahrnehmung. 

 

Was passiert mit Bias? Kann man die Bewertungen trauen? 

Gute Frage. Yupp testet aktiv auf Verzerrungen. Zum Beispiel durch Blindtests: Die Modellnamen werden ausgeblendet, sodass Nutzer:innen nicht wissen, ob die Antwort von GPT-4 oder Claude stammt. 


Das reduziert den sogenannten Brand Bias. Gleichzeitig werden systematische Unterschiede zwischen Nutzergruppen betrachtet (z. B. Einsteiger:innen vs. KI-Power-User). 


UX-Parallele: 

Auch in der Usability-Forschung ist Blinding ein wichtiges Tool, um Wahrnehmungsverzerrungen zu vermeiden. Yupp überträgt dieses Prinzip auf die KI-Evaluation – skalierbar und datenbasiert. 

 

Warum Segmentierung so wichtig ist 

Nicht jede Frage ist gleich. Yupp analysiert deshalb auch den Kontext der Anfragen

  • Ist es eine faktische Frage oder eine kreative? 

  • Ist der oder die Fragestellende technisch versiert oder eher Laie? 

So entstehen Segment-Scores, die zeigen, welches Modell bei welchen Anwendungsfällen besonders gut abschneidet. Für uns UX-Professionals ist das ein klares Learning: Pauschalwerte bringen wenig. Entscheidend ist die Performance im Nutzungskontext


Beispiel: 

Ein Modell mag im Durchschnitt sehr gut sein – aber bei barrierefreien Anwendungen oder sensiblen Gesundheitsthemen versagen. Yupp macht solche Unterschiede sichtbar. 

 

Was passiert mit dem Feedback? 

Hier wird’s spannend: Feedback ist bei Yupp nicht Beiwerk – es ist das Produkt. Die Plattform verkauft anonymisierte Bewertungsdaten an KI-Anbieter, die damit ihre Modelle verbessern. Nutzer:innen erhalten dafür Yupp-Credits, die sich auszahlen lassen (max. 50€/Monat). 

Das heißt: Nutzer:innen werden zu echten Datenlieferanten – fair vergütet und transparent. Auch das ist ein interessanter Gedanke für die UX-Branche: Was wäre, wenn Nutzerfeedback nicht nur erhoben, sondern strategisch und monetär genutzt würde? 

 

FAQ: Was UX-Teams über Yupp wissen wollen 

1. Muss ich Programmierkenntnisse haben, um Yupp zu nutzen? 

 Nein. Die Plattform ist sehr niedrigschwellig. Frage eingeben, Antworten vergleichen, fertig. 

2. Wie viele Modelle werden verglichen? 

 In der Regel zwei bis vier pro Anfrage. Meist sind GPT-4, Claude, Gemini und Grok dabei. 

3. Kann ich Feedback auch anonym geben? 

 Ja. Du brauchst nur einen Account, aber deine Bewertungen werden nicht personenbezogen gespeichert. 

4. Gibt es eine API für eigene Tests? 

 Noch nicht offiziell. Yupp plant jedoch, Evaluation-as-a-Service für Firmen anzubieten. 

5. Was bringt mir das als UX-Team konkret? 

 Yupp ist eine Inspirationsquelle: für Bewertungslogiken, Bias-Checks, Segmentanalysen und Feedback-Systeme – alles Themen, die UX-Teams täglich bewegen. 

 

Fazit: Was wir als UX-Community von Yupp lernen können 

Yupp zeigt, dass nutzerzentriertes Feedback in großem Stil möglich ist – ohne an Tiefe zu verlieren. Die Plattform nutzt Methoden, die wir aus der UX-Praxis kennen, und bringt sie auf ein skalierbares, auswertbares Level. 

Für UX-Teams lohnt sich ein Blick auf Yupp, um: 

  • eigene Testprozesse zu reflektieren, 

  • neue Ideen für KI-Evaluationen zu bekommen, 

  • und bessere Entscheidungen bei der Modellwahl zu treffen. 


Du willst eigene Prompts systematisch testen? Oder verstehen, wie andere Modelle performen? Dann wirf einen Blick auf Yupp.ai. 


💌 Noch nicht genug? Dann lies weiter – in unserem Newsletter.

Kommt viermal im Jahr. Bleibt länger im Kopf.  https://www.uintent.com/de/newsletter

Ein:e Schiedsrichter:in hält eine Bewertungstafel mit der Aufschrift „Yupp.ai“ zwischen zwei stilisierten KI-Chatbots in einem Boxring hoch – Symbolbild für den fairen Vergleich von KI-Modellen durch Nutzer:innen.

Wie Yupp Feedback nutzt, um KI-Modelle fair zu bewerten – und was UX-Profis daraus lernen können

AI & UXR, CHAT GPT, HUMAN VS AI, LLM

3D-Illustration eines digitalen Marktplatzes mit bunten Marktständen voller Prompt-Karten und einer Figur, die einen Prompt auswählt.

Prompts kaufen, teilen, verkaufen – was Prompt-Marktplätze heute leisten (und warum das für UX relevant ist)

AI & UXR, PROMPTS

Roboter hält zwei Schilder hoch: „ISO 9241 – 7 Prinzipien“ und „ISO 9241 – 10 Prinzipien“.

ChatGPT halluziniert – trotz Anti-Halluzinations-Prompt

AI & UXR, HUMAN VS AI, CHAT GPT

Erdbeere wird von einem Messer halbiert, stilisierte Illustration.

Warum KI manchmal nicht bis 3 zählen kann – und was das mit Tokens zu tun hat

AI & UXR, TOKEN, LLM

Quadratisches, in der Mitte geteiltes Motiv: Links ein graues, stilisiertes Gehirn über einer sitzenden Person am Laptop in dunklen Grautönen; rechts ein leuchtend blaues, vernetztes Gehirn über einer stehenden Person vor einem holografischen Interface auf dunklem Hintergrund.

GPT-5 ist da: Verändert diese UX AI wirklich alles für Researcher:innen?

AI & UXR, CHAT GPT

Surreales KI-Bild mit Datenströmen, durchgestrichenem „User Expirince“ und dem Text „ChatGPT kann jetzt Text in Bild“.

Wenn KI Bilder malt und plötzlich richtig schreiben kann

AI & UXR, CHAT GPT, HUMAN VS AI

Mensch und KI arbeiten gemeinsam an einem leuchtenden Baum auf dem Bildschirm, umgeben von dunkler, surrealer Atmosphäre.

Wenn der Text zu glatt ist: Wie man KI-Sprache menschlicher macht

AI & UXR, AI WRITING, CHAT GPT, HUMAN VS AI

Futuristische Illustration: Mensch blickt auf leuchtende, humanoide KI vor digitalem Hintergrund.

Kein Science Fiction – KI macht sich selbstständig

AI & UXR, CHAT GPT

Illustration einer KI, die mit einem Menschen kommuniziert, symbolisch für die Überzeugungskraft künstlicher Intelligenz.

Zwischen Argument und Einfluss – Wie überzeugend darf KI sein?

AI & UXR, CHAT GPT, LLM

Eine zweidimensionale Comic Frau steht vor einem menschengroßen Handy, auf dem Gesundheitsapps zu sehen sind. Rechts von ihr steht ein Kasten mit einem Computer drauf, auf dem ein EKG zu sehen ist.

Digital Health Apps & Interfaces: Warum gute UX entscheidet, ob Patienten wirklich profitieren

HEALTHCARE, MHEALTH, TRENDS, UX METHODS

Illustration einer roten Hand, die symbolisch „Censorship“ über „User Privacy“ bei DeepSeek priorisiert; im Hintergrund die chinesische Flagge.

Zensur trifft KI: Was DeepSeek über Menschenrechte verschweigt – und warum das UX betrifft

AI & UXR, LLM, OPEN AI

Illustration im isometrischen Flat Design zeigt eine vernetzte, internationale UX-Studienlogistik mit Paketen, Checkliste, Videokonferenzen und Positionsmarkierungen auf einer Weltkarte.

Die Voraussetzungen für den Erfolg: Globale Studie zur Logistik in der UX-Forschung für medizinische Geräte

HEALTHCARE, UX METHODS, UX LOGISTICS

Surreale, leuchtende Illustration eines KI-Sprachmodells als Gehirn, das von einer Hand beeinflusst wird – symbolisiert Manipulation durch externe Kräfte.

Propaganda Chatbots - Wenn die KI plötzlich russisch spricht

AI & UXR, LLM

Illustration mit sieben Tieren, die verschiedene Denk- und Prompt-Stile in der UX-Arbeit symbolisieren.

Willkommen im Prompt-Zoo

AI & UXR, PROMPTS, UX

Ein zwei dimensionales Bild von einem Mann, der an einem Schreibtisch mit geöffnetem Laptop sitzt, auf dem ein Gesundheitssymbol zu sehen ist. Im Hintergrund hängt ein Plakat mit einem DNA-Strang.

UX Regulatory Compliance: Warum Usability für Zulassung in MedTech entscheidend ist

HEALTHCARE, REGULATIONS

Illustration einer Glühbirne mit abstrakten Symbolen wie Fragezeichen, Wolke, Sprechblase und Kreuz – symbolisiert kreative Ideen und kritisches Denken.

Warum Prompts, die Bias und Halluzinationen produzieren, manchmal hilfreich sein können

AI & UXR, CHAT GPT, HUMAN VS AI, OPEN AI

Illustration eines Mannes am Laptop, umgeben von Symbolen für globale medizinische Forschung: Weltkarte mit Standortmarkierungen, Monitor mit Kreuzsymbol, Patientenakte und Stethoskop.

Global UX Research in Medical Technology: Internationale Nutzerforschung als Erfolgsfaktor

HEALTHCARE, MHEALTH, REGULATIONS

Abstrakte, pastellfarbene Illustration mit einer stilisierten Gehirnform und geometrischen Formen – Sinnbild für KI und Verzerrungen.

KI, Bias und die Macht der Frage: Wie Du mit klugen Prompts bessere Antworten bekommst

AI & UXR, CHAT GPT

Eine Frau in einem Zahnrad ist umgeben von Symbolen für globale Vernetzung, Zusammenarbeit, Innovation und Nutzerzentrierung – verbunden durch Pfeile. Sanfte, helle Farben aus einer modernen UI-Farbpalette.

UX automatisieren? Ja bitte! Warum Zapier und n8n für UX-Teams echte Supertools sind

CHAT GPT, TOOLS, AUTOMATION, AI & UXR

Ein 2D Bild von einem Mann in weißem Kittel, der auf einen Bildschirm zeigt, auf dem ein OP-Roboterarm zu sehen ist.

Surgical Robotics und UX: Warum Benutzerfreundlichkeit den OP-Erfolg mitbestimmt

HEALTHCARE, TRENDS, UX METHODS

 VERWANDTE ARTIKEL DIE SIE INTERESSIEREN KÖNNTEN 

AUTHOR

Tara Bosenick

Tara ist seit 1999 als UX-Spezialistin tätig und hat die Branche in Deutschland auf Agenturseite mit aufgebaut und geprägt. Sie ist spezialisiert auf die Entwicklung neuer UX-Methoden, die Quantifizierung von UX und die Einführung von UX in Unternehmen.


Gleichzeitig war sie immer daran interessiert, in ihren Unternehmen eine möglichst „coole“ Unternehmenskultur zu entwickeln, in der Spaß, Leistung, Teamgeist und Kundenerfolg miteinander verknüpft sind. Seit mehreren Jahren unterstützt sie daher Führungskräfte und Unternehmen auf dem Weg zu mehr New Work / Agilität und einem besseren Mitarbeitererlebnis.


Sie ist eine der führenden Stimmen in der UX-, CX- und Employee Experience-Branche.

bottom of page