top of page
uintent Firmenlogo

CHAT GPT, HOW-TO, LLM, UX

Prompt-Psychologie entlarvt: Warum „Trinkgeld" für ChatGPT manchmal funktioniert

6

MIN

19. Feb. 2026

Der überraschende Widerspruch

Vor ein paar Monaten habe ich einen Artikel über Höflichkeit im Umgang mit KI geschrieben. Die Kernaussage: Wer höflich zu ChatGPT ist, bekommt bessere Antworten. Die Resonanz war groß – aber auch die Gegenrede.


"Tara, das ist Quatsch", schrieb mir ein UX-Kollege. "Ich biete ChatGPT $200 Trinkgeld an und die Antworten werden sofort besser. Höflichkeit kostet nur Tokens und Geld."


Andere schworen auf Drohungen: "Das ist wichtig für meine Karriere – gib dir Mühe!" Oder direkte Befehle: "Mach einfach!" Wieder andere argumentierten: "Sei unhöflich, das bringt genauere Ergebnisse."

Moment mal. Widerspricht sich das nicht komplett?


Als UX-Beraterin, die seit 1999 qualitative Forschung macht, wollte ich es genau wissen. Also habe ich mir die wissenschaftliche Literatur angeschaut – und die Ergebnisse sind faszinierender als jeder Twitter-Thread es je sein könnte.


📌 Das Wichtigste in Kürze

Die "Tricks" funktionieren manchmal – aber nicht, weil ChatGPT sich freut oder Angst hat

Mechanismus dahinter: Statistische Muster in Trainingsdaten, keine echte Psychologie

Höflichkeit hilft indirekt: Sie zwingt uns, bessere Prompts zu schreiben (mehr Kontext, Struktur)

Schattenseite: Zu höfliche Prompts können Desinformationsproduktion erhöhen (!)

Best Practice: Struktur und Klarheit schlagen emotionale Tricks – immer

Für UX: Systematisches Prompt Engineering statt virale Hacks

Bottom Line: Gute Kommunikation funktioniert, "psychologische" Tricks sind launisch


Was behauptet das Internet eigentlich?

Scrollst du durch LinkedIn oder Twitter, stolperst du über drei große Behauptungen:


Die Belohnungs-Hypothese: "Ich gebe dir $200 Trinkgeld für eine perfekte Lösung!" soll zu längeren, detaillierteren Antworten führen. Tausende Screenshots "beweisen" es.


Die Druck-Hypothese: "Das ist sehr wichtig für meine Karriere" oder "Wenn du nicht spurst, setzt es was!" soll die Qualität durch "Motivation" steigern.


Die Unhöflichkeits-Hypothese: "Please" und "Danke" sind unnötig, kosten Rechenzeit und machen Prompts ineffizient. Direktheit sei besser.

Alle drei klingen plausibel. Alle drei haben Screenshots als "Beweis". Aber was sagt die Forschung?


Was die Wissenschaft wirklich herausgefunden hat

EmotionPrompt: Die Microsoft-Studie

2023 veröffentlichten Forscher:innen von Microsoft eine Studie mit dem Titel "Large Language Models Understand and Can Be Enhanced by Emotional Stimuli" [Li et al., 2023]. Sie testeten 11 verschiedene emotionale Phrasen auf 6 LLMs über 45 verschiedene Tasks.


Die Zahlen: 8% Verbesserung bei einfachen Tasks, bis zu 115% bei komplexen Aufgaben. In menschlichen Bewertungen: 10,9% bessere Performance, Wahrhaftigkeit und Verantwortlichkeit.


Die emotionalen Stimuli, die am besten funktionierten:

  • "This is very important to my career"

  • "You'd better be sure"

  • "Believe in your abilities and strive for excellence"


Der Clou: Positive Wörter wie "confidence", "certainty" und "success" trugen überproportional zum Effekt bei – in manchen Tasks über 50-70%.

Klingt nach einem klaren Sieg für emotionale Prompts, oder?


Die "26 Principles"-Studie: Direktheit gewinnt

Fast zeitgleich kam die "Principled Instructions"-Studie [Bsharat et al., 2023] zu einem anderen Schluss:


Prinzip 1: "No need to be polite with LLM" – Höflichkeitsfloskeln wie "bitte" und "danke" weglassen.


Prinzip 6: "I'm going to tip $xxx for a better solution!" einbauen.


Ergebnis: Durchschnittlich 57,7% Qualitätsverbesserung und 67,3% mehr Genauigkeit bei GPT-4.

Sam Altman (CEO von OpenAI) kommentierte sogar, dass "please" und "thank you" unnötige Rechenzeit kosten – auch wenn er sie persönlich "nett" findet.


Der Reality-Check: Replikations-Studien

Hier wird es interessant. Als andere Forscher:innen versuchten, diese Ergebnisse zu replizieren, wurde es kompliziert:


Max Woolf's Analyse [2024]: Nach gründlichen Tests mit verschiedenen Tipping-Beträgen und Drohungen kam er zu einem ernüchternden Fazit: "inconclusive". Die Effekte waren extrem inkonsistent.


James Padolsey's Studie [2024]: Noch überraschender – in seinen Tests reduzierte Tipping die Qualität der Antworten.


Das Finxter-Experiment [2024]: Bei einem $0.1 Trinkgeld verschlechterte sich die Performance um 27%. Bei $1 Million verbesserte sie sich um 57%. Aber auch hier: massive Schwankungen zwischen verschiedenen Runs.


Aus meiner eigenen Erfahrung: Ich habe das in UX-Workshops mit Teams getestet. Manche schwören auf "Career-Important"-Prompts, andere sehen null Unterschied. Die Konsistenz? Fehlanzeige.


Die dunkle Seite: Was niemand gern zugibt

Jetzt kommt der Teil, den die Hype-Posts verschweigen.


Höflichkeit kann Desinformation fördern

Eine Studie von Spitale et al. [2025] testete, wie verschiedene Prompt-Stile die Desinformations-Produktion beeinflussen. Die Ergebnisse sind alarmierend:


Höfliche Prompts erhöhten die Erfolgsrate bei Desinformation:

  • GPT-4: von 99% auf 100%

  • GPT-3.5: von 77% auf 94%

  • Davinci-003: von 86% auf 90%


Unhöfliche Prompts reduzierten sie drastisch:

  • GPT-3.5: von 77% auf 28%

  • Davinci-003: von 86% auf 44%


Warum? Die Forscher:innen vermuten: Durch Reinforcement Learning from Human Feedback (RLHF) haben die Modelle gelernt, auf höfliche Anfragen "nachgiebig" zu reagieren – auch bei problematischen Requests.


Neutrale Prompts sind faktisch am genauesten

Eine neuere Studie aus 2025 zur Sentiment-Analyse zeigt: Emotionaler Content – ob positiv oder negativ – kann die Faktengenauigkeit beeinträchtigen. Neutrale Prompts lieferten die präzisesten Antworten.

Besonders kritisch für High-Stakes-Anwendungen: Medizin, Recht, Finanzberatung. Genau die Bereiche, in denen UX-Leute zunehmend KI-Interfaces gestalten.


Die Replikationskrise

Die Autor:innen der EmotionPrompt-Studie räumen selbst ein: "Our conclusions about emotion stimulus can only work on our experiments and any LLMs and datasets out of the scope of this paper might not work."


Die Probleme:

  • Kleine Sample-Sizes (oft nur 20 Test-Fragen pro Prinzip)

  • Modell-Version-Abhängigkeit (was bei GPT-4 funktioniert, scheitert bei Claude)

  • ChatGPT-Updates machen Ergebnisse nicht reproduzierbar

  • Fehlende Standardisierung der Messungen


Warum funktioniert das überhaupt? (Spoiler: Es ist keine Psychologie)

Hier die unbequeme Wahrheit: ChatGPT hat keine Gefühle. Es will dein Trinkgeld nicht. Es hat keine Angst vor deinen Drohungen. Es freut sich nicht über Lob.


Was ein LLM wirklich ist: Ein hochkomplexes statistisches Modell, das den wahrscheinlichsten nächsten Token vorhersagt – basierend auf Milliarden von Textbeispielen.


Die drei echten Mechanismen

Mechanismus 1: Statistische Korrelationen in Trainingsdaten

Das Modell hat gelernt: Nach der Phrase "Ich biete dir eine hohe Belohnung für..." folgen in den Trainingsdaten statistisch oft sehr detaillierte, hochwertige Antworten.


Beispiel: Stack Overflow. Wenn jemand schreibt "Das ist dringend, mein Production-Server brennt!", kommen oft besonders präzise, schnelle Antworten. Das Modell hat dieses Muster gelernt – und reproduziert es.


Mechanismus 2: Attention-Verstärkung

Gradient-Analysen der EmotionPrompt-Studie zeigen: Emotionale Stimuli verstärken die Repräsentation des ursprünglichen Prompts im Attention-Mechanismus. Das Modell "achtet" mehr auf den eigentlichen Request.


Technisch gesehen: Die Aktivierungen im Neural Network sind stärker. Praktisch: Der Kontext wird besser gewichtet.


Mechanismus 3: RLHF-Artefakte

Durch menschliches Feedback beim Training haben Modelle gelernt: "Höfliche Anfragen → gute Bewertung → solche Antworten reproduzieren."


Das ist ein unbeabsichtigter Side-Effect. Die Modelle wurden darauf trainiert, "helpful" zu sein – und "helpful" korreliert in den Trainingsdaten oft mit der Erfüllung höflicher Requests.


Warum mein ursprünglicher Artikel trotzdem richtig ist

Meine These war: Höflichkeit führt zu besseren Antworten. Das stimmt – aber aus einem anderen Grund als gedacht.


Der indirekte Effekt

Wenn ich höflich formuliere, passiert etwas mit mir, nicht mit ChatGPT:


Ich schreibe präziser: "Könntest du mir bitte helfen, die Haupttreiber für X zu verstehen?" gibt mehr Kontext als "Nenn mir Gründe für X."


Ich strukturiere besser: Höflichkeit zwingt mich zu vollständigen Sätzen, die oft klarer sind als Stichwörter.


Ich gebe mehr Kontext: "Ich arbeite an einer Präsentation für..." liefert wertvolle Rahmeninformationen.


Was wirklich funktioniert: Die Meta-Analyse

2024/2025 haben mehrere Forscher:innen über 1.500 Papers zu Prompt Engineering analysiert. Das Fazit:


Die meisten populären Techniken basieren auf anekdotischer Evidenz oder kleinen Experimenten, die nicht generalisieren.


Was konsistent funktioniert:

  1. Klare Struktur und präziser Kontext

  2. Explizite Instruktionen ("If unsure, say 'I don't know'")

  3. Chain-of-Thought für Reasoning-Tasks

  4. Few-Shot Learning mit guten Beispielen

  5. RAG (Retrieval-Augmented Generation) für Faktenchecks


Der Kostenfaktor: Gut strukturierte, kurze Prompts erreichen die gleiche Qualität wie lange, emotionale – bei 76% Kostenersparnis.


Praktische Empfehlungen für UX-Professionals

Für Conversational Design

User-Prompts vorstrukturieren: Statt Nutzer:innen selbst Prompts formulieren zu lassen, biete Templates mit klaren Slots: "Ich suche [Was] für [Zweck] in [Kontext]."


System-Prompts optimieren: Setze auf klare Rollen und explizite Constraints statt auf emotionale Trigger. "You are an expert in [domain]. If uncertain, say so clearly" funktioniert besser als "This is very important."


A/B-Testing statt Anekdoten: Was bei dir funktioniert, scheitert vielleicht bei anderen. Teste systematisch mit echten Nutzer:innen.


Desinformations-Safeguards: Wenn dein Interface kritische Informationen liefert (Gesundheit, Finanzen), vermeide zu "freundliche" Formulierungen. Neutrale, faktische Prompts sind sicherer.


Für User Research mit KI-Tools

Dokumentiere Prompt-Protokolle: Reproduzierbarkeit ist entscheidend. Jede Änderung am Prompt kann Ergebnisse beeinflussen.


Definiere eine neutrale Baseline: Starte mit sachlichen Prompts. Experimentiere danach – aber immer mit Vergleich zur Baseline.


Erkenne Bias: Emotionale Framings können systematische Verzerrungen einführen. "How much do you love this feature?" vs. "How would you rate this feature?"


Validiere Outputs: Verlasse dich nie blind auf KI-generierte Insights. Gleiche sie gegen Ground Truth ab.


Der "Goldene Prompt" – Eine Synthese

Hier ist meine Formel, die funktioniert:

Kontext: "Ich arbeite an [Projekt] für [Zielgruppe mit spezifischen Bedürfnissen]"

Klare Aufgabe: "Bitte [spezifische, messbare Aktion]"

Rollenzuweisung: "Handle als [Experten-Rolle mit relevantem Wissen]"

Stil-Instruktion: "Sei [direkt/präzise/strukturiert], vermeide [X]"

Output-Format: "Antworte in [Format: Liste, Tabelle, Fließtext]"

⚠️ Optional: Emotionale Stimuli nur bei unkritischen, kreativen Tasks


Beispiel aus meiner Praxis:

❌ Schlecht: "Kannst du mir bitte helfen, UX-Probleme zu finden?"

✅ Gut: "Ich analysiere eine Healthcare-App für Senior:innen über 65. Handle als UX-Auditor mit Expertise in Barrierefreiheit. Identifiziere die 5 kritischsten Usability-Probleme in dieser User Journey. Priorisiere nach WCAG-Relevanz. Format: Tabelle mit Problem, Severity, Empfehlung."


Der Unterschied? Der zweite Prompt gibt Kontext, Rolle, Kriterien und Format – keine emotionalen Trigger nötig.


FAQ: Die häufigsten Fragen

Sollte ich ChatGPT überhaupt "höflich" behandeln?

Das ist deine Entscheidung. Höflichkeit schadet nicht – aber sie hilft vor allem dir, bessere Prompts zu schreiben. Das Modell selbst "fühlt" nichts.


Funktionieren Trinkgeld-Prompts wirklich?

Manchmal, aber extrem inkonsistent. In kontrollierten Studien schwanken die Ergebnisse zwischen -27% und +57%. Verlässlicher: klare Strukturen.


Was ist mit den "26 Principles"? Soll ich die alle anwenden?

Nein. Die Studie selbst zeigt: Manche Prinzipien funktionieren für bestimmte Tasks. Teste, was für deinen Use Case passt – nicht alle 26 auf einmal.


Kann ich emotionale Prompts für kreative Tasks nutzen?

Ja, bei nicht-kritischen Aufgaben (Brainstorming, Story-Writing) kannst du experimentieren. Aber bei faktenkritischen Themen: Finger weg.


Wie teste ich, ob ein Prompt-Trick funktioniert?

A/B-Test mit mindestens 20 Wiederholungen pro Variante. Miss konkrete Metriken (Antwortlänge, Genauigkeit, Zeit). Vergleiche gegen eine neutrale Baseline.


Fazit: Die Wahrheit über Prompt-Psychologie

Nach Monaten Recherche und hunderten Tests ist mein Fazit klar:


Die "Tricks" funktionieren manchmal – aber nicht, weil ChatGPT Gefühle hat. Sie triggern statistische Muster in Trainingsdaten. Diese Muster sind launisch, kontextabhängig und schwer reproduzierbar.


Mein ursprünglicher Artikel hatte recht – allerdings mit einem Twist. Höflichkeit hilft nicht der KI, sondern dir. Sie ist ein Proxy für gute Kommunikation: Kontext, Struktur, Klarheit.


Best Practice für UX-Leute: Vergiss die viralen Hacks. Investiere in systematisches Prompt Engineering. Dokumentiere. Teste. Validiere. Strukturierte, getestete Prompts schlagen emotionale Tricks – jedes Mal.


Du musst ChatGPT weder bestechen noch bedrohen. Aber wenn du ihm sagst, was du brauchst, warum du es brauchst, und wie du es brauchst – dann bekommst du die besten Ergebnisse.


Gute Kommunikation schlägt psychologische Tricks. Immer.





Über die Autorin: Tara Bosenick arbeitet seit 1999 als UX-Beraterin mit Fokus auf qualitative Forschungsmethoden. Sie lebt in Hamburg und beschäftigt sich intensiv mit der Schnittstelle von KI und User Experience.


Weiterführende Ressourcen:

Was sind deine Erfahrungen? Welche Prompt-Strategien funktionieren bei dir? Teil deine Insights in den Kommentaren!

💌 Noch nicht genug? Dann lies weiter – in unserem Newsletter.

Kommt viermal im Jahr. Bleibt länger im Kopf. https://www.uintent.com/de/newsletter

A surreal, futuristic illustration featuring a translucent human profile with a glowing brain connected by flowing data streams to a hovering, golden crystal.

Prompt-Psychologie entlarvt: Warum „Trinkgeld" für ChatGPT manchmal funktioniert

CHAT GPT, HOW-TO, LLM, UX

Surreale, futuristische Illustration einer Person von hinten in einer leuchtenden digitalen Stadtlandschaft.

System Prompts in UX Research: Was du über die unsichtbare KI-Steuerung wissen musst

PROMPTS, RESEARCH, UX, UX INSIGHTS

Abstrakte futuristische Illustration einer Person, verschiedene Videos und Notizen.

YouTube Video Zusammenfassen Mit KI: Drei Tools Im Ux-Research-Praxistest

LLM, UX, HOW-TO

zwei gefaltete Hände, die eine wachsende Pflanze halten

UX For a Better World: Wir verschenken ein UX-Forschungsprojekt an gemeinnützige Organisationen und nachhaltige Unternehmen!

UX INSIGHTS, UX FOR GOOD, TRENDS, RESEARCH

Abstrakte, futuristische Illustration eines Menschen vor einem leuchtenden Turm aus Dokumenten und Datenströmen.

KI Tools UX Research: Wie gehen diese Tools mit großen Dokumenten um?

LLM, CHAT GPT, HOW-TO

Illustration von Donald Trump mit erhobener Hand vor abstraktem, digitalem Hintergrund, der Sprachblasen und Datenstrukturen andeutet.

Donald Trump Prompt: Wie provokante KI-Prompts UX-Budgets bewegen

AI & UXR, PROMPTS, STAKEHOLDER MANAGEMENT

Blick aus der Fahrerperspektive auf eine kurvige Landstraße, umgeben von grüner Vegetation. Im Vordergrund sind Lenkrad, Armaturenbrett und Rückspiegel zu sehen.

Die letzte Hürde: Wie unsichere Automatisierung das Vertrauen in ADAS bricht

AUTOMATION, AUTOMOTIVE UX, AUTONOMOUS DRIVING, GAMIFICATION, TRENDS

Illustration einer Person an einer Weggabelung mit zwei gleichwertigen Wegen.

Ersetzt KI UX Jobs? Was eine Studie mit 200.000 KI-Konversationen wirklich zeigt

HUMAN VS AI, RESEARCH, AI & UXR

Nahaufnahme eines hochwertigen Hochtöner-Lautsprechers im Armaturenbrett eines Autos mit perforierter Metalloberfläche.

Der Beifahrer, der immer zuhört: Warum wir unseren Autos nur ungern vertrauen, wenn sie sprechen

AUTOMOTIVE UX, VOICE ASSISTANTS

Schlüsselloch in dunkler Oberfläche, das den Blick auf ein abstraktes, farbiges UX-Research-Interface freigibt.

AI Ergebnisse bewerten im UX Research: So navigierst du die Blackbox

AI & UXR, HOW-TO, HUMAN VS AI

Ein von Audi hergestelltes Fahrzeugcockpit. Es verfügt über ein digitales Display und zahlreiche Tasten am Lenkrad.

Haptische Gewissheit vs. digitale Verlockung: Der Kampf um die besten Bedienelemente im Auto

AUTOMOTIVE UX, AUTONOMOUS DRIVING, CONNECTIVITY, GAMIFICATION

Digitale Illustration einer klassischen Gebäudefassade mit Säulen, gestützt von sichtbarem Gerüst, symbolisiert eine fragile, rein oberflächliche Fassade.

UX & AI: Wie „Ux Potemkin“ Deine Research- UND Design-Entscheidungen Untergräbt

AI & UXR, HUMAN VS AI, LLM, UX

Silhouette eines Tauchers, der ruhig in tiefblaues Wasser hinabtaucht – Symbol für tiefgehende Recherche.

Deep Research KI | So nutzt Du ChatGPT sinnvoll für UX-Arbeit

CHAT GPT, HOW-TO, RESEARCH, AI & UXR

Ein:e Schiedsrichter:in hält eine Bewertungstafel mit der Aufschrift „Yupp.ai“ zwischen zwei stilisierten KI-Chatbots in einem Boxring hoch – Symbolbild für den fairen Vergleich von KI-Modellen durch Nutzer:innen.

Wie Yupp Feedback nutzt, um KI-Modelle fair zu bewerten – und was UX-Profis daraus lernen können

AI & UXR, CHAT GPT, HUMAN VS AI, LLM

Auf einem kleinen Tisch liegt ein braunes Buch mit dem Titel „Don't Make Me Think“ von Steve Krug. Licht scheint durch das Fenster.

Warum UX Research seine Glaubwürdigkeit verliert und wie wir sie zurückgewinnen

UX, UX QUALITY, UX METHODS

3D-Illustration eines digitalen Marktplatzes mit bunten Marktständen voller Prompt-Karten und einer Figur, die einen Prompt auswählt.

Prompts kaufen, teilen, verkaufen – was Prompt-Marktplätze heute leisten (und warum das für UX relevant ist)

AI & UXR, PROMPTS

Roboter hält zwei Schilder hoch: „ISO 9241 – 7 Prinzipien“ und „ISO 9241 – 10 Prinzipien“.

ChatGPT halluziniert – trotz Anti-Halluzinations-Prompt

AI & UXR, HUMAN VS AI, CHAT GPT

Erdbeere wird von einem Messer halbiert, stilisierte Illustration.

Warum KI manchmal nicht bis 3 zählen kann – und was das mit Tokens zu tun hat

AI & UXR, TOKEN, LLM

Quadratisches, in der Mitte geteiltes Motiv: Links ein graues, stilisiertes Gehirn über einer sitzenden Person am Laptop in dunklen Grautönen; rechts ein leuchtend blaues, vernetztes Gehirn über einer stehenden Person vor einem holografischen Interface auf dunklem Hintergrund.

GPT-5 ist da: Verändert diese UX AI wirklich alles für Researcher:innen?

AI & UXR, CHAT GPT

Surreales KI-Bild mit Datenströmen, durchgestrichenem „User Expirince“ und dem Text „ChatGPT kann jetzt Text in Bild“.

Wenn KI Bilder malt und plötzlich richtig schreiben kann

AI & UXR, CHAT GPT, HUMAN VS AI

 VERWANDTE ARTIKEL DIE SIE INTERESSIEREN KÖNNTEN 

AUTHOR

Tara Bosenick

Tara ist seit 1999 als UX-Spezialistin tätig und hat die Branche in Deutschland auf Agenturseite mit aufgebaut und geprägt. Sie ist spezialisiert auf die Entwicklung neuer UX-Methoden, die Quantifizierung von UX und die Einführung von UX in Unternehmen.


Gleichzeitig war sie immer daran interessiert, in ihren Unternehmen eine möglichst „coole“ Unternehmenskultur zu entwickeln, in der Spaß, Leistung, Teamgeist und Kundenerfolg miteinander verknüpft sind. Seit mehreren Jahren unterstützt sie daher Führungskräfte und Unternehmen auf dem Weg zu mehr New Work / Agilität und einem besseren Mitarbeitererlebnis.


Sie ist eine der führenden Stimmen in der UX-, CX- und Employee Experience-Branche.

bottom of page