AI & UXR

UX AI Benchmarks Verstehen: Was HLE Und METR Wirklich Über Ki-Tools Aussagen

MIN

26. März 2026

📌 Das Wichtigste in Kürze

HLE (Humanity's Last Exam) testet akademisches Expertenwissen – kein Praxistest für UX-Arbeit.
METR misst, wie autonom KI-Systeme agieren können – relevant für Produktdesign, nicht für Tool-Auswahl.
Modelle stiegen auf HLE in einem Jahr von unter 10 % auf fast 50 % – Benchmarks veralten rasend schnell.
Eine METR-Studie zeigte: Entwickler:innen waren mit KI 19 % langsamer – glaubten aber, schneller zu sein.
Benchmark-Scores überschätzen systematisch die Alltagsleistung von KI-Tools.
Für die UX-Arbeit zählen andere Kriterien: Kontexttreue, Iterationsfähigkeit, Halluzinationsrate.
Der nützlichste Benchmark für dich ist der eigene Workflow – mit echten Aufgaben getestet.

Einleitung

Letzte Woche hat ein KI-Modell wieder einen Rekord auf einem der härtesten KI-Tests gebrochen. Und vielleicht hast du das kurz wahrgenommen – als LinkedIn-Post, als Tech-Newsletter-Snippet – und dich dann gefragt: Was bedeutet das eigentlich für meine Arbeit?

Gute Frage. Die Antwort ist meistens: weniger als du denkst.

In diesem Artikel erkläre ich, was hinter zwei der derzeit meistdiskutierten KI-Benchmarks steckt – Humanity's Last Exam (HLE) und METR – und warum ihre Ergebnisse zwar faszinierend, aber für den UX-Alltag nur begrenzt aussagekräftig sind. Du lernst außerdem, welche Kriterien wirklich relevant sind, wenn du KI-Tools für UX Research oder UX AI Prompting einsetzen willst.

Ich arbeite seit 1999 im UX-Bereich und beobachte seit einigen Jahren, wie KI die Branche verändert. Was mich dabei immer wieder beschäftigt: Die Diskussion um KI-Fähigkeiten findet oft in einer Sprache statt, die mit dem Alltag von UX-Fachleuten wenig zu tun hat. Das möchte ich hier ändern.

Was sind HLE und METR – und warum solltest du das kennen?

Bevor wir die Zahlen einordnen, brauchen wir Klarheit über die Begriffe. HLE und METR messen sehr unterschiedliche Dinge – und beide haben mit dem, was UX-Fachleute täglich tun, nur indirekt zu tun.

HLE – der härteste Wissenstest, den es gibt

Humanity's Last Exam (HLE) ist ein Benchmark, der gemeinsam vom Center for AI Safety und Scale AI entwickelt wurde. Er besteht aus 2.500 Fragen auf Expertenniveau – aus Mathematik, Physik, Chemie, Biologie, Informatik und den Geisteswissenschaften. Die Fragen wurden von Forscher:innen und Doktorand:innen aus über 500 Institutionen weltweit beigesteuert.

Der Name ist Programm: HLE soll der letzte akademische Benchmark dieser Art sein – weil bisherige Tests wie MMLU inzwischen von KI-Modellen mit über 90 % gelöst werden und damit kaum noch aussagekräftig sind [Phan et al., 2025].

Was HLE besonders macht: Die Fragen sind so formuliert, dass man sie nicht einfach googeln kann. Ein Modell muss echtes Reasoning zeigen, keine Mustererkennung. Die Antworten sind eindeutig und automatisch auswertbar – entweder richtig oder falsch.

Ein Beispiel für den Schwierigkeitsgrad (hypothetisches Szenario): „Wie viele gepaarte Sehnen werden von einem bestimmten Sesambein in der Schwanzmuskulatur von Kolibris gestützt?" Das ist keine Frage, die ein Modell aus dem Training kennt. Es muss schlussfolgern.

METR – nicht Wissen, sondern autonomes Handeln

METR (Model Evaluation & Threat Research) ist eine Non-Profit-Organisation in Berkeley, die etwas grundlegend anderes misst: nicht was ein Modell weiß, sondern was es selbstständig tun kann.

Der zentrale Messwert ist der sogenannte „Time Horizon" – die Aufgabendauer, bei der ein KI-Agent eine Aufgabe mit 50 % Wahrscheinlichkeit erfolgreich abschließt. Gemessen wird das mit realen Software-Aufgaben, für die Menschen typischerweise Minuten bis Stunden brauchen [METR, 2025].

Der Fokus liegt auf Sicherheitsfragen: Kann ein Modell autonom Ressourcen beschaffen? Kann es sich selbst replizieren? Kann es Aufgaben über viele Stunden hinweg ohne menschliche Aufsicht erledigen? Das ist relevant für KI-Sicherheitsforschung und für Unternehmen, die autonome KI-Agenten einsetzen wollen.

Wie schneiden aktuelle Modelle ab – und was sagen diese Zahlen wirklich?

Die Zahlen sind beeindruckend – und gleichzeitig mit Vorsicht zu genießen.

HLE: Von null auf fast fünfzig Prozent in einem Jahr

Bei der Veröffentlichung im Januar 2025 lagen alle getesteten Modelle unter 10 %: GPT-4o erreichte 3,3 %, Claude 3.5 Sonnet 4,3 %, das damalige Spitzenmodell o1 etwa 9 % [Scale AI, 2025].

Stand März 2026 führt Gemini 3.1 Pro Preview das Leaderboard mit rund 45 % an. Das ist ein beeindruckender Sprung – und gleichzeitig ein Warnsignal: Benchmarks, die als unüberwindbar galten, werden schneller gesättigt als erwartet.

Die Ersteller:innen selbst halten es für realistisch, dass Modelle noch 2025 die 50-%-Marke überschreiten [Center for AI Safety / Scale AI, 2025]. Das klingt nach einem Meilenstein. Aber HLE selbst warnt: Eine hohe Genauigkeit auf HLE würde keine autonome Forschungsfähigkeit oder „artificial general intelligence" belegen. Der Test misst strukturierte akademische Probleme – nicht offene Kreativität oder Forschung.

Dazu kommt: Schon beim Start zeigten alle Modelle systematisch hohe Kalibrierungsfehler. Das heißt: Die Modelle waren sich ihrer Antworten sehr sicher – auch wenn sie falsch lagen. Eine unabhängige Untersuchung von FutureHouse (Juli 2025) deutete außerdem darauf hin, dass rund 30 % der HLE-Antworten für Chemie- und Biologie-Fragen fehlerhaft sein könnten [FutureHouse, 2025]. Der Test selbst hat also Qualitätsprobleme.

METR: Schneller werdende Autonomie – aber noch weit von kritischen Schwellen entfernt

METR misst keine Prozentzahlen, sondern Zeitspannen. Stand Februar 2026 erreicht das beste Modell (Claude Opus 4.6) einen 50-%-Time-Horizon von knapp 14,5 Stunden [METR, 2026]. Das bedeutet: Bei Aufgaben, die Menschen etwa 14,5 Stunden kosten, gelingt dem Modell die Lösung in der Hälfte der Fälle.

Die Verdopplungszeit dieses Wertes liegt laut METR bei etwa sieben Monaten – ein exponentieller Trend, der ernstgenommen werden sollte [METR, 2025].

Für die Sicherheitsfrage gilt bisher: Keines der getesteten Modelle zeigt ausreichende Fähigkeiten zur autonomen Selbstreplikation oder zur Übernahme kritischer Systeme [METR, 2024/2025]. Aber die Kurve zeigt klar nach oben.

Benchmark	Was wird gemessen	Aktueller Spitzenwert	Für UX direkt relevant?
HLE	Akademisches Expertenwissen	~45 % (Gemini 3.1 Pro, März 2026)	Kaum
METR Time Horizon	Autonomes Handeln über Zeit	~14,5 h (Claude Opus 4.6, Feb. 2026)	Indirekt

Warum Benchmark-Scores dich als UX-Fachperson in die Irre führen können

Hier liegt der eigentliche Knackpunkt. Und ich sage das nicht, um Benchmarks kleinzureden – sondern weil ich in meiner Beratungsarbeit immer wieder erlebe, wie Entscheidungen über KI-Tool-Auswahl auf Basis von Leaderboard-Positionen getroffen werden. Das ist ungefähr so, als würde man einen Chirurgen einstellen, weil er ein Kreuzworträtsel schneller löst als andere.

Das Messproblem: Geschlossene Fragen vs. offene Kontexte

HLE testet ausschließlich Fragen mit einer eindeutigen, verifizierbaren Antwort. Das ist methodisch sauber – und für den Benchmark-Zweck auch richtig so. Aber UX-Arbeit funktioniert anders.

Wenn du ein Modell bittest, zwanzig Nutzerinterviews zu synthetisieren und die zentralen Spannungsfelder herauszuarbeiten, gibt es keine „richtige" Antwort. Wenn du UX-Writing-Varianten für eine Fehlermeldung brauchst, zählt Ton, Empathie, Kürze – nicht akademische Korrektheit. Wenn du ein Modell als Sparringspartner für Testkonzepte nutzt, braucht es die Fähigkeit, Widersprüche im Kontext zu erkennen – keine Physikformeln.

METR selbst kommt in seiner Produktivitätsstudie zu einem ernüchternden Schluss: Benchmarks überschätzen die Modellleistung, weil sie nur gut abgegrenzte, algorithmisch bewertbare Aufgaben messen [METR, 2025]. In der Realität sind die Anforderungen komplexer, die Qualitätsstandards impliziter, der Kontext umfangreicher.

Die Wahrnehmungsfalle: Wenn sich „gut anfühlen" nicht gleich „gut sein" ist

METR veröffentlichte 2025 eine randomisierte Kontrollstudie zur Produktivität erfahrener Entwickler:innen mit KI-Unterstützung. Das Ergebnis war überraschend: Die Teilnehmenden schätzten, dass KI sie um rund 24 % schneller machen würde. Nach Abschluss der Aufgaben glaubten sie, etwa 20 % schneller gewesen zu sein. Tatsächlich waren sie im Schnitt 19 % langsamer [METR, 2025].

Das ist kein Entwickler:innen-Problem. Das ist ein Wahrnehmungsproblem – und es ist zutiefst UX. Wir wissen aus der Forschung: Menschen bewerten Prozesse oft nach dem subjektiven Erlebnis, nicht nach dem Ergebnis. KI-Tools fühlen sich häufig produktiv an, weil sie schnell antworten, weil das Interface flüssig ist, weil das Ergebnis „gut genug" wirkt. Das täuscht über die tatsächliche Qualität hinweg.

Für UX-Fachleute ist das ein doppelt relevanter Befund: einmal für die eigene Tool-Nutzung, und einmal für das Design von KI-Produkten. Wer ein KI-Feature in ein Produkt integriert, sollte genau diese Lücke zwischen wahrgenommener und tatsächlicher Leistung im Blick haben.

Was UX-Fachleute stattdessen messen sollten

Wenn HLE und METR für den UX-Alltag wenig taugen – was dann? Hier sind die Dimensionen, die in meiner Arbeit wirklich zählen:

Für UX Research-Unterstützung:

Kriterium	Warum es zählt
Zusammenfassungsqualität	Verdichtet das Modell Interviewtranskripte sinnvoll, ohne Nuancen zu verlieren?
Kontexttreue	Bleibt es bei dem, was gesagt wurde – oder erfindet es plausibel klingende Ergänzungen?
Nuancenerkennung	Versteht es Ambivalenzen, Widersprüche, emotionale Untertöne?
Iterationsfähigkeit	Kann es auf Feedback reagieren und Ergebnisse gezielt verfeinern?
Halluzinationsrate	Wie häufig erfindet es Fakten – und wie erkennbar ist das?

Für UX Writing und Content:

Kriterium	Warum es zählt
Tonalität	Trifft es verschiedene Stimmungen und Markensprachen zuverlässig?
Kürze vs. Klarheit	Schreibt es prägnante Microcopy ohne Informationsverlust?
Konsistenz	Bleibt es über längere Texte stilistisch einheitlich?

Für KI-Produktdesign:

Kriterium	Warum es zählt
Fehlerverhalten	Wie reagiert das System auf unklare oder widersprüchliche Eingaben?
Transparenz	Kommuniziert es Unsicherheit ehrlich – oder täuscht es Sicherheit vor?
Erwartungsmanagement	Erzeugt es realistische Nutzererwartungen, oder lädt es zu Enttäuschungen ein?

Wie du KI-Tools für deine UX-Arbeit selbst benchmarkst

Der nützlichste Benchmark ist der, den du selbst entwickelst. Das klingt aufwendiger als es ist.

Sammle 5–10 typische Prompts aus deinem Arbeitsalltag. Keine konstruierten Beispiele – echte Aufgaben, die du regelmäßig stellst. Interviewzusammenfassungen, Persona-Drafts, Testszenarien, UX-Copy-Varianten.
Wähle ein Qualitätskriterium pro Aufgabe. Nicht „ist es gut?", sondern: Ist die Zusammenfassung vollständig ohne zu erfinden? Trifft der Ton die Marke? Sind die genannten Nutzerzitate korrekt zugeordnet?
Teste dasselbe Prompt bei zwei bis drei Modellen und dokumentiere die Ergebnisse. Nicht einmalig – sondern als regelmäßigen Prozess, denn Modelle werden laufend aktualisiert.
Achte auf Chatbot-Arena-Ergebnisse (LMArena). Dort bewerten echte Nutzer:innen blind, welches Modell besser antwortet. Das ist kein perfekter Benchmark – aber näher an der Alltagsrealität als akademische Tests.
Dokumentiere deine Erfahrungen qualitativ. Wann war das Ergebnis überraschend gut? Wann hat das Modell etwas erfunden? Wann hat die Iteration nicht funktioniert? Diese Beobachtungen sind wertvoller als jede Prozentzahl auf einem Leaderboard.

FAQ: Häufige Fragen zu KI-Benchmarks und UX

Sollte ich Modelle mit hohen HLE-Scores bevorzugen?

Nicht automatisch. HLE misst akademisches Expertenwissen unter kontrollierten Bedingungen. Für UX-Aufgaben wie Interviewsynthese, UX Writing oder Testkonzeption sind andere Fähigkeiten entscheidend. Ein Modell mit mittlerem HLE-Score kann für deine spezifischen Aufgaben besser geeignet sein als der aktuelle Spitzenreiter.

Was bedeutet der METR Time Horizon für mich als UX-Fachperson?

Direkt wenig – aber indirekt ist er relevant, wenn du KI-Agenten oder autonome Features in Produkte integrierst. Der Time Horizon zeigt, wie lange ein Modell selbstständig an einer Aufgabe arbeiten kann, bevor es scheitert. Das beeinflusst, wie viel menschliche Kontrolle du einplanen musst.

Wie erkenne ich, ob ein KI-Tool für meine UX-Arbeit halluziniert?

Halluzinationen erkennt man oft nur, wenn man den Original-Input kennt. Bei Interviewzusammenfassungen: Vergleiche gezielt 2–3 konkrete Aussagen mit dem Transkript. Bei Recherche-Unterstützung: Frage das Modell nach seiner Quelle – und prüfe sie. Kein Modell ist halluzinationsfrei, aber die Rate und Erkennbarkeit variieren stark.

Wie oft sollte ich meine Tool-Auswahl überprüfen?

Mindestens vierteljährlich. Modelle werden laufend aktualisiert – manchmal verbessern sich bestimmte Fähigkeiten, manchmal verschlechtern sie sich nach einem Update. Wer einmal ein Tool gewählt hat und es nie wieder hinterfragt, arbeitet möglicherweise mit veralteten Annahmen.

Gibt es Benchmarks, die näher an der UX-Praxis sind?

Ja. Chatbot Arena (LMArena) und MT-Bench messen Konversationsqualität und Instruktionsbefolgung – das ist relevanter für UX-Aufgaben als akademische Tests. Keiner davon ist perfekt, aber sie sind ein besserer Ausgangspunkt als HLE-Scores für die Tool-Auswahl.

Fazit

HLE und METR sind wichtige Instrumente – für KI-Forscher:innen, Sicherheitsexpert:innen und Regulierungsbehörden. Für UX-Fachleute, die täglich mit KI-Tools arbeiten oder KI-Features für Nutzer:innen gestalten, sagen sie wenig über das, was wirklich zählt.

Der entscheidende Punkt: Benchmarks messen, was messbar ist – nicht was wichtig ist. Und in der UX-Arbeit ist das Wichtigste oft schwer zu quantifizieren: die Fähigkeit eines Modells, im offenen Dialog zu bleiben, Nuancen zu erkennen, ehrlich mit Unsicherheit umzugehen und auf Feedback zu reagieren.

Mein Rat: Schau dir Benchmark-Ergebnisse an, um grobe Orientierung zu bekommen. Aber baue dir eigene Mini-Benchmarks mit echten Aufgaben aus deinem Alltag. Und teste regelmäßig neu – denn die Modelle verändern sich schneller, als Leaderboards aktualisiert werden.

Was ist dein bisher bestes oder schlechtestes Erlebnis mit einem KI-Tool in der UX-Arbeit? Ich bin neugierig.

Über die Autorin

Tara Bosenick ist UX-Beraterin und Co-Inhaberin von Uintent. Seit 1999 begleitet sie Unternehmen dabei, ihre Produkte nutzerfreundlicher zu gestalten – mit fundierten Research-Methoden und einem klaren Blick für das Wesentliche. Als Speakerin auf Kongressen wie Mensch & Computer und dem World Usability Congress teilt sie ihr Wissen über UX und AI. In ihren Workshops zu UX-AI-Prompting und AI-Integration steckt, was gute UX ausmacht: klarer Nutzen, direkte Anwendbarkeit – und Spaß am Prozess.

💌 Noch nicht genug? Dann lies weiter – in unserem Newsletter.

Kommt viermal im Jahr. Bleibt länger im Kopf. https://www.uintent.com/de/newsletter

Leuchtender futuristischer Schutzschild aus UI-Elementen hält digitale Gefahren im dunklen Raum ab.

UX Research Als Risikomanagement: Warum Wir Endlich Die Sprache Wechseln Müssen

HOW-TO, UX, UX QUALITY

UX AI Benchmarks Verstehen: Was HLE Und METR Wirklich Über Ki-Tools Aussagen

​

📌 Das Wichtigste in Kürze

Einleitung

Was sind HLE und METR – und warum solltest du das kennen?

HLE – der härteste Wissenstest, den es gibt

METR – nicht Wissen, sondern autonomes Handeln

Wie schneiden aktuelle Modelle ab – und was sagen diese Zahlen wirklich?

HLE: Von null auf fast fünfzig Prozent in einem Jahr

METR: Schneller werdende Autonomie – aber noch weit von kritischen Schwellen entfernt

Warum Benchmark-Scores dich als UX-Fachperson in die Irre führen können

Das Messproblem: Geschlossene Fragen vs. offene Kontexte

Die Wahrnehmungsfalle: Wenn sich „gut anfühlen" nicht gleich „gut sein" ist

Was UX-Fachleute stattdessen messen sollten

Für UX Research-Unterstützung:

Für UX Writing und Content:

Für KI-Produktdesign:

Wie du KI-Tools für deine UX-Arbeit selbst benchmarkst

FAQ: Häufige Fragen zu KI-Benchmarks und UX

Fazit

Über die Autorin

💌 Noch nicht genug? Dann lies weiter – in unserem Newsletter.

UX Research Als Risikomanagement: Warum Wir Endlich Die Sprache Wechseln Müssen

UX & AI: Die besten Newsletter und Podcasts – meine persönliche Auswahl

Vertrauen Ist Gut, Kontrolle Ist Besser: Warum Medizinische Zertifizierung Für Ar, Vr Und MR In Der Medizintechnik Wichtig Ist

Die Magie Nutzbar Machen: Warum Usability-Engineering Für AR, VR Und MR In Der Medizintechnik Wichtig Ist

Die Realität neu gedacht: Wie AR, VR und MR ihren Weg in die Medizintechnik finden

UX AI Benchmarks Verstehen: Was HLE Und METR Wirklich Über Ki-Tools Aussagen

NotebookLM Im UX Research: Ehrliche Einschätzung Eines Spezialisierten Ki-Tools

Gated Salami Prompting: Warum Du Komplexe Llm-aufgaben In Scheiben Schneiden Solltest

Erfundene Zitate, Verschwundene Nuancen: Das Halluzinationsproblem In Der Qualitativen Analyse Mit LLMs

Woher wissen wir, dass unser Prompt gute Arbeit leistet? Warum UX Research eine Evaluierungsmethodik für KI-gestützte Analyse braucht

Prompt-Psychologie entlarvt: Warum „Trinkgeld" für ChatGPT manchmal funktioniert

System Prompts in UX Research: Was du über die unsichtbare KI-Steuerung wissen musst

YouTube Video Zusammenfassen Mit KI: Drei Tools Im Ux-Research-Praxistest

UX For a Better World: Wir verschenken ein UX-Forschungsprojekt an gemeinnützige Organisationen und nachhaltige Unternehmen!

KI Tools UX Research: Wie gehen diese Tools mit großen Dokumenten um?

Donald Trump Prompt: Wie provokante KI-Prompts UX-Budgets bewegen

Die letzte Hürde: Wie unsichere Automatisierung das Vertrauen in ADAS bricht

Ersetzt KI UX Jobs? Was eine Studie mit 200.000 KI-Konversationen wirklich zeigt

Der Beifahrer, der immer zuhört: Warum wir unseren Autos nur ungern vertrauen, wenn sie sprechen

AI Ergebnisse bewerten im UX Research: So navigierst du die Blackbox

VERWANDTE ARTIKEL DIE SIE INTERESSIEREN KÖNNTEN

AUTHOR