
AI & UXR
UX AI Benchmarks Verstehen: Was HLE Und METR Wirklich Über Ki-Tools Aussagen
6
MIN
26. März 2026
📌 Das Wichtigste in Kürze
HLE (Humanity's Last Exam) testet akademisches Expertenwissen – kein Praxistest für UX-Arbeit.
METR misst, wie autonom KI-Systeme agieren können – relevant für Produktdesign, nicht für Tool-Auswahl.
Modelle stiegen auf HLE in einem Jahr von unter 10 % auf fast 50 % – Benchmarks veralten rasend schnell.
Eine METR-Studie zeigte: Entwickler:innen waren mit KI 19 % langsamer – glaubten aber, schneller zu sein.
Benchmark-Scores überschätzen systematisch die Alltagsleistung von KI-Tools.
Für die UX-Arbeit zählen andere Kriterien: Kontexttreue, Iterationsfähigkeit, Halluzinationsrate.
Der nützlichste Benchmark für dich ist der eigene Workflow – mit echten Aufgaben getestet.
Einleitung
Letzte Woche hat ein KI-Modell wieder einen Rekord auf einem der härtesten KI-Tests gebrochen. Und vielleicht hast du das kurz wahrgenommen – als LinkedIn-Post, als Tech-Newsletter-Snippet – und dich dann gefragt: Was bedeutet das eigentlich für meine Arbeit?
Gute Frage. Die Antwort ist meistens: weniger als du denkst.
In diesem Artikel erkläre ich, was hinter zwei der derzeit meistdiskutierten KI-Benchmarks steckt – Humanity's Last Exam (HLE) und METR – und warum ihre Ergebnisse zwar faszinierend, aber für den UX-Alltag nur begrenzt aussagekräftig sind. Du lernst außerdem, welche Kriterien wirklich relevant sind, wenn du KI-Tools für UX Research oder UX AI Prompting einsetzen willst.
Ich arbeite seit 1999 im UX-Bereich und beobachte seit einigen Jahren, wie KI die Branche verändert. Was mich dabei immer wieder beschäftigt: Die Diskussion um KI-Fähigkeiten findet oft in einer Sprache statt, die mit dem Alltag von UX-Fachleuten wenig zu tun hat. Das möchte ich hier ändern.
Was sind HLE und METR – und warum solltest du das kennen?
Bevor wir die Zahlen einordnen, brauchen wir Klarheit über die Begriffe. HLE und METR messen sehr unterschiedliche Dinge – und beide haben mit dem, was UX-Fachleute täglich tun, nur indirekt zu tun.
HLE – der härteste Wissenstest, den es gibt
Humanity's Last Exam (HLE) ist ein Benchmark, der gemeinsam vom Center for AI Safety und Scale AI entwickelt wurde. Er besteht aus 2.500 Fragen auf Expertenniveau – aus Mathematik, Physik, Chemie, Biologie, Informatik und den Geisteswissenschaften. Die Fragen wurden von Forscher:innen und Doktorand:innen aus über 500 Institutionen weltweit beigesteuert.
Der Name ist Programm: HLE soll der letzte akademische Benchmark dieser Art sein – weil bisherige Tests wie MMLU inzwischen von KI-Modellen mit über 90 % gelöst werden und damit kaum noch aussagekräftig sind [Phan et al., 2025].
Was HLE besonders macht: Die Fragen sind so formuliert, dass man sie nicht einfach googeln kann. Ein Modell muss echtes Reasoning zeigen, keine Mustererkennung. Die Antworten sind eindeutig und automatisch auswertbar – entweder richtig oder falsch.
Ein Beispiel für den Schwierigkeitsgrad (hypothetisches Szenario): „Wie viele gepaarte Sehnen werden von einem bestimmten Sesambein in der Schwanzmuskulatur von Kolibris gestützt?" Das ist keine Frage, die ein Modell aus dem Training kennt. Es muss schlussfolgern.
METR – nicht Wissen, sondern autonomes Handeln
METR (Model Evaluation & Threat Research) ist eine Non-Profit-Organisation in Berkeley, die etwas grundlegend anderes misst: nicht was ein Modell weiß, sondern was es selbstständig tun kann.
Der zentrale Messwert ist der sogenannte „Time Horizon" – die Aufgabendauer, bei der ein KI-Agent eine Aufgabe mit 50 % Wahrscheinlichkeit erfolgreich abschließt. Gemessen wird das mit realen Software-Aufgaben, für die Menschen typischerweise Minuten bis Stunden brauchen [METR, 2025].
Der Fokus liegt auf Sicherheitsfragen: Kann ein Modell autonom Ressourcen beschaffen? Kann es sich selbst replizieren? Kann es Aufgaben über viele Stunden hinweg ohne menschliche Aufsicht erledigen? Das ist relevant für KI-Sicherheitsforschung und für Unternehmen, die autonome KI-Agenten einsetzen wollen.
Wie schneiden aktuelle Modelle ab – und was sagen diese Zahlen wirklich?
Die Zahlen sind beeindruckend – und gleichzeitig mit Vorsicht zu genießen.
HLE: Von null auf fast fünfzig Prozent in einem Jahr
Bei der Veröffentlichung im Januar 2025 lagen alle getesteten Modelle unter 10 %: GPT-4o erreichte 3,3 %, Claude 3.5 Sonnet 4,3 %, das damalige Spitzenmodell o1 etwa 9 % [Scale AI, 2025].
Stand März 2026 führt Gemini 3.1 Pro Preview das Leaderboard mit rund 45 % an. Das ist ein beeindruckender Sprung – und gleichzeitig ein Warnsignal: Benchmarks, die als unüberwindbar galten, werden schneller gesättigt als erwartet.
Die Ersteller:innen selbst halten es für realistisch, dass Modelle noch 2025 die 50-%-Marke überschreiten [Center for AI Safety / Scale AI, 2025]. Das klingt nach einem Meilenstein. Aber HLE selbst warnt: Eine hohe Genauigkeit auf HLE würde keine autonome Forschungsfähigkeit oder „artificial general intelligence" belegen. Der Test misst strukturierte akademische Probleme – nicht offene Kreativität oder Forschung.
Dazu kommt: Schon beim Start zeigten alle Modelle systematisch hohe Kalibrierungsfehler. Das heißt: Die Modelle waren sich ihrer Antworten sehr sicher – auch wenn sie falsch lagen. Eine unabhängige Untersuchung von FutureHouse (Juli 2025) deutete außerdem darauf hin, dass rund 30 % der HLE-Antworten für Chemie- und Biologie-Fragen fehlerhaft sein könnten [FutureHouse, 2025]. Der Test selbst hat also Qualitätsprobleme.
METR: Schneller werdende Autonomie – aber noch weit von kritischen Schwellen entfernt
METR misst keine Prozentzahlen, sondern Zeitspannen. Stand Februar 2026 erreicht das beste Modell (Claude Opus 4.6) einen 50-%-Time-Horizon von knapp 14,5 Stunden [METR, 2026]. Das bedeutet: Bei Aufgaben, die Menschen etwa 14,5 Stunden kosten, gelingt dem Modell die Lösung in der Hälfte der Fälle.
Die Verdopplungszeit dieses Wertes liegt laut METR bei etwa sieben Monaten – ein exponentieller Trend, der ernstgenommen werden sollte [METR, 2025].
Für die Sicherheitsfrage gilt bisher: Keines der getesteten Modelle zeigt ausreichende Fähigkeiten zur autonomen Selbstreplikation oder zur Übernahme kritischer Systeme [METR, 2024/2025]. Aber die Kurve zeigt klar nach oben.
Benchmark | Was wird gemessen | Aktueller Spitzenwert | Für UX direkt relevant? |
HLE | Akademisches Expertenwissen | ~45 % (Gemini 3.1 Pro, März 2026) | Kaum |
METR Time Horizon | Autonomes Handeln über Zeit | ~14,5 h (Claude Opus 4.6, Feb. 2026) | Indirekt |
Warum Benchmark-Scores dich als UX-Fachperson in die Irre führen können
Hier liegt der eigentliche Knackpunkt. Und ich sage das nicht, um Benchmarks kleinzureden – sondern weil ich in meiner Beratungsarbeit immer wieder erlebe, wie Entscheidungen über KI-Tool-Auswahl auf Basis von Leaderboard-Positionen getroffen werden. Das ist ungefähr so, als würde man einen Chirurgen einstellen, weil er ein Kreuzworträtsel schneller löst als andere.
Das Messproblem: Geschlossene Fragen vs. offene Kontexte
HLE testet ausschließlich Fragen mit einer eindeutigen, verifizierbaren Antwort. Das ist methodisch sauber – und für den Benchmark-Zweck auch richtig so. Aber UX-Arbeit funktioniert anders.
Wenn du ein Modell bittest, zwanzig Nutzerinterviews zu synthetisieren und die zentralen Spannungsfelder herauszuarbeiten, gibt es keine „richtige" Antwort. Wenn du UX-Writing-Varianten für eine Fehlermeldung brauchst, zählt Ton, Empathie, Kürze – nicht akademische Korrektheit. Wenn du ein Modell als Sparringspartner für Testkonzepte nutzt, braucht es die Fähigkeit, Widersprüche im Kontext zu erkennen – keine Physikformeln.
METR selbst kommt in seiner Produktivitätsstudie zu einem ernüchternden Schluss: Benchmarks überschätzen die Modellleistung, weil sie nur gut abgegrenzte, algorithmisch bewertbare Aufgaben messen [METR, 2025]. In der Realität sind die Anforderungen komplexer, die Qualitätsstandards impliziter, der Kontext umfangreicher.
Die Wahrnehmungsfalle: Wenn sich „gut anfühlen" nicht gleich „gut sein" ist
METR veröffentlichte 2025 eine randomisierte Kontrollstudie zur Produktivität erfahrener Entwickler:innen mit KI-Unterstützung. Das Ergebnis war überraschend: Die Teilnehmenden schätzten, dass KI sie um rund 24 % schneller machen würde. Nach Abschluss der Aufgaben glaubten sie, etwa 20 % schneller gewesen zu sein. Tatsächlich waren sie im Schnitt 19 % langsamer [METR, 2025].
Das ist kein Entwickler:innen-Problem. Das ist ein Wahrnehmungsproblem – und es ist zutiefst UX. Wir wissen aus der Forschung: Menschen bewerten Prozesse oft nach dem subjektiven Erlebnis, nicht nach dem Ergebnis. KI-Tools fühlen sich häufig produktiv an, weil sie schnell antworten, weil das Interface flüssig ist, weil das Ergebnis „gut genug" wirkt. Das täuscht über die tatsächliche Qualität hinweg.
Für UX-Fachleute ist das ein doppelt relevanter Befund: einmal für die eigene Tool-Nutzung, und einmal für das Design von KI-Produkten. Wer ein KI-Feature in ein Produkt integriert, sollte genau diese Lücke zwischen wahrgenommener und tatsächlicher Leistung im Blick haben.
Was UX-Fachleute stattdessen messen sollten
Wenn HLE und METR für den UX-Alltag wenig taugen – was dann? Hier sind die Dimensionen, die in meiner Arbeit wirklich zählen:
Für UX Research-Unterstützung:
Kriterium | Warum es zählt |
Zusammenfassungsqualität | Verdichtet das Modell Interviewtranskripte sinnvoll, ohne Nuancen zu verlieren? |
Kontexttreue | Bleibt es bei dem, was gesagt wurde – oder erfindet es plausibel klingende Ergänzungen? |
Nuancenerkennung | Versteht es Ambivalenzen, Widersprüche, emotionale Untertöne? |
Iterationsfähigkeit | Kann es auf Feedback reagieren und Ergebnisse gezielt verfeinern? |
Halluzinationsrate | Wie häufig erfindet es Fakten – und wie erkennbar ist das? |
Für UX Writing und Content:
Kriterium | Warum es zählt |
Tonalität | Trifft es verschiedene Stimmungen und Markensprachen zuverlässig? |
Kürze vs. Klarheit | Schreibt es prägnante Microcopy ohne Informationsverlust? |
Konsistenz | Bleibt es über längere Texte stilistisch einheitlich? |
Für KI-Produktdesign:
Kriterium | Warum es zählt |
Fehlerverhalten | Wie reagiert das System auf unklare oder widersprüchliche Eingaben? |
Transparenz | Kommuniziert es Unsicherheit ehrlich – oder täuscht es Sicherheit vor? |
Erwartungsmanagement | Erzeugt es realistische Nutzererwartungen, oder lädt es zu Enttäuschungen ein? |
Wie du KI-Tools für deine UX-Arbeit selbst benchmarkst
Der nützlichste Benchmark ist der, den du selbst entwickelst. Das klingt aufwendiger als es ist.
Sammle 5–10 typische Prompts aus deinem Arbeitsalltag. Keine konstruierten Beispiele – echte Aufgaben, die du regelmäßig stellst. Interviewzusammenfassungen, Persona-Drafts, Testszenarien, UX-Copy-Varianten.
Wähle ein Qualitätskriterium pro Aufgabe. Nicht „ist es gut?", sondern: Ist die Zusammenfassung vollständig ohne zu erfinden? Trifft der Ton die Marke? Sind die genannten Nutzerzitate korrekt zugeordnet?
Teste dasselbe Prompt bei zwei bis drei Modellen und dokumentiere die Ergebnisse. Nicht einmalig – sondern als regelmäßigen Prozess, denn Modelle werden laufend aktualisiert.
Achte auf Chatbot-Arena-Ergebnisse (LMArena). Dort bewerten echte Nutzer:innen blind, welches Modell besser antwortet. Das ist kein perfekter Benchmark – aber näher an der Alltagsrealität als akademische Tests.
Dokumentiere deine Erfahrungen qualitativ. Wann war das Ergebnis überraschend gut? Wann hat das Modell etwas erfunden? Wann hat die Iteration nicht funktioniert? Diese Beobachtungen sind wertvoller als jede Prozentzahl auf einem Leaderboard.
FAQ: Häufige Fragen zu KI-Benchmarks und UX
Sollte ich Modelle mit hohen HLE-Scores bevorzugen?
Nicht automatisch. HLE misst akademisches Expertenwissen unter kontrollierten Bedingungen. Für UX-Aufgaben wie Interviewsynthese, UX Writing oder Testkonzeption sind andere Fähigkeiten entscheidend. Ein Modell mit mittlerem HLE-Score kann für deine spezifischen Aufgaben besser geeignet sein als der aktuelle Spitzenreiter.
Was bedeutet der METR Time Horizon für mich als UX-Fachperson?
Direkt wenig – aber indirekt ist er relevant, wenn du KI-Agenten oder autonome Features in Produkte integrierst. Der Time Horizon zeigt, wie lange ein Modell selbstständig an einer Aufgabe arbeiten kann, bevor es scheitert. Das beeinflusst, wie viel menschliche Kontrolle du einplanen musst.
Wie erkenne ich, ob ein KI-Tool für meine UX-Arbeit halluziniert?
Halluzinationen erkennt man oft nur, wenn man den Original-Input kennt. Bei Interviewzusammenfassungen: Vergleiche gezielt 2–3 konkrete Aussagen mit dem Transkript. Bei Recherche-Unterstützung: Frage das Modell nach seiner Quelle – und prüfe sie. Kein Modell ist halluzinationsfrei, aber die Rate und Erkennbarkeit variieren stark.
Wie oft sollte ich meine Tool-Auswahl überprüfen?
Mindestens vierteljährlich. Modelle werden laufend aktualisiert – manchmal verbessern sich bestimmte Fähigkeiten, manchmal verschlechtern sie sich nach einem Update. Wer einmal ein Tool gewählt hat und es nie wieder hinterfragt, arbeitet möglicherweise mit veralteten Annahmen.
Gibt es Benchmarks, die näher an der UX-Praxis sind?
Ja. Chatbot Arena (LMArena) und MT-Bench messen Konversationsqualität und Instruktionsbefolgung – das ist relevanter für UX-Aufgaben als akademische Tests. Keiner davon ist perfekt, aber sie sind ein besserer Ausgangspunkt als HLE-Scores für die Tool-Auswahl.
Fazit
HLE und METR sind wichtige Instrumente – für KI-Forscher:innen, Sicherheitsexpert:innen und Regulierungsbehörden. Für UX-Fachleute, die täglich mit KI-Tools arbeiten oder KI-Features für Nutzer:innen gestalten, sagen sie wenig über das, was wirklich zählt.
Der entscheidende Punkt: Benchmarks messen, was messbar ist – nicht was wichtig ist. Und in der UX-Arbeit ist das Wichtigste oft schwer zu quantifizieren: die Fähigkeit eines Modells, im offenen Dialog zu bleiben, Nuancen zu erkennen, ehrlich mit Unsicherheit umzugehen und auf Feedback zu reagieren.
Mein Rat: Schau dir Benchmark-Ergebnisse an, um grobe Orientierung zu bekommen. Aber baue dir eigene Mini-Benchmarks mit echten Aufgaben aus deinem Alltag. Und teste regelmäßig neu – denn die Modelle verändern sich schneller, als Leaderboards aktualisiert werden.
Was ist dein bisher bestes oder schlechtestes Erlebnis mit einem KI-Tool in der UX-Arbeit? Ich bin neugierig.
Über die Autorin
Tara Bosenick ist UX-Beraterin und Co-Inhaberin von Uintent. Seit 1999 begleitet sie Unternehmen dabei, ihre Produkte nutzerfreundlicher zu gestalten – mit fundierten Research-Methoden und einem klaren Blick für das Wesentliche. Als Speakerin auf Kongressen wie Mensch & Computer und dem World Usability Congress teilt sie ihr Wissen über UX und AI. In ihren Workshops zu UX-AI-Prompting und AI-Integration steckt, was gute UX ausmacht: klarer Nutzen, direkte Anwendbarkeit – und Spaß am Prozess.
💌 Noch nicht genug? Dann lies weiter – in unserem Newsletter.
Kommt viermal im Jahr. Bleibt länger im Kopf. https://www.uintent.com/de/newsletter
VERWANDTE ARTIKEL DIE SIE INTERESSIEREN KÖNNTEN
AUTHOR
Tara Bosenick
Tara ist seit 1999 als UX-Spezialistin tätig und hat die Branche in Deutschland auf Agenturseite mit aufgebaut und geprägt. Sie ist spezialisiert auf die Entwicklung neuer UX-Methoden, die Quantifizierung von UX und die Einführung von UX in Unternehmen.
Gleichzeitig war sie immer daran interessiert, in ihren Unternehmen eine möglichst „coole“ Unternehmenskultur zu entwickeln, in der Spaß, Leistung, Teamgeist und Kundenerfolg miteinander verknüpft sind. Seit mehreren Jahren unterstützt sie daher Führungskräfte und Unternehmen auf dem Weg zu mehr New Work / Agilität und einem besseren Mitarbeitererlebnis.
Sie ist eine der führenden Stimmen in der UX-, CX- und Employee Experience-Branche.




















