top of page
uintent Firmenlogo

AI & UXR

UX AI Benchmarks Verstehen: Was HLE Und METR Wirklich Über Ki-Tools Aussagen


6

MIN

26. März 2026

📌 Das Wichtigste in Kürze

  • HLE (Humanity's Last Exam) testet akademisches Expertenwissen – kein Praxistest für UX-Arbeit.

  • METR misst, wie autonom KI-Systeme agieren können – relevant für Produktdesign, nicht für Tool-Auswahl.

  • Modelle stiegen auf HLE in einem Jahr von unter 10 % auf fast 50 % – Benchmarks veralten rasend schnell.

  • Eine METR-Studie zeigte: Entwickler:innen waren mit KI 19 % langsamer – glaubten aber, schneller zu sein.

  • Benchmark-Scores überschätzen systematisch die Alltagsleistung von KI-Tools.

  • Für die UX-Arbeit zählen andere Kriterien: Kontexttreue, Iterationsfähigkeit, Halluzinationsrate.

  • Der nützlichste Benchmark für dich ist der eigene Workflow – mit echten Aufgaben getestet.


Einleitung

Letzte Woche hat ein KI-Modell wieder einen Rekord auf einem der härtesten KI-Tests gebrochen. Und vielleicht hast du das kurz wahrgenommen – als LinkedIn-Post, als Tech-Newsletter-Snippet – und dich dann gefragt: Was bedeutet das eigentlich für meine Arbeit?


Gute Frage. Die Antwort ist meistens: weniger als du denkst.


In diesem Artikel erkläre ich, was hinter zwei der derzeit meistdiskutierten KI-Benchmarks steckt – Humanity's Last Exam (HLE) und METR – und warum ihre Ergebnisse zwar faszinierend, aber für den UX-Alltag nur begrenzt aussagekräftig sind. Du lernst außerdem, welche Kriterien wirklich relevant sind, wenn du KI-Tools für UX Research oder UX AI Prompting einsetzen willst.


Ich arbeite seit 1999 im UX-Bereich und beobachte seit einigen Jahren, wie KI die Branche verändert. Was mich dabei immer wieder beschäftigt: Die Diskussion um KI-Fähigkeiten findet oft in einer Sprache statt, die mit dem Alltag von UX-Fachleuten wenig zu tun hat. Das möchte ich hier ändern.


Was sind HLE und METR – und warum solltest du das kennen?

Bevor wir die Zahlen einordnen, brauchen wir Klarheit über die Begriffe. HLE und METR messen sehr unterschiedliche Dinge – und beide haben mit dem, was UX-Fachleute täglich tun, nur indirekt zu tun.


HLE – der härteste Wissenstest, den es gibt

Humanity's Last Exam (HLE) ist ein Benchmark, der gemeinsam vom Center for AI Safety und Scale AI entwickelt wurde. Er besteht aus 2.500 Fragen auf Expertenniveau – aus Mathematik, Physik, Chemie, Biologie, Informatik und den Geisteswissenschaften. Die Fragen wurden von Forscher:innen und Doktorand:innen aus über 500 Institutionen weltweit beigesteuert.


Der Name ist Programm: HLE soll der letzte akademische Benchmark dieser Art sein – weil bisherige Tests wie MMLU inzwischen von KI-Modellen mit über 90 % gelöst werden und damit kaum noch aussagekräftig sind [Phan et al., 2025].


Was HLE besonders macht: Die Fragen sind so formuliert, dass man sie nicht einfach googeln kann. Ein Modell muss echtes Reasoning zeigen, keine Mustererkennung. Die Antworten sind eindeutig und automatisch auswertbar – entweder richtig oder falsch.


Ein Beispiel für den Schwierigkeitsgrad (hypothetisches Szenario): „Wie viele gepaarte Sehnen werden von einem bestimmten Sesambein in der Schwanzmuskulatur von Kolibris gestützt?" Das ist keine Frage, die ein Modell aus dem Training kennt. Es muss schlussfolgern.


METR – nicht Wissen, sondern autonomes Handeln

METR (Model Evaluation & Threat Research) ist eine Non-Profit-Organisation in Berkeley, die etwas grundlegend anderes misst: nicht was ein Modell weiß, sondern was es selbstständig tun kann.


Der zentrale Messwert ist der sogenannte „Time Horizon" – die Aufgabendauer, bei der ein KI-Agent eine Aufgabe mit 50 % Wahrscheinlichkeit erfolgreich abschließt. Gemessen wird das mit realen Software-Aufgaben, für die Menschen typischerweise Minuten bis Stunden brauchen [METR, 2025].


Der Fokus liegt auf Sicherheitsfragen: Kann ein Modell autonom Ressourcen beschaffen? Kann es sich selbst replizieren? Kann es Aufgaben über viele Stunden hinweg ohne menschliche Aufsicht erledigen? Das ist relevant für KI-Sicherheitsforschung und für Unternehmen, die autonome KI-Agenten einsetzen wollen.


Wie schneiden aktuelle Modelle ab – und was sagen diese Zahlen wirklich?

Die Zahlen sind beeindruckend – und gleichzeitig mit Vorsicht zu genießen.


HLE: Von null auf fast fünfzig Prozent in einem Jahr

Bei der Veröffentlichung im Januar 2025 lagen alle getesteten Modelle unter 10 %: GPT-4o erreichte 3,3 %, Claude 3.5 Sonnet 4,3 %, das damalige Spitzenmodell o1 etwa 9 % [Scale AI, 2025].


Stand März 2026 führt Gemini 3.1 Pro Preview das Leaderboard mit rund 45 % an. Das ist ein beeindruckender Sprung – und gleichzeitig ein Warnsignal: Benchmarks, die als unüberwindbar galten, werden schneller gesättigt als erwartet.


Die Ersteller:innen selbst halten es für realistisch, dass Modelle noch 2025 die 50-%-Marke überschreiten [Center for AI Safety / Scale AI, 2025]. Das klingt nach einem Meilenstein. Aber HLE selbst warnt: Eine hohe Genauigkeit auf HLE würde keine autonome Forschungsfähigkeit oder „artificial general intelligence" belegen. Der Test misst strukturierte akademische Probleme – nicht offene Kreativität oder Forschung.


Dazu kommt: Schon beim Start zeigten alle Modelle systematisch hohe Kalibrierungsfehler. Das heißt: Die Modelle waren sich ihrer Antworten sehr sicher – auch wenn sie falsch lagen. Eine unabhängige Untersuchung von FutureHouse (Juli 2025) deutete außerdem darauf hin, dass rund 30 % der HLE-Antworten für Chemie- und Biologie-Fragen fehlerhaft sein könnten [FutureHouse, 2025]. Der Test selbst hat also Qualitätsprobleme.


METR: Schneller werdende Autonomie – aber noch weit von kritischen Schwellen entfernt

METR misst keine Prozentzahlen, sondern Zeitspannen. Stand Februar 2026 erreicht das beste Modell (Claude Opus 4.6) einen 50-%-Time-Horizon von knapp 14,5 Stunden [METR, 2026]. Das bedeutet: Bei Aufgaben, die Menschen etwa 14,5 Stunden kosten, gelingt dem Modell die Lösung in der Hälfte der Fälle.


Die Verdopplungszeit dieses Wertes liegt laut METR bei etwa sieben Monaten – ein exponentieller Trend, der ernstgenommen werden sollte [METR, 2025].


Für die Sicherheitsfrage gilt bisher: Keines der getesteten Modelle zeigt ausreichende Fähigkeiten zur autonomen Selbstreplikation oder zur Übernahme kritischer Systeme [METR, 2024/2025]. Aber die Kurve zeigt klar nach oben.

Benchmark

Was wird gemessen

Aktueller Spitzenwert

Für UX direkt relevant?

HLE

Akademisches Expertenwissen

~45 % (Gemini 3.1 Pro, März 2026)

Kaum

METR Time Horizon

Autonomes Handeln über Zeit

~14,5 h (Claude Opus 4.6, Feb. 2026)

Indirekt

Warum Benchmark-Scores dich als UX-Fachperson in die Irre führen können

Hier liegt der eigentliche Knackpunkt. Und ich sage das nicht, um Benchmarks kleinzureden – sondern weil ich in meiner Beratungsarbeit immer wieder erlebe, wie Entscheidungen über KI-Tool-Auswahl auf Basis von Leaderboard-Positionen getroffen werden. Das ist ungefähr so, als würde man einen Chirurgen einstellen, weil er ein Kreuzworträtsel schneller löst als andere.


Das Messproblem: Geschlossene Fragen vs. offene Kontexte

HLE testet ausschließlich Fragen mit einer eindeutigen, verifizierbaren Antwort. Das ist methodisch sauber – und für den Benchmark-Zweck auch richtig so. Aber UX-Arbeit funktioniert anders.


Wenn du ein Modell bittest, zwanzig Nutzerinterviews zu synthetisieren und die zentralen Spannungsfelder herauszuarbeiten, gibt es keine „richtige" Antwort. Wenn du UX-Writing-Varianten für eine Fehlermeldung brauchst, zählt Ton, Empathie, Kürze – nicht akademische Korrektheit. Wenn du ein Modell als Sparringspartner für Testkonzepte nutzt, braucht es die Fähigkeit, Widersprüche im Kontext zu erkennen – keine Physikformeln.

METR selbst kommt in seiner Produktivitätsstudie zu einem ernüchternden Schluss: Benchmarks überschätzen die Modellleistung, weil sie nur gut abgegrenzte, algorithmisch bewertbare Aufgaben messen [METR, 2025]. In der Realität sind die Anforderungen komplexer, die Qualitätsstandards impliziter, der Kontext umfangreicher.


Die Wahrnehmungsfalle: Wenn sich „gut anfühlen" nicht gleich „gut sein" ist

METR veröffentlichte 2025 eine randomisierte Kontrollstudie zur Produktivität erfahrener Entwickler:innen mit KI-Unterstützung. Das Ergebnis war überraschend: Die Teilnehmenden schätzten, dass KI sie um rund 24 % schneller machen würde. Nach Abschluss der Aufgaben glaubten sie, etwa 20 % schneller gewesen zu sein. Tatsächlich waren sie im Schnitt 19 % langsamer [METR, 2025].


Das ist kein Entwickler:innen-Problem. Das ist ein Wahrnehmungsproblem – und es ist zutiefst UX. Wir wissen aus der Forschung: Menschen bewerten Prozesse oft nach dem subjektiven Erlebnis, nicht nach dem Ergebnis. KI-Tools fühlen sich häufig produktiv an, weil sie schnell antworten, weil das Interface flüssig ist, weil das Ergebnis „gut genug" wirkt. Das täuscht über die tatsächliche Qualität hinweg.


Für UX-Fachleute ist das ein doppelt relevanter Befund: einmal für die eigene Tool-Nutzung, und einmal für das Design von KI-Produkten. Wer ein KI-Feature in ein Produkt integriert, sollte genau diese Lücke zwischen wahrgenommener und tatsächlicher Leistung im Blick haben.


Was UX-Fachleute stattdessen messen sollten


Wenn HLE und METR für den UX-Alltag wenig taugen – was dann? Hier sind die Dimensionen, die in meiner Arbeit wirklich zählen:


Für UX Research-Unterstützung:

Kriterium

Warum es zählt

Zusammenfassungsqualität

Verdichtet das Modell Interviewtranskripte sinnvoll, ohne Nuancen zu verlieren?

Kontexttreue

Bleibt es bei dem, was gesagt wurde – oder erfindet es plausibel klingende Ergänzungen?

Nuancenerkennung

Versteht es Ambivalenzen, Widersprüche, emotionale Untertöne?

Iterationsfähigkeit

Kann es auf Feedback reagieren und Ergebnisse gezielt verfeinern?

Halluzinationsrate

Wie häufig erfindet es Fakten – und wie erkennbar ist das?


Für UX Writing und Content:

Kriterium

Warum es zählt

Tonalität

Trifft es verschiedene Stimmungen und Markensprachen zuverlässig?

Kürze vs. Klarheit

Schreibt es prägnante Microcopy ohne Informationsverlust?

Konsistenz

Bleibt es über längere Texte stilistisch einheitlich?


Für KI-Produktdesign:

Kriterium

Warum es zählt

Fehlerverhalten

Wie reagiert das System auf unklare oder widersprüchliche Eingaben?

Transparenz

Kommuniziert es Unsicherheit ehrlich – oder täuscht es Sicherheit vor?

Erwartungsmanagement

Erzeugt es realistische Nutzererwartungen, oder lädt es zu Enttäuschungen ein?


Wie du KI-Tools für deine UX-Arbeit selbst benchmarkst

Der nützlichste Benchmark ist der, den du selbst entwickelst. Das klingt aufwendiger als es ist.


  1. Sammle 5–10 typische Prompts aus deinem Arbeitsalltag. Keine konstruierten Beispiele – echte Aufgaben, die du regelmäßig stellst. Interviewzusammenfassungen, Persona-Drafts, Testszenarien, UX-Copy-Varianten.

  2. Wähle ein Qualitätskriterium pro Aufgabe. Nicht „ist es gut?", sondern: Ist die Zusammenfassung vollständig ohne zu erfinden? Trifft der Ton die Marke? Sind die genannten Nutzerzitate korrekt zugeordnet?

  3. Teste dasselbe Prompt bei zwei bis drei Modellen und dokumentiere die Ergebnisse. Nicht einmalig – sondern als regelmäßigen Prozess, denn Modelle werden laufend aktualisiert.

  4. Achte auf Chatbot-Arena-Ergebnisse (LMArena). Dort bewerten echte Nutzer:innen blind, welches Modell besser antwortet. Das ist kein perfekter Benchmark – aber näher an der Alltagsrealität als akademische Tests.

  5. Dokumentiere deine Erfahrungen qualitativ. Wann war das Ergebnis überraschend gut? Wann hat das Modell etwas erfunden? Wann hat die Iteration nicht funktioniert? Diese Beobachtungen sind wertvoller als jede Prozentzahl auf einem Leaderboard.


FAQ: Häufige Fragen zu KI-Benchmarks und UX

Sollte ich Modelle mit hohen HLE-Scores bevorzugen?

Nicht automatisch. HLE misst akademisches Expertenwissen unter kontrollierten Bedingungen. Für UX-Aufgaben wie Interviewsynthese, UX Writing oder Testkonzeption sind andere Fähigkeiten entscheidend. Ein Modell mit mittlerem HLE-Score kann für deine spezifischen Aufgaben besser geeignet sein als der aktuelle Spitzenreiter.


Was bedeutet der METR Time Horizon für mich als UX-Fachperson?

Direkt wenig – aber indirekt ist er relevant, wenn du KI-Agenten oder autonome Features in Produkte integrierst. Der Time Horizon zeigt, wie lange ein Modell selbstständig an einer Aufgabe arbeiten kann, bevor es scheitert. Das beeinflusst, wie viel menschliche Kontrolle du einplanen musst.


Wie erkenne ich, ob ein KI-Tool für meine UX-Arbeit halluziniert?

Halluzinationen erkennt man oft nur, wenn man den Original-Input kennt. Bei Interviewzusammenfassungen: Vergleiche gezielt 2–3 konkrete Aussagen mit dem Transkript. Bei Recherche-Unterstützung: Frage das Modell nach seiner Quelle – und prüfe sie. Kein Modell ist halluzinationsfrei, aber die Rate und Erkennbarkeit variieren stark.


Wie oft sollte ich meine Tool-Auswahl überprüfen?

Mindestens vierteljährlich. Modelle werden laufend aktualisiert – manchmal verbessern sich bestimmte Fähigkeiten, manchmal verschlechtern sie sich nach einem Update. Wer einmal ein Tool gewählt hat und es nie wieder hinterfragt, arbeitet möglicherweise mit veralteten Annahmen.


Gibt es Benchmarks, die näher an der UX-Praxis sind?

Ja. Chatbot Arena (LMArena) und MT-Bench messen Konversationsqualität und Instruktionsbefolgung – das ist relevanter für UX-Aufgaben als akademische Tests. Keiner davon ist perfekt, aber sie sind ein besserer Ausgangspunkt als HLE-Scores für die Tool-Auswahl.


Fazit

HLE und METR sind wichtige Instrumente – für KI-Forscher:innen, Sicherheitsexpert:innen und Regulierungsbehörden. Für UX-Fachleute, die täglich mit KI-Tools arbeiten oder KI-Features für Nutzer:innen gestalten, sagen sie wenig über das, was wirklich zählt.


Der entscheidende Punkt: Benchmarks messen, was messbar ist – nicht was wichtig ist. Und in der UX-Arbeit ist das Wichtigste oft schwer zu quantifizieren: die Fähigkeit eines Modells, im offenen Dialog zu bleiben, Nuancen zu erkennen, ehrlich mit Unsicherheit umzugehen und auf Feedback zu reagieren.


Mein Rat: Schau dir Benchmark-Ergebnisse an, um grobe Orientierung zu bekommen. Aber baue dir eigene Mini-Benchmarks mit echten Aufgaben aus deinem Alltag. Und teste regelmäßig neu – denn die Modelle verändern sich schneller, als Leaderboards aktualisiert werden.


Was ist dein bisher bestes oder schlechtestes Erlebnis mit einem KI-Tool in der UX-Arbeit? Ich bin neugierig.


Über die Autorin

Tara Bosenick ist UX-Beraterin und Co-Inhaberin von Uintent. Seit 1999 begleitet sie Unternehmen dabei, ihre Produkte nutzerfreundlicher zu gestalten – mit fundierten Research-Methoden und einem klaren Blick für das Wesentliche. Als Speakerin auf Kongressen wie Mensch & Computer und dem World Usability Congress teilt sie ihr Wissen über UX und AI. In ihren Workshops zu UX-AI-Prompting und AI-Integration steckt, was gute UX ausmacht: klarer Nutzen, direkte Anwendbarkeit – und Spaß am Prozess.


💌 Noch nicht genug? Dann lies weiter – in unserem Newsletter.

Kommt viermal im Jahr. Bleibt länger im Kopf. https://www.uintent.com/de/newsletter

Leuchtende goldene Trophäe schwebt über einer Kluft, während darunter kleine Figuren an Nutzerforschung und Wireframes arbeiten, ohne vom Licht erreicht zu werden.

UX AI Benchmarks Verstehen: Was HLE Und METR Wirklich Über Ki-Tools Aussagen

AI & UXR

Futuristische digitale Illustration auf dunkelblauem Hintergrund: Eine menschliche Hand mit golden leuchtendem Bleistift und eine cyan-glühende Roboterhand greifen gemeinsam nach einem zentralen, strahlenden Datencluster. Umgeben von gestapelten Dokumenten und einem Netzwerk aus verbundenen Knoten symbolisiert die Szene die Zusammenarbeit von menschlicher Interpretation und digitaler Informationsverarbeitung.

NotebookLM Im UX Research: Ehrliche Einschätzung Eines Spezialisierten Ki-Tools

AI & UXR, HOW-TO, LLM

Futuristischer leuchtender Zylinder mit Segmenten, getrennt durch goldene Barrieren.

Gated Salami Prompting: Warum Du Komplexe Llm-aufgaben In Scheiben Schneiden Solltest

CHAT GPT, HOW-TO, LLM, PROMPTS

Futuristische, quadratische Illustration auf dunkelblauem Hintergrund: Eine leuchtende goldene Sprechblase zerfällt in Partikel, die sich teilweise falsch neu zusammensetzen; umgeben von Energie­bögen, Lichtknoten und einem stilisierten digitalen Kopf – Symbol für Halluzinationen von LLMs.

Erfundene Zitate, Verschwundene Nuancen: Das Halluzinationsproblem In Der Qualitativen Analyse Mit LLMs

CHAT GPT, HOW-TO, LLM, OPEN AI, PROMPTS, TOKEN, UX METHODS

Surreale futuristische Illustration eines leuchtenden digitalen Kopfes mit Datenströmen, Diagrammen und Bewertungssymbolen, die KI-Evaluationsmethoden darstellen.

Woher wissen wir, dass unser Prompt gute Arbeit leistet? Warum UX Research eine Evaluierungsmethodik für KI-gestützte Analyse braucht

AI WRITING, DIGITISATION, HOW-TO, PROMPTS

A surreal, futuristic illustration featuring a translucent human profile with a glowing brain connected by flowing data streams to a hovering, golden crystal.

Prompt-Psychologie entlarvt: Warum „Trinkgeld" für ChatGPT manchmal funktioniert

CHAT GPT, HOW-TO, LLM, UX

Surreale, futuristische Illustration einer Person von hinten in einer leuchtenden digitalen Stadtlandschaft.

System Prompts in UX Research: Was du über die unsichtbare KI-Steuerung wissen musst

PROMPTS, RESEARCH, UX, UX INSIGHTS

Abstrakte futuristische Illustration einer Person, verschiedene Videos und Notizen.

YouTube Video Zusammenfassen Mit KI: Drei Tools Im Ux-Research-Praxistest

LLM, UX, HOW-TO

zwei gefaltete Hände, die eine wachsende Pflanze halten

UX For a Better World: Wir verschenken ein UX-Forschungsprojekt an gemeinnützige Organisationen und nachhaltige Unternehmen!

UX INSIGHTS, UX FOR GOOD, TRENDS, RESEARCH

Abstrakte, futuristische Illustration eines Menschen vor einem leuchtenden Turm aus Dokumenten und Datenströmen.

KI Tools UX Research: Wie gehen diese Tools mit großen Dokumenten um?

LLM, CHAT GPT, HOW-TO

Illustration von Donald Trump mit erhobener Hand vor abstraktem, digitalem Hintergrund, der Sprachblasen und Datenstrukturen andeutet.

Donald Trump Prompt: Wie provokante KI-Prompts UX-Budgets bewegen

AI & UXR, PROMPTS, STAKEHOLDER MANAGEMENT

Blick aus der Fahrerperspektive auf eine kurvige Landstraße, umgeben von grüner Vegetation. Im Vordergrund sind Lenkrad, Armaturenbrett und Rückspiegel zu sehen.

Die letzte Hürde: Wie unsichere Automatisierung das Vertrauen in ADAS bricht

AUTOMATION, AUTOMOTIVE UX, AUTONOMOUS DRIVING, GAMIFICATION, TRENDS

Illustration einer Person an einer Weggabelung mit zwei gleichwertigen Wegen.

Ersetzt KI UX Jobs? Was eine Studie mit 200.000 KI-Konversationen wirklich zeigt

HUMAN VS AI, RESEARCH, AI & UXR

Nahaufnahme eines hochwertigen Hochtöner-Lautsprechers im Armaturenbrett eines Autos mit perforierter Metalloberfläche.

Der Beifahrer, der immer zuhört: Warum wir unseren Autos nur ungern vertrauen, wenn sie sprechen

AUTOMOTIVE UX, VOICE ASSISTANTS

Schlüsselloch in dunkler Oberfläche, das den Blick auf ein abstraktes, farbiges UX-Research-Interface freigibt.

AI Ergebnisse bewerten im UX Research: So navigierst du die Blackbox

AI & UXR, HOW-TO, HUMAN VS AI

Ein von Audi hergestelltes Fahrzeugcockpit. Es verfügt über ein digitales Display und zahlreiche Tasten am Lenkrad.

Haptische Gewissheit vs. digitale Verlockung: Der Kampf um die besten Bedienelemente im Auto

AUTOMOTIVE UX, AUTONOMOUS DRIVING, CONNECTIVITY, GAMIFICATION

Digitale Illustration einer klassischen Gebäudefassade mit Säulen, gestützt von sichtbarem Gerüst, symbolisiert eine fragile, rein oberflächliche Fassade.

UX & AI: Wie „Ux Potemkin“ Deine Research- UND Design-Entscheidungen Untergräbt

AI & UXR, HUMAN VS AI, LLM, UX

Silhouette eines Tauchers, der ruhig in tiefblaues Wasser hinabtaucht – Symbol für tiefgehende Recherche.

Deep Research KI | So nutzt Du ChatGPT sinnvoll für UX-Arbeit

CHAT GPT, HOW-TO, RESEARCH, AI & UXR

Ein:e Schiedsrichter:in hält eine Bewertungstafel mit der Aufschrift „Yupp.ai“ zwischen zwei stilisierten KI-Chatbots in einem Boxring hoch – Symbolbild für den fairen Vergleich von KI-Modellen durch Nutzer:innen.

Wie Yupp Feedback nutzt, um KI-Modelle fair zu bewerten – und was UX-Profis daraus lernen können

AI & UXR, CHAT GPT, HUMAN VS AI, LLM

Auf einem kleinen Tisch liegt ein braunes Buch mit dem Titel „Don't Make Me Think“ von Steve Krug. Licht scheint durch das Fenster.

Warum UX Research seine Glaubwürdigkeit verliert und wie wir sie zurückgewinnen

UX, UX QUALITY, UX METHODS

 VERWANDTE ARTIKEL DIE SIE INTERESSIEREN KÖNNTEN 

AUTHOR

Tara Bosenick

Tara ist seit 1999 als UX-Spezialistin tätig und hat die Branche in Deutschland auf Agenturseite mit aufgebaut und geprägt. Sie ist spezialisiert auf die Entwicklung neuer UX-Methoden, die Quantifizierung von UX und die Einführung von UX in Unternehmen.


Gleichzeitig war sie immer daran interessiert, in ihren Unternehmen eine möglichst „coole“ Unternehmenskultur zu entwickeln, in der Spaß, Leistung, Teamgeist und Kundenerfolg miteinander verknüpft sind. Seit mehreren Jahren unterstützt sie daher Führungskräfte und Unternehmen auf dem Weg zu mehr New Work / Agilität und einem besseren Mitarbeitererlebnis.


Sie ist eine der führenden Stimmen in der UX-, CX- und Employee Experience-Branche.

bottom of page