top of page
uintent Firmenlogo

LLM, UX, HOW-TO

YouTube Video Zusammenfassen Mit KI: Drei Tools Im Ux-Research-Praxistest


4

MIN

5. Feb. 2026

Kennst du das? Du recherchierst zu einem UX-Thema, findest einen vielversprechenden Konferenz-Talk auf YouTube – und er dauert 47 Minuten. Multipliziere das mit zehn Videos, und dein Nachmittag ist gelaufen.


Als UX-Beraterin arbeite ich seit 1999 mit qualitativen und quantitativen Forschungsmethoden. Desk Research gehört zum Alltag. Und ja, ich habe schon unzählige Stunden damit verbracht, Videos zu sichten, die am Ende nur zwei relevante Minuten enthielten.


Seit Google Anfang 2025 mit Gemini 2.0 eine native YouTube-Zusammenfassungsfunktion eingeführt hat, wollte ich wissen: Können KI-Tools mir hier wirklich Arbeit abnehmen? Und wenn ja – welches taugt für den professionellen Einsatz im UX-Research?


Dieser Artikel liefert dir einen ehrlichen Praxistest von drei Tools:

Google GeminiNoteGPT und WayInVideo. Du erfährst, wie zuverlässig sie YouTube-Videos zusammenfassen, wo ihre Grenzen liegen und wie du sie konkret in deinen Research-Workflow einbauen kannst.


📌 Das Wichtigste in Kürze

  • Google Gemini eignet sich am besten für schnelles Screening vieler Videos – kostenlos und direkt nutzbar.

  • NoteGPT liefert die detailliertesten Ergebnisse mit Zeitstempeln und Zitaten – ideal für Dokumentation.

  • WayInVideo visualisiert und ordnet Inhalte zusätzlich als Mindmap – praktisch für Präsentationen und Synthese.

  • Alle drei Tools erfassen dieselben Kernpunkte zuverlässig – die Unterschiede liegen in Format und Tiefe.

  • Für vertrauliche Research-Videos (Interviews, Usability-Tests) sind diese Tools nicht geeignet – Datenschutz beachten!

  • Der größte Mehrwert entsteht durch kombinierten Einsatz: Screening → Tiefenanalyse → Visualisierung.

  • KI fasst zusammen, aber interpretiert nicht – das "So what?" bleibt deine Aufgabe.


Die drei Kandidaten: Was können sie?

Bevor wir in den Test einsteigen, ein kurzer Überblick über die Tools. Alle drei nutzen Large Language Models, um YouTube-Videos zu analysieren und zusammenzufassen – aber auf unterschiedliche Weise.


Google Gemini – Der integrierte Allrounder

Gemini ist Googles KI-Assistent und seit Februar 2025 mit einer YouTube-Analysefunktion ausgestattet. Du aktivierst die YouTube-Extension in den Einstellungen, fügst einen Video-Link ein und bittest Gemini um eine Zusammenfassung. Das Ganze ist kostenlos und funktioniert direkt im Browser oder der App.


Einschränkung: Gemini benötigt Videos mit Untertiteln und unterstützt offiziell Englisch, Japanisch und Koreanisch. Deutsch funktioniert in der Praxis aber ebenfalls – wie mein Test zeigt.


NoteGPT – Der Dokumentations-Spezialist

NoteGPT ist eine Chrome-Extension und Web-App, die auf detaillierte Zusammenfassungen spezialisiert ist. Das Tool generiert nicht nur Text, sondern auch Zeitstempel-Tabellen, Glossare und Zitate. Die Basisversion ist kostenlos, erweiterte Funktionen kosten ab etwa 2 Euro pro Monat.


Besonderheit: NoteGPT integriert KI-gestützte Notizfunktionen direkt in den Workflow – praktisch, wenn du Erkenntnisse direkt weiterverarbeiten willst.


WayInVideo – Der Visualisierer

WayInVideo geht einen anderen Weg: Statt Fließtext liefert das Tool eine Zeitstempel Zusammenfassung und eine interaktive Mindmap. Jeder Zweig enthält Kernaussagen mit Zeitstempeln, sodass du die Struktur eines Videos auf einen Blick erfassen kannst. Die Basis-Nutzung ist kostenlos.


Besonderheit: Das Tool analysiert nicht nur Audio, sondern auch On-Screen-Text und visuelle Elemente – theoretisch auch bei Videos ohne Untertitel.


Der Praxistest: Ein Video, drei Ergebnisse

Für einen aussagekräftigen Vergleich brauchte ich ein Video, das typische Herausforderungen mitbringt: mehrere Sprecher:innen, komplexe Argumentation, verschiedene Positionen – und Deutsch als Sprache.


Meine Wahl fiel auf eine 35-minütige Diskussionsrunde zum Thema "Smartphone-Verbote in Schulen" vom Format "13 Fragen". Das Video hat sechs Diskussionsteilnehmer:innen mit unterschiedlichen Perspektiven (Schüler:innen, ehemalige Schulleitung, Medienpädagog:innen) und endet mit zwei Kompromissvorschlägen.


Perfekt, um zu testen: Erfassen die Tools die Nuancen? Ordnen sie Aussagen den richtigen Personen zu? Und wie strukturieren sie die Ergebnisse?


Die Ergebnisse im Vergleich

Kriterium

Google Gemini

NoteGPT

WayInVideo

Vollständigkeit

Gut

Sehr detailliert

Gut

Struktur

Pro/Contra klar getrennt

Chronologisch, etwas lang

Visuell hierarchisch

Zeitstempel

Bei Kernaussagen

Durchgängig

An jedem Branch

Sprecherzuordnung

Namen + Rollen korrekt

Namen genannt

Weniger prominent

Sofortige Nutzbarkeit

Direkt verwendbar

Eher für Archiv

Gut für Präsentationen


Was mir aufgefallen ist

Gemini überraschte mich positiv. Die Zusammenfassung war nicht nur korrekt, sondern auch clever strukturiert: Pro-Argumente, Contra-Argumente, Kompromissvorschläge – exakt so, wie das Diskussionsformat aufgebaut war. Die Teilnehmer:innen wurden mit Namen und Rollen genannt ("Schülerin Lena", "ehemalige Schulleiterin Silke"). Für ein schnelles Briefing würde ich sofort zu Gemini greifen.


NoteGPT lieferte das umfangreichste Ergebnis: Zusammenfassung nach Zeitabschnitten, eine Timeline-Tabelle, ein Glossar mit Begriffserklärungen (z.B. "Cybermobbing", "Medienkompetenz") und sogar "Key Quotes" aus dem Video. Für akademische Zwecke oder wenn ich später auf das Video zurückgreifen will, ist das Gold wert. Für den Alltag fast zu viel.


WayInVideo produzierte eine Mindmap, die die Argumentationslinien visuell abbildet. Auf einen Blick sehe ich die Hauptthemen und kann in die Zweige eintauchen. Allerdings fehlt etwas Kontext – wer was gesagt hat, erschließt sich nicht so leicht wie bei Gemini.


Das Wichtigste: Alle drei lagen inhaltlich richtig

Die Kernpunkte waren bei allen Tools identisch: Suchtgefahr, Schutzraum Schule, Medienkompetenz, Cybermobbing, die zwei Kompromissvorschläge am Ende. Das gibt mir Vertrauen in die grundsätzliche Zuverlässigkeit.


Welches Tool für welchen Zweck?

Nach meinem Test kristallisieren sich klare Anwendungsfälle heraus:


Für schnelles Screening: Google Gemini

Du willst zehn Konferenz-Talks zu einem Thema sichten und die drei relevantesten identifizieren? Gemini ist dein Werkzeug. Kostenlos, schnell, gut strukturiert. In meiner Arbeit nutze ich das inzwischen regelmäßig, bevor ich mir Videos komplett anschaue.


Für Dokumentation und Recherche: NoteGPT

Du brauchst zitierfähige Aussagen mit Zeitstempeln für einen Report? Du willst später auf ein Video zurückgreifen können? NoteGPT liefert die Tiefe, die du brauchst. Die Timeline-Tabelle ist besonders praktisch, wenn Stakeholder fragen: "Wo genau wurde das gesagt?"


Für Visualisierung und Synthese: WayInVideo

Du willst Erkenntnisse aus mehreren Videos zusammenführen oder in einem Workshop präsentieren? Die Mindmap von WayInVideo eignet sich als Diskussionsgrundlage oder Ausgangspunkt für Affinity Mapping.


YouTube-Zusammenfassungen im UX-Research: Konkrete Anwendungsfälle

Jetzt wird's praktisch. Hier sind vier Szenarien, in denen ich KI-Video-Summarizer im UX-Kontext sinnvoll einsetze – und wo ich die Finger davon lasse.


1. Desk Research und Sekundärforschung

Das Szenario: Du recherchierst zu einem neuen Thema – sagen wir "Voice UI Design" – und findest auf YouTube Dutzende Talks von der NN/g Conference, dem UXcamp oder UXPA-Events.


Der Workflow:

  1. Sammle relevante Video-URLs

  2. Lasse Gemini Kurzzusammenfassungen erstellen (5 Minuten statt 5 Stunden)

  3. Identifiziere die 2-3 Videos mit den relevantesten Inhalten

  4. Schaue diese komplett oder nutze NoteGPT für detaillierte Notizen


Mein Tipp: Bei Konferenz-Talks mit klarer Struktur (Intro, Hauptteil, Fazit) funktionieren die Tools am besten. Bei Panel-Diskussionen mit viel Hin und Her kann es unübersichtlicher werden.


2. Wettbewerbsanalyse

Das Szenario: Ein Wettbewerber hat ein neues Feature vorgestellt. Du willst verstehen, wie sie es positionieren und welche Pain Points sie adressieren.


Der Workflow:

  1. Produktvorstellungen, Webinare oder Reviews des Wettbewerbers sammeln

  2. Zusammenfassungen erstellen lassen

  3. Aussagen zu Features, USPs und Nutzenversprechen extrahieren

  4. In Feature-Matrix oder Competitive Analysis übertragen


Achtung: KI-Zusammenfassungen geben dir die Fakten, aber keine Interpretation. Die Frage "Was bedeutet das für uns?" musst du selbst beantworten.


3. User-Generated Content analysieren

Das Szenario: Du willst verstehen, wie deine Zielgruppe ein Thema erlebt. Auf YouTube gibt es "Day in the Life"-Videos, Tutorials oder Erfahrungsberichte.


Der Workflow:

  1. Relevante Videos identifizieren

  2. WayInVideo für Themenstruktur nutzen

  3. NoteGPT für wörtliche Zitate (authentische User-Stimmen!)

  4. Muster über mehrere Videos hinweg erkennen


Vorsicht: User-Generated Content ist oft unstrukturiert, springt zwischen Themen, hat Nebensächlichkeiten. Die Tools liefern hier weniger zuverlässige Ergebnisse als bei professionellen Talks.


4. Wo ich die Tools NICHT einsetze

Eigene Research-Videos (Interviews, Usability-Tests): Die hier vorgestellten Tools sind für öffentliche YouTube-Videos konzipiert. Vertrauliche Forschungsdaten gehören nicht auf externe Server.


Die Grenzen: Was die Tools nicht können

Ich will hier ehrlich sein, denn überzogene Erwartungen helfen niemandem:


Keine Interpretation: Die Tools fassen zusammen, aber sie analysieren nicht. "Diese Aussage widerspricht der gängigen UX-Praxis" – solche Einordnungen bekommst du nicht.


Kontextverlust: Tonfall, Zögern, Körpersprache, Ironie – all das geht verloren. Bei Interviews ist das ein echtes Problem.


Qualitätsschwankung: Je unstrukturierter das Video, desto unzuverlässiger das Ergebnis. Ein TED-Talk funktioniert besser als ein Livestream mit Chatverlauf.


Sprachbarrieren: Englisch funktioniert am besten. Deutsch geht, aber mit gelegentlichen Aussetzern. Andere Sprachen habe ich nicht getestet.


Kein Ersatz für Primärforschung: Sekundärquellen bleiben Sekundärquellen. Für echte Nutzererkenntnisse brauchst du echte Nutzer:innen.


FAQ: Häufige Fragen

Sind diese Tools kostenlos?

Gemini ist komplett kostenlos. NoteGPT und WayInVideo haben kostenlose Basisversionen mit Einschränkungen (z.B. Anzahl Videos pro Tag). Für regelmäßige Nutzung lohnen sich die günstigen Pro-Versionen.


Funktionieren die Tools auch mit deutschen Videos?

Ja, alle drei haben in meinem Test mit einem deutschsprachigen Video funktioniert. Die Ergebnisse waren inhaltlich korrekt, auch wenn Gemini offiziell nur Englisch, Japanisch und Koreanisch nennt.


Kann ich die Tools für meine User-Interviews nutzen?

Davon rate ich ab. Diese Tools verarbeiten Inhalte auf externen Servern. Für vertrauliche Forschungsdaten nutze lieber spezialisierte Research-Tools.


Wie genau sind die Zusammenfassungen?

In meinem Test erfassten alle drei Tools die Kernpunkte korrekt. Fehler gab es eher bei Nuancen oder wenn mehrere Sprecher:innen schnell wechselten. Ich empfehle, bei wichtigen Aussagen über die Zeitstempel im Original zu verifizieren.


Welches Tool soll ich zuerst ausprobieren?

Starte mit Gemini – kostenlos, kein Account nötig, direkt nutzbar. Wenn du merkst, dass du mehr Tiefe brauchst, teste NoteGPT.


Fazit: Ein sinnvolles Werkzeug im Research-Arsenal

YouTube-Videos mit KI zusammenzufassen ist keine Revolution, aber eine spürbare Arbeitserleichterung. Für Desk Research, Wettbewerbsanalysen und das Screening von Konferenz-Content haben sich die Tools in meinem Alltag bewährt.


Meine Empfehlung in Kurzform:

  • Gemini für den Einstieg und schnelles Screening

  • NoteGPT wenn Dokumentation und Nachvollziehbarkeit wichtig sind

  • WayInVideo wenn du Inhalte visualisieren oder präsentieren willst


Probier es aus – am besten mit einem Video, dessen Inhalt du schon kennst. So kannst du selbst einschätzen, wie zuverlässig die Zusammenfassung ist.


Und vergiss nicht: Die Tools liefern Zusammenfassungen, keine Insights. Das Denken nehmen sie dir nicht ab – aber sie verschaffen dir mehr Zeit dafür.


💌 Noch nicht genug? Dann lies weiter – in unserem Newsletter.

Kommt viermal im Jahr. Bleibt länger im Kopf.  https://www.uintent.com/de/newsletter


Hast du eigene Erfahrungen mit KI-Video-Summarizern im Research-Kontext? Ich freue mich über Austausch – schreib mir gern.


Weiterführende Ressourcen:

Stand Februar 2026


Abstrakte futuristische Illustration einer Person, verschiedene Videos und Notizen.

YouTube Video Zusammenfassen Mit KI: Drei Tools Im Ux-Research-Praxistest

LLM, UX, HOW-TO

zwei gefaltete Hände, die eine wachsende Pflanze halten

UX For a Better World: Wir verschenken ein UX-Forschungsprojekt an gemeinnützige Organisationen und nachhaltige Unternehmen!

UX INSIGHTS, UX FOR GOOD, TRENDS, RESEARCH

Abstrakte, futuristische Illustration eines Menschen vor einem leuchtenden Turm aus Dokumenten und Datenströmen.

KI Tools UX Research: Wie gehen diese Tools mit großen Dokumenten um?

LLM, CHAT GPT, HOW-TO

Illustration von Donald Trump mit erhobener Hand vor abstraktem, digitalem Hintergrund, der Sprachblasen und Datenstrukturen andeutet.

Donald Trump Prompt: Wie provokante KI-Prompts UX-Budgets bewegen

AI & UXR, PROMPTS, STAKEHOLDER MANAGEMENT

Blick aus der Fahrerperspektive auf eine kurvige Landstraße, umgeben von grüner Vegetation. Im Vordergrund sind Lenkrad, Armaturenbrett und Rückspiegel zu sehen.

Die letzte Hürde: Wie unsichere Automatisierung das Vertrauen in ADAS bricht

AUTOMATION, AUTOMOTIVE UX, AUTONOMOUS DRIVING, GAMIFICATION, TRENDS

Illustration einer Person an einer Weggabelung mit zwei gleichwertigen Wegen.

Ersetzt KI UX Jobs? Was eine Studie mit 200.000 KI-Konversationen wirklich zeigt

HUMAN VS AI, RESEARCH, AI & UXR

Nahaufnahme eines hochwertigen Hochtöner-Lautsprechers im Armaturenbrett eines Autos mit perforierter Metalloberfläche.

Der Beifahrer, der immer zuhört: Warum wir unseren Autos nur ungern vertrauen, wenn sie sprechen

AUTOMOTIVE UX, VOICE ASSISTANTS

Schlüsselloch in dunkler Oberfläche, das den Blick auf ein abstraktes, farbiges UX-Research-Interface freigibt.

AI Ergebnisse bewerten im UX Research: So navigierst du die Blackbox

AI & UXR, HOW-TO, HUMAN VS AI

Ein von Audi hergestelltes Fahrzeugcockpit. Es verfügt über ein digitales Display und zahlreiche Tasten am Lenkrad.

Haptische Gewissheit vs. digitale Verlockung: Der Kampf um die besten Bedienelemente im Auto

AUTOMOTIVE UX, AUTONOMOUS DRIVING, CONNECTIVITY, GAMIFICATION

Digitale Illustration einer klassischen Gebäudefassade mit Säulen, gestützt von sichtbarem Gerüst, symbolisiert eine fragile, rein oberflächliche Fassade.

UX & AI: Wie „Ux Potemkin“ Deine Research- UND Design-Entscheidungen Untergräbt

AI & UXR, HUMAN VS AI, LLM, UX

Silhouette eines Tauchers, der ruhig in tiefblaues Wasser hinabtaucht – Symbol für tiefgehende Recherche.

Deep Research KI | So nutzt Du ChatGPT sinnvoll für UX-Arbeit

CHAT GPT, HOW-TO, RESEARCH, AI & UXR

Ein:e Schiedsrichter:in hält eine Bewertungstafel mit der Aufschrift „Yupp.ai“ zwischen zwei stilisierten KI-Chatbots in einem Boxring hoch – Symbolbild für den fairen Vergleich von KI-Modellen durch Nutzer:innen.

Wie Yupp Feedback nutzt, um KI-Modelle fair zu bewerten – und was UX-Profis daraus lernen können

AI & UXR, CHAT GPT, HUMAN VS AI, LLM

Auf einem kleinen Tisch liegt ein braunes Buch mit dem Titel „Don't Make Me Think“ von Steve Krug. Licht scheint durch das Fenster.

Warum UX Research seine Glaubwürdigkeit verliert und wie wir sie zurückgewinnen

UX, UX QUALITY, UX METHODS

3D-Illustration eines digitalen Marktplatzes mit bunten Marktständen voller Prompt-Karten und einer Figur, die einen Prompt auswählt.

Prompts kaufen, teilen, verkaufen – was Prompt-Marktplätze heute leisten (und warum das für UX relevant ist)

AI & UXR, PROMPTS

Roboter hält zwei Schilder hoch: „ISO 9241 – 7 Prinzipien“ und „ISO 9241 – 10 Prinzipien“.

ChatGPT halluziniert – trotz Anti-Halluzinations-Prompt

AI & UXR, HUMAN VS AI, CHAT GPT

Erdbeere wird von einem Messer halbiert, stilisierte Illustration.

Warum KI manchmal nicht bis 3 zählen kann – und was das mit Tokens zu tun hat

AI & UXR, TOKEN, LLM

Quadratisches, in der Mitte geteiltes Motiv: Links ein graues, stilisiertes Gehirn über einer sitzenden Person am Laptop in dunklen Grautönen; rechts ein leuchtend blaues, vernetztes Gehirn über einer stehenden Person vor einem holografischen Interface auf dunklem Hintergrund.

GPT-5 ist da: Verändert diese UX AI wirklich alles für Researcher:innen?

AI & UXR, CHAT GPT

Surreales KI-Bild mit Datenströmen, durchgestrichenem „User Expirince“ und dem Text „ChatGPT kann jetzt Text in Bild“.

Wenn KI Bilder malt und plötzlich richtig schreiben kann

AI & UXR, CHAT GPT, HUMAN VS AI

Mensch und KI arbeiten gemeinsam an einem leuchtenden Baum auf dem Bildschirm, umgeben von dunkler, surrealer Atmosphäre.

Wenn der Text zu glatt ist: Wie man KI-Sprache menschlicher macht

AI & UXR, AI WRITING, CHAT GPT, HUMAN VS AI

Futuristische Illustration: Mensch blickt auf leuchtende, humanoide KI vor digitalem Hintergrund.

Kein Science Fiction – KI macht sich selbstständig

AI & UXR, CHAT GPT

 VERWANDTE ARTIKEL DIE SIE INTERESSIEREN KÖNNTEN 

AUTHOR

Tara Bosenick

bottom of page