In gespeicherten Videos suchen: der komplette 2026-Guide
guides

In gespeicherten Videos suchen: der komplette 2026-Guide

In gespeicherten Videos nach dem suchen, was tatsächlich gesagt wurde — über YouTube, Instagram und TikTok hinweg. Wie Transkriptsuche 2026 funktioniert und vier Tools, die es können.

SavedThat team11 min read

Vor sechs Monaten hast du ein tolles YouTube-Interview gesehen. Jemand hat etwas gesagt, das hängengeblieben ist — ein konkreter Satz zu Pricing-Strategie oder eine bestimmte Studie, auf die verwiesen wurde. Jetzt brauchst du es. Du öffnest deine «Später ansehen»-Liste und scrollst. Vorbei an 200 Videos. Vorbei an Dutzenden Koch-Clips, die du aus Versehen gespeichert hast. Das Video ist irgendwo da, du kannst nur nicht sagen, welches.

Genau das ist der Failure Mode, den jedes Video-Lesezeichen-Tool hat, seit YouTube 2005 den Favorites-Button rausgebracht hat. Lesezeichen speichern die URL. Sie speichern nicht, was gesagt wurde. Sie zu durchsuchen heißt, Titel zu durchsuchen — und Titel sind SEO-optimierte Marketing-Slogans, nicht das, worum es im Video wirklich geht.

2026 geht es besser. Die Technologie, um in den gesprochenen Inhalten jedes gespeicherten Videos zu suchen — über YouTube, Instagram Reels und TikTok, in beliebiger Sprache — ist mittlerweile Commodity. Dieser Guide erklärt, wie es funktioniert, welche vier Tools es 2026 wirklich können und wie du den Workflow end-to-end aufsetzt.

Warum du heute nicht in gespeicherten Videos suchen kannst

Drei Dinge arbeiten gegen dich.

Titel sind kein Inhalt. Ein 90-minütiger Podcast über «Wie wir ein Business mit 40 Mio. ARR aufgebaut haben» wurde vielleicht nur gespeichert, weil die dritte Frage der Moderatorin — bei Minute 38 — das Einzige war, was du brauchtest. Der Titel weiß das nicht. Genauso wenig wie irgendein Tag, den du beim Speichern realistisch vergeben würdest.

Die Erinnerung daran, wo du es gesehen hast, zerfällt schnell. Das ist die gut dokumentierte Lücke zwischen Wiedererkennen und Erinnern (NN/g zu Recognition vs. Recall): du wirst das Zitat wiedererkennen, wenn du es wieder siehst, aber dich nicht erinnern, auf welcher Plattform es lag. Ein paar Wochen später war dieses «YouTube-Interview» tatsächlich ein Reel, und dein Plattform-für-Plattform-Suchritual scheitert leise.

Transkripte existieren, sind aber verstreut. Die überwältigende Mehrheit der YouTube-Uploads in den großen Sprachen hat Untertitel, nativ oder automatisch generiert. Instagram und TikTok generieren sie zur Wiedergabezeit. Die Transkripte sind öffentlich. Aber jede Plattform zwingt dich, jeweils ein Video nach dem anderen zu durchsuchen — nachdem du das Video schon geöffnet hast. Also genau dann, wenn du noch nicht weißt, welches Video du öffnen sollst.

Was «in gespeicherten Videos suchen» 2026 wirklich bedeutet

Zwei verschiedene Techniken sind heute Mainstream, und die meisten modernen Tools kombinieren beide:

Volltextsuche (FTS). Der klassische Ansatz: jedes Wort des Transkripts indexieren, dann den Query als wörtlichen Substring oder Token matchen. Schnell, deterministisch, leicht zu erklären. Versagt, wenn der Nutzer sich an die Idee erinnert, aber andere Worte verwendet. Wenn du nach «Wie hoch sind die Akquisekosten» suchst, der Sprecher aber «Wie viel zahlen wir, um einen neuen Kunden zu gewinnen» gesagt hat, findet FTS das nicht.

Semantische Suche per Vector Embeddings. Jeder Chunk eines Transkripts wird durch ein Modell wie OpenAIs text-embedding-3-small in einen 768- oder 1536-dimensionalen Vektor umgewandelt. Dein Query wird in den gleichen Vektor-Typ umgewandelt. Das System gibt Chunks zurück, deren Vektoren in der Cosine Distance am nächsten sind. Das funktioniert über Formulierungen hinweg, über Sprachen hinweg, und sogar dann, wenn der Sprecher Jargon verwendet hat, den du nie gehört hast.

State of the Art im Mai 2026 ist die hybride Suche mit Reciprocal Rank Fusion (RRF): FTS und semantische Suche parallel laufen lassen, dann die Rankings zusammenführen. Tools, die hybrides Retrieval ausliefern, schlagen Single-Method-Tools in Head-to-Head-Evaluationen konsistent (Microsoft Research, 2024), weil die beiden Methoden unterschiedliche Failure Modes fangen — FTS holt exakten Phrase Recall ab, semantische Suche fängt paraphrasierte Absicht.

Die vier Tools, die das 2026 machen

Es gibt unzählige «Speichere Videos»-Apps. Tools, die wirklich Transkript-Inhalte durchsuchen, sind eine kleine Menge. Hier der ehrliche Vergleich.

ToolSuchtypPlattformenFree-TarifAb
SavedThatHybrid (semantisch + FTS, RRF)YouTube, Instagram, TikTok30 Saves/Monat$6.99/Monat
GlaspFTS über HighlightsNur YouTubeUnbegrenzte Highlights$0
MemSemantisch, beliebige InhalteNur manuelles EinfügenTrial$8.33/Monat
DIY (Whisper + pgvector)Hybrid, baust du selbstWas immer du skriptestKostenlos, self-hostedCompute-Kosten

Jedes optimiert für etwas anderes.

SavedThat — Lesezeichen-first, Suche-nativ

Gebaut um: den Moment, in dem du ein Video speicherst. Du fügst eine YouTube-/Instagram-/TikTok-URL ein, das System holt das Transkript, chunkt es in ~18-Sekunden-Fenster mit 5-Sekunden-Overlap, embeddet jeden Chunk und indexiert sowohl die Vektoren als auch den Volltext. Die Suche über deine Bibliothek liefert den exakten Moment mit einem Deep Link zu diesem Zeitstempel auf der Originalplattform.

Stärken: das einzige der vier Tools, das alle drei Short-Video-Plattformen abdeckt. Cross-User-Dedup heißt: wenn du ein Video speicherst, das jemand anders schon gespeichert hat, ist deine Bibliothek sofort aktuell — ohne zusätzliche Credit-Kosten. Hybrides Retrieval ist Default, nicht Upgrade-Tier.

Trade-offs: du zahlst für Transkriptions-Credits bei Instagram und TikTok (YouTube-Transkripte kosten nichts beim Abruf). Der Free-Tarif gibt dir 30 Saves pro Monat — genug zum Ausprobieren, aber knapp, wenn du viel speicherst.

Glasp — für die YouTube-Highlights-Fraktion

Gebaut um: den aktiven Leser, der mit Absicht schaut. Glasp lässt dich konkrete Sätze in YouTube-Transkripten markieren, während du schaust, und dann nur über diese Highlights suchen. Es ist seit dem Launch 2021 das dominante Tool für den Highlights-Workflow.

Stärken: kostenlos, funktioniert ohne Account für Einmal-Exports, integriert mit Readwise.

Trade-offs: nur YouTube — kein Instagram, kein TikTok. Suche ist Keyword über Highlights, nicht über das volle Transkript — nicht markierte Momente sind unsichtbar. Du musst aktiv markieren; passive Saves bekommen den Such-Benefit nicht.

Mem — semantisch, aber das Speichern machst du selbst

Gebaut um: den AI-first Notiz-Nehmer. Mem schluckt alles, was du einfügst — auch YouTube-Transkripte — und lässt semantische Suche darüber laufen, via OpenAI-Embeddings.

Stärken: der breiteste Content-Scope. Wenn deine Video-Lesezeichen mit Notizen, Artikeln und Slack-Messages auf einer durchsuchbaren Oberfläche koexistieren, ist Mem die sauberste Antwort.

Trade-offs: keine Plattform-Integrationen. Das Transkript fügst du selbst ein, manuell. Für Prosumer, die wirklich 50+ Videos im Monat speichern, ist das eine Reibung, die die Mathematik nicht überlebt.

DIY — Whisper + pgvector

Gebaut um: den Entwickler, der dasselbe ohne SaaS-Abo will. Lass Whisper lokal laufen, um zu transkribieren, lege Chunks in pgvector auf einer Postgres-Instanz unter deiner Kontrolle ab, expose einen Such-Endpoint. Total Bill of Materials: ein Mac mini, Docker und ~10 Stunden Plumbing.

Stärken: totale Kontrolle, keine wiederkehrenden Ausgaben, unbegrenzte Saves.

Trade-offs: unbegrenzte Saves für dich — Teilen oder mobil zugreifen heißt mehr Plumbing. Whisper ist exzellent für Englisch, wird bei Russisch / Hindi / Arabisch aber deutlich schlechter im Vergleich zu kommerziellen APIs, die für diese Sprachen feingetunt wurden. Und jede neue Plattform (Instagram hat im März 2026 eine redesignte Reels-API eingeführt; TikTok hat im letzten Jahr zweimal das Watermark-Format rotiert) ist ein Wartungs-Ticket.

Schritt für Schritt: Transkriptsuche mit SavedThat einrichten

Acht Minuten von der Registrierung bis zum ersten gesuchten-und-gefundenen Moment.

1. Registrieren und Empty State überspringen

Öffne savedthat.app und registriere dich per E-Mail oder Google. Das Onboarding-Overlay zeigt ein Eingabefeld — wirf deine erste URL rein oder klick Try with a demo video, um einen vorbereiteten 3-Minuten-Clip zu laden. Du brauchst keine Kreditkarte, und der Free-Tarif ist zeitlich unbegrenzt (nur auf 30 Saves pro Monat gedeckelt).

2. Video-URL einfügen

Das Eingabefeld nimmt jedes dieser Formate an:

Klick Save. Das Video landet in deiner Bibliothek innerhalb von ~10 Sekunden für YouTube (Transkript-Fetch ist schnell), 30–60 Sekunden für Instagram und TikTok (Audio-Transkription dauert länger). Wenn jemand anders genau diese URL schon gespeichert hat, erscheint deine sofort — wir teilen das indexierte Transkript zwischen Nutzern.

3. Nach dem suchen, was gesagt wurde

Sobald du mindestens ein Video hast, nimmt das Ask-Feld oben in der Bibliothek freie Textanfragen entgegen. Probier mal eine davon, um den Unterschied zwischen Keyword und Semantik zu sehen:

Jedes Ergebnis zeigt das exakte Zitat, den Zeitstempel und einen Deep Link, der das Originalvideo bei dieser Sekunde auf der richtigen Plattform öffnet.

Wenn du einen Moment findest, der sich zu behalten oder zu teilen lohnt, klick Share auf dem Ergebnis. SavedThat erzeugt eine Kurz-URL wie savedthat.app/s/abc123, die das Originalvideo direkt am Zeitstempel öffnet — der Empfänger braucht keinen SavedThat-Account.

Randfälle, die man kennen sollte

Videos ohne Transkript. YouTube hat Untertitel für ~84% der Uploads. Instagram/TikTok generieren aus dem Audio. Wenn weder das eine noch das andere funktioniert (selten, hauptsächlich Musikvideos und stille Montagen), erscheint das Save trotzdem in deiner Bibliothek mit Titel und Thumbnail — es ist nur nicht durchsuchbar, bis ein Transkript verfügbar wird. Free-Tarif-Saves zählen das nicht gegen dein Kontingent.

Mehrsprachige Videos. Hybride Suche ist mehrsprachig auf der Vektor-Schicht, weil OpenAIs Embedding-Modell auf 100+ Sprachen trainiert wurde. Die Volltext-Komponente macht Sprach-Erkennung pro Chunk und nutzt Postgres' tsvector mit der passenden Sprachkonfiguration. Ein Query auf Russisch gegen ein englisches Transkript trifft trotzdem semantische Matches; der FTS-Bonus greift nur, wenn die Query-Sprache mit der Chunk-Sprache übereinstimmt.

Lange Videos. Ein 4-Stunden-Podcast wird zu 800+ Chunks. SavedThat deckelt Einzel-Video-Länge auf 1h im Free-Tarif, 2h auf Pro, 3h auf Power — darüber hinaus würden wir Transkriptionskosten zahlen, die in der Consumer-Pricing-Logik nicht skalieren. Die Performance der hybriden Suche bleibt unter 200ms, auch bei Bibliotheken mit 50K+ Chunks, weil wir HNSW-Indexing auf halfvec(768)-Embeddings nutzen.

Privatsphäre. Transkripte und deine Save-Liste leben standardmäßig in deiner privaten Bibliothek. Nichts wird geteilt, solange du nicht explizit einen Share-Link erzeugst.

Das ehrliche Urteil: welches Transkriptsuche-Tool soll man nehmen

Wenn du mehr als fünf Videos im Monat speicherst und mindestens einmal im Quartal denkst «ich weiß, dass ich das irgendwo gesehen habe» — SavedThat ist für dich gebaut und das einzige der vier Tools mit First-Class-Support für Instagram und TikTok. Wenn du YouTube-only bist, Highlights magst und gern annotierst, ist Glasp super und kostenlos. Wenn du Mem-Power-User bist und schon dort lebst, füg die Transkripte ein und bleib da. Wenn du Entwickler bist und Plumbing magst, ist der DIY-Stack ehrliche Arbeit.

Egal was du wählst, die Ära von «ich hab das irgendwo gespeichert» endet. Such in den Videos, nicht drum herum.

Keep reading

Frequently asked questions (2026)

Lässt YouTube dich nicht selbst in gespeicherten Videos suchen?

YouTubes native Suche matcht nur Videotitel, Beschreibungen und Tags aus deiner Watch-Later- oder gespeicherten Playlist — nicht den gesprochenen Inhalt. Es gibt kein eingebautes «über die Transkripte aller meiner gespeicherten Videos suchen»-Feature. Drittanbieter-Tools wie SavedThat existieren, weil YouTubes Produkt-Roadmap das seit mindestens 2020 nicht priorisiert hat.

Kann ich Instagram Reels und TikTok-Lesezeichen genauso durchsuchen?

Ja, aber du brauchst ein Tool, das das Audio-Transkript für diese Plattformen holt — weder Instagram noch TikTok exponiert eine Transkript-API so wie YouTube. SavedThat nutzt Supadata, um Reels und TikToks beim Speichern automatisch zu transkribieren. Glasp und Mem unterstützen nur YouTube; native Instagram-/TikTok-Suche in deinen Saves gibt es ohne Drittanbieter-Tool nicht.

Wie genau ist automatisch generierte Transkription?

Für Englisch unter Standard-Aufnahmebedingungen erreichen moderne Auto-Untertitel etwa 95% Wortgenauigkeit. Für Deutsch, Russisch, Spanisch, Portugiesisch und andere Sprachen mit starker Sprachmodell-Abdeckung sind 90–94% typisch. Starke Akzente, Musik im Hintergrund und überlappende Sprecher verschlechtern die Genauigkeit weiterhin. Die Suche bleibt deutlich unter perfekter Transkription nützlich, weil semantische Embeddings Near-Misses elegant verarbeiten.

Was ist der Unterschied zwischen Volltextsuche und semantischer Suche?

Volltextsuche matcht die wörtlichen Worte deines Querys gegen die Worte im Transkript. Semantische Suche wandelt sowohl Query als auch Transkripte in numerische Vektoren, die Bedeutung repräsentieren, und gibt die nächsten Treffer per Cosine Distance zurück. Semantische Suche findet «wie viel kostet es Kunden zu gewinnen», wenn das Transkript «CAC» oder «customer acquisition cost» sagt; Volltext würde es verfehlen. Die besten Tools kombinieren beides.

Funktionieren gespeicherte Videos noch, wenn das Original von YouTube gelöscht wird?

Das Transkript und dein Lesezeichen bleiben in deiner Bibliothek, aber die Deep Links zeigen auf die Originalplattform — wenn YouTube das Video entfernt, bricht der Link. SavedThat hält den Transkript-Text unbegrenzt, sodass Suche und Zitate weiter funktionieren, aber Audio oder Video können wir nicht wiedergeben. Für Langzeit-Archivierung des eigentlichen Mediums brauchst du eine separate Lösung.

Ist das im Maßstab teuer?

Auf Consumer-Plänen, nein. Der Großteil der Kosten ist einmalige Transkription beim Speichern (kostenlos für YouTube, bezahlt pro Reel für Instagram/TikTok). Embeddings sind Cent-Beträge pro 1.000 Chunks via OpenAIs text-embedding-3-small. Speicherung von 768-dimensionalen Halfvecs in Postgres liegt in der Größenordnung von 1,5 KB pro Chunk. Eine persönliche Bibliothek mit 50.000 Chunks passt komfortabel in eine 25-Dollar-pro-Monat-Postgres-Instanz — und in einem Hosted-Tool wie SavedThat ist die Unit-Economics in den 6,99-Dollar-Pro-Tarif eingepreist.