Rechercher dans les vidéos enregistrées : le guide complet 2026
guides
Rechercher dans les vidéos enregistrées : le guide complet 2026
Rechercher dans les vidéos enregistrées par ce qui a réellement été dit — sur YouTube, Instagram et TikTok. Comment fonctionne la recherche dans les transcriptions en 2026, et quatre outils qui le font.
SavedThat team···14 min read
Gratuit · 30 enregistrements/mois · sans carte
Tu as vu une super interview sur YouTube il y a six mois. Quelqu'un a dit quelque chose qui t'est resté — une phrase précise sur une stratégie de pricing, ou une étude particulière qu'il citait. Maintenant tu en as besoin. Tu ouvres ta liste « À regarder plus tard » et tu scrolles. Après 200 vidéos. Après des dizaines de clips de cuisine que tu as enregistrés par erreur. La vidéo est là quelque part, tu ne sais juste pas laquelle.
C'est le mode d'échec qu'a tout outil de favoris vidéo depuis que YouTube a sorti le bouton favoris en 2005. Les favoris enregistrent l'URL. Ils n'enregistrent pas ce qui a été dit. Faire une recherche dedans, c'est faire une recherche sur les titres, qui sont des slogans marketing optimisés SEO, pas le sujet réel de la vidéo.
En 2026, tu peux faire mieux. La technologie pour chercher à l'intérieur du contenu parlé de chaque vidéo que tu as enregistrée — sur YouTube, Instagram Reels et TikTok, dans n'importe quelle langue — est désormais une commodité. Ce guide explique comment ça marche, les quatre vrais outils qui le font, et comment monter le workflow de bout en bout.
Les titres ne sont pas le contenu. Un podcast de 90 minutes sur « Comment on a construit un business à 40M ARR » a peut-être été enregistré parce que la troisième question de l'hôte — à 38 minutes — était la seule chose dont tu avais besoin. Le titre ne le sait pas. Aucun tag que tu mettrais raisonnablement au moment d'enregistrer non plus.
Le souvenir d'où tu l'as vu se dégrade vite. C'est le gap bien documenté entre la reconnaissance et le rappel (NN/g sur recognition vs. recall) : tu reconnaîtras la citation quand tu la reverras, mais tu ne te souviendras pas sur quelle plateforme elle vivait. Quelques semaines plus tard, cette « interview YouTube » était en fait un Reel, et ton rituel de recherche plateforme par plateforme échoue en silence.
Les transcriptions existent mais sont dispersées. La grande majorité des uploads YouTube dans les langues principales ont des sous-titres, natifs ou auto-générés. Instagram et TikTok les génèrent à la lecture. Les transcriptions sont publiques. Mais chaque plateforme t'oblige à chercher dedans une vidéo à la fois, après avoir ouvert la vidéo — précisément au moment où tu ne sais pas laquelle ouvrir.
Deux techniques distinctes sont maintenant mainstream, et la plupart des outils modernes les combinent :
Recherche par texte intégral (FTS). L'approche classique : indexer chaque mot de la transcription, puis matcher la requête de l'utilisateur comme substring ou token littéral. Rapide, déterministe, facile à expliquer. Échoue quand l'utilisateur se souvient de l'idée mais utilise d'autres mots. Si tu cherches « quel est le coût d'acquisition client » mais que l'intervenant a dit « combien on paye pour ramener un nouveau client », FTS ne va pas le trouver.
Recherche sémantique via embeddings vectoriels. Chaque chunk de transcription est converti en vecteur de 768 ou 1 536 dimensions par un modèle comme text-embedding-3-small d'OpenAI. Ta requête est convertie en vecteur du même type. Le système renvoie les chunks dont les vecteurs sont les plus proches en distance cosinus. Ça fonctionne à travers les formulations, à travers les langues, et même quand l'intervenant a utilisé un jargon que tu n'as jamais entendu.
L'état de l'art en mai 2026, c'est la recherche hybride avec Reciprocal Rank Fusion (RRF) : tu lances FTS et recherche sémantique en parallèle, puis tu fusionnes les classements. Les outils qui livrent du retrieval hybride battent systématiquement les outils mono-méthode dans les évaluations en tête-à-tête (Microsoft Research, 2024), parce que les deux méthodes attrapent des modes d'échec différents — FTS gère le recall de phrase exacte, la sémantique attrape l'intention reformulée.
Les apps pour « enregistrer des vidéos », il y en a à la pelle. Celles qui cherchent vraiment dans le contenu des transcriptions forment un petit ensemble. Voici la comparaison honnête.
Construit autour de : le moment où tu enregistres une vidéo. Tu colles une URL YouTube/Instagram/TikTok, le système tire la transcription, la découpe en fenêtres de ~18 secondes avec 5 secondes d'overlap, embedde chaque chunk et indexe à la fois les vecteurs et le texte intégral. La recherche dans ta bibliothèque renvoie le moment exact avec un deep link vers ce timestamp sur la plateforme d'origine.
Forces : le seul des quatre qui couvre les trois plateformes de vidéos courtes. La déduplication cross-user signifie que si tu enregistres une vidéo que quelqu'un d'autre a déjà enregistrée, ta bibliothèque est mise à jour instantanément sans coût de crédit supplémentaire. Le retrieval hybride est le default, pas un tier d'upgrade.
Compromis : tu payes les crédits de transcription sur Instagram et TikTok (les transcriptions YouTube sont gratuites à récupérer). L'offre gratuite donne 30 enregistrements par mois, suffisant pour évaluer mais juste si tu enregistres beaucoup.
Construit autour de : le lecteur actif qui regarde avec intention. Glasp te laisse surligner des phrases précises dans les transcriptions YouTube pendant que tu regardes, puis chercher uniquement parmi ces surlignages. C'est l'outil dominant pour le workflow de surlignages depuis son lancement en 2021.
Forces : zéro coût, fonctionne sans compte pour des exports ponctuels, intègre Readwise.
Compromis : YouTube uniquement — pas d'Instagram, pas de TikTok. La recherche est par mot-clé sur les surlignages, pas sur la transcription complète, donc les moments non surlignés sont invisibles. Tu dois surligner activement ; les enregistrements passifs ne bénéficient pas de la recherche.
Construit autour de : le preneur de notes AI-first. Mem avale tout ce que tu colles — y compris les transcriptions YouTube — et lance la recherche sémantique dessus via les embeddings OpenAI.
Forces : le scope de contenu le plus large. Si tes favoris vidéo cohabitent avec notes, articles et messages Slack sur une surface recherchable, Mem est la réponse la plus propre.
Compromis : aucune intégration plateforme. La transcription, tu la colles toi-même, à la main. Pour les prosumers qui enregistrent vraiment 50+ vidéos par mois, c'est une friction que les maths ne survivent pas.
Construit autour de : le développeur qui veut la même chose sans abonnement SaaS. Tu fais tourner Whisper en local pour transcrire, tu poses les chunks dans pgvector sur une instance Postgres sous ton contrôle, tu exposes un endpoint de recherche. Total Bill of Materials : un Mac mini, Docker, et ~10 heures de plomberie.
Forces : contrôle total, pas de dépense récurrente, enregistrements illimités.
Compromis : enregistrements illimités pour toi — partager ou accéder sur mobile, c'est plus de plomberie. Whisper est excellent pour l'anglais mais devient nettement moins bon sur russe / hindi / arabe comparé aux APIs commerciales fine-tunées pour ces langues. Et chaque nouvelle plateforme (Instagram a sorti une API Reels redesignée en mars 2026 ; TikTok a fait tourner son format de watermark deux fois l'an dernier) est un ticket de maintenance.
Ouvre savedthat.app et inscris-toi par e-mail ou Google. L'overlay d'onboarding affiche un champ à coller — balance ta première URL, ou clique sur Try with a demo video pour charger un clip de démo de 3 minutes. Pas besoin de carte bleue et l'offre gratuite est illimitée dans le temps (juste plafonnée à 30 enregistrements par mois).
Le champ accepte n'importe lequel de ces formats :
https://www.youtube.com/watch?v=...
https://youtu.be/... (lien court)
https://www.youtube.com/shorts/...
https://www.instagram.com/reel/...
https://www.tiktok.com/@user/video/...
Clique Save. La vidéo atterrit dans ta bibliothèque en ~10 secondes pour YouTube (le fetch de la transcription est rapide), 30-60 secondes pour Instagram et TikTok (la transcription audio est plus lente). Si quelqu'un a déjà enregistré cette URL exacte, la tienne apparaît instantanément — on partage la transcription indexée entre utilisateurs.
Dès que tu as au moins une vidéo, le champ de question en haut de la bibliothèque accepte des requêtes en texte libre. Essaie l'une de celles-ci pour voir la différence entre mot-clé et sémantique :
Phrase directe : "customer acquisition cost" trouve la mention exacte.
Intention reformulée : "combien ça coûte de trouver de nouveaux acheteurs" — la recherche sémantique attrape la même idée même si aucun mot de la requête n'apparaît dans la transcription.
Cross-langue : "стоимость привлечения клиентов" en russe — le modèle multilingue text-embedding-3-small mappe les vecteurs russe et anglais suffisamment proches pour qu'une transcription anglaise matche quand même.
Chaque résultat affiche la citation exacte, le timestamp et un deep link qui ouvre la vidéo d'origine à cette seconde sur la bonne plateforme.
Si tu trouves un moment qui mérite d'être gardé ou envoyé à quelqu'un, clique sur Share sur le résultat. SavedThat émet une URL courte du type savedthat.app/s/abc123 qui ouvre la vidéo d'origine directement au timestamp — pas besoin de compte SavedThat pour le destinataire.
Vidéos sans transcription. YouTube a des sous-titres pour ~84% des uploads. Instagram/TikTok les auto-génèrent à partir de l'audio. Quand ni l'un ni l'autre ne marche (rare, surtout pour les clips musicaux et les montages silencieux), l'enregistrement apparaît quand même dans ta bibliothèque avec le titre et la miniature — il n'est juste pas recherchable jusqu'à ce qu'une transcription devienne disponible. En offre gratuite, ça ne décompte pas du quota.
Vidéos multilingues. La recherche hybride est multilingue à la couche vectorielle parce que le modèle d'embedding d'OpenAI a été entraîné sur 100+ langues. Le composant de recherche par texte intégral fait de la détection de langue par chunk et utilise le tsvector de Postgres avec la bonne config de langue. Une requête en russe contre une transcription en anglais touche quand même des matches sémantiques ; le bonus FTS ne s'enclenche que quand la langue de la requête correspond à celle du chunk.
Vidéos longues. Un podcast de 4 heures devient 800+ chunks. SavedThat plafonne la durée d'une vidéo à 1h en offre gratuite, 2h en Pro, 3h en Power — au-delà on paierait des coûts de transcription qui ne scalent pas dans la logique de pricing grand public. La performance de la recherche hybride reste sous les 200ms même sur des bibliothèques de 50K+ chunks parce qu'on utilise de l'indexation HNSW sur des embeddings halfvec(768).
Vie privée. Les transcriptions et ta liste d'enregistrements vivent dans ta bibliothèque privée par défaut. Rien n'est partagé tant que tu n'émets pas explicitement un share link.
Si tu enregistres plus de cinq vidéos par mois et qu'au moins une fois par trimestre tu te surprends à penser « je sais que j'ai vu ça quelque part » — SavedThat est construit pour toi et c'est le seul des quatre avec un support first-class d'Instagram et TikTok. Si tu es YouTube-only, fan de surlignages et que tu aimes annoter, Glasp est top et gratuit. Si tu es power user de Mem et que tu vis déjà là-bas, colle les transcriptions et reste. Si tu es dev et que la plomberie te plaît, le stack DIY est du travail honnête.
Quel que soit ton choix, l'ère du « ça je l'ai enregistré quelque part » se termine. Cherche dans les vidéos, pas autour.
Frequently asked questions (2026)
YouTube ne te permet pas déjà de chercher dans les vidéos que tu as enregistrées ?+
La recherche native de YouTube ne matche que les titres de vidéo, les descriptions et les tags depuis ton Watch Later ou tes playlists enregistrées — pas le contenu parlé. Il n'y a aucune fonctionnalité intégrée du type « chercher à travers les transcriptions de toutes mes vidéos enregistrées ». Les outils tiers comme SavedThat existent parce que la roadmap produit de YouTube n'a pas priorisé ça depuis au moins 2020.
Je peux chercher dans mes Reels Instagram et mes favoris TikTok de la même façon ?+
Oui, mais il te faut un outil qui récupère la transcription audio pour ces plateformes — ni Instagram ni TikTok n'exposent d'API de transcription comme le fait YouTube. SavedThat utilise Supadata pour transcrire automatiquement les Reels et les TikToks au moment de l'enregistrement. Glasp et Mem ne supportent que YouTube ; la recherche native dans tes enregistrements Instagram/TikTok n'existe pas sans outil tiers.
À quel point la transcription auto-générée est-elle précise ?+
Pour l'anglais en conditions d'enregistrement standard, les auto-sous-titres modernes atteignent environ 95% de précision par mot. Pour le français, l'espagnol, le russe, le portugais et d'autres langues à forte couverture par les modèles de langue, 90-94% est typique. Les accents marqués, la musique en fond et les locuteurs qui se chevauchent dégradent encore la précision. La recherche reste utile bien en dessous de la transcription parfaite parce que les embeddings sémantiques gèrent les near-misses avec élégance.
Gratuit, self-hosted
Coût compute
Quelle est la différence entre recherche par texte intégral et recherche sémantique ?
+
La recherche par texte intégral matche les mots littéraux de ta requête contre les mots de la transcription. La recherche sémantique convertit à la fois la requête et les transcriptions en vecteurs numériques qui représentent le sens, et renvoie les plus proches par distance cosinus. La recherche sémantique trouve « combien ça coûte d'acquérir des clients » quand la transcription dit « CAC » ou « customer acquisition cost » ; le texte intégral le manquerait. Les meilleurs outils combinent les deux.
Les vidéos enregistrées fonctionnent encore si l'originale est supprimée de YouTube ?+
La transcription et ton favori restent dans ta bibliothèque, mais les deep links pointent vers la plateforme d'origine — si YouTube supprime la vidéo, le lien casse. SavedThat conserve le texte de la transcription indéfiniment, donc la recherche et les citations continuent de fonctionner, mais on ne peut rejouer ni l'audio ni la vidéo. Pour de l'archivage à long terme du media lui-même, il te faut une solution séparée.
C'est cher à l'échelle ?+
Sur les plans grand public, non. L'essentiel du coût est la transcription unique à l'enregistrement (gratuite pour YouTube, payée par Reel pour Instagram/TikTok). Les embeddings, c'est quelques centimes pour 1 000 chunks via text-embedding-3-small d'OpenAI. Stocker des halfvecs de 768 dimensions dans Postgres, c'est de l'ordre de 1,5 KB par chunk. Une bibliothèque personnelle de 50 000 chunks tient confortablement dans une instance Postgres à 25 dollars par mois — et dans un outil hosté comme SavedThat, la unit economics est intégrée dans le tarif Pro à 6,99 dollars.