Montage vidéo

Sous-titres incrustés, SRT ou VTT : quel format de sous-titres choisir

La différence entre sous-titres incrustés et fichiers séparés, ce que sont vraiment le SRT et le VTT, lequel utiliser sur chaque plateforme, et les compromis qui décident.

Par Hanna Eng·Monteuse vidéo, diplômée du Conservatoire libre du cinéma français

Mis à jour le 3 juin 20268 min de lecture
Fait partie de : Post-production vidéo

Les sous-titres incrustés sont gravés dans les pixels de la vidéo : mise en forme illimitée, mais permanents et impossibles à désactiver ou à corriger sans réexporter toute la vidéo. Le SRT et le VTT sont des fichiers texte séparés que le spectateur peut activer ou désactiver et que vous modifiez à tout moment. On utilise un fichier (SRT ou VTT) partout où la plateforme le permet, et on incruste seulement quand elle ne le permet pas, comme sur les réseaux sociaux.

Deux vidéos peuvent avoir des sous-titres identiques et se livrer de façon totalement différente : l'une en pixels gravés dans l'image, l'autre en petit fichier texte qui l'accompagne. Ce choix décide si le spectateur peut les désactiver, si vous pouvez corriger une faute sans réexporter, et si un moteur de recherche ou un lecteur d'écran peut seulement les lire. Voici comment les formats diffèrent et comment choisir.

SRT vs VTT vs sous-titres incrustés

CritèreSRTVTTIncrusté
TypeFichier texte séparéFichier web séparéGravé dans l'image
Modifiable après exportOuiOuiNon, réexport requis
Mise en formeAucuneBasique (CSS)Illimitée
Désactivable par le spectateurOuiOuiNon
Idéal pourYouTube, Vimeo, lecteursWeb HTML5Réseaux sociaux
Accessible et indexableOuiOuiNon

Incrustés ou fichier séparé : le choix central

Il y a deux façons de mettre des sous-titres sur une vidéo. Les sous-titres incrustés, dits ouverts ou « hardcodés », sont gravés définitivement dans l'image. Les sous-titres en fichier, surtout le SRT et le VTT, voyagent dans un fichier texte séparé que le lecteur superpose à la lecture et que le spectateur peut activer ou non.

Tout le reste, mise en forme, modifiabilité, accessibilité, prise en charge par les plateformes, découle de cette seule différence : les sous-titres font-ils partie de l'image, ou sont-ils une couche par-dessus.

On parle aussi de sous-titres ouverts (open) et fermés (closed). Les sous-titres incrustés sont des sous-titres ouverts : ils font partie de l'image et sont toujours visibles. Les sous-titres en fichier (SRT, VTT et les autres) sont des sous-titres fermés : ils accompagnent la vidéo et le spectateur peut les activer ou non. Ouvert ou fermé, c'est la même décision qu'incrusté ou fichier séparé, dans le vocabulaire du broadcast et de l'accessibilité.

Ce que veut dire « incrusté »

Les sous-titres incrustés font partie des pixels de la vidéo : ils s'affichent sans aucune prise en charge du lecteur et le spectateur ne peut pas les désactiver, et on peut les styliser sans limite, n'importe quelle police, couleur, position, animation ou fond. C'est pourquoi le social et le motion les incrustent en général. Étant des pixels, ils restent toutefois soumis au ré-encodage de la plateforme et aux recadrages (un master 16:9 affiché en 9:16 peut rogner ou décaler le texte).

Le prix, c'est la rigidité. Le spectateur ne peut pas les désactiver, on ne peut pas proposer une seconde langue sans un second export, et corriger une seule faute oblige à réexporter et réuploader toute la vidéo. Ils sont aussi invisibles aux moteurs de recherche et aux lecteurs d'écran, car ce sont des pixels, pas du texte.

SRT et VTT : les formats de fichier

Le SRT (SubRip) est le fichier de sous-titres universel en texte brut : une liste numérotée de répliques avec un timecode de début et de fin (écrit avec une virgule, 00:00:20,000) et le texte. Il ne porte aucune mise en forme et est accepté presque partout, de YouTube et Vimeo à la plupart des lecteurs et plateformes de formation.

Le VTT (WebVTT) est le standard du web, conçu pour l'élément track de la vidéo HTML5. Il commence par un en-tête WEBVTT, utilise un point dans ses timecodes (00:00:20.000) et gère une mise en forme et un positionnement basiques en CSS. On utilise le SRT par défaut et le VTT quand on livre pour le web. Le tableau ci-dessus les compare aux incrustés.

Au-delà du SRT : EBU-STL, ASS, SCC et TTML

Le SRT et le VTT sont les formats du quotidien, mais ce ne sont pas les seuls, et une livraison broadcast ou plateforme en demande parfois d'autres. L'EBU-STL (.stl) est la norme de sous-titrage de la télévision européenne, encore demandée par les chaînes. L'ASS ou SSA (Advanced SubStation Alpha) porte un style et un positionnement que les formats simples ne gèrent pas, d'où sa présence dans l'anime et le fansub. Le SCC (Scenarist Closed Captions) transporte les captions CEA-608 pour le broadcast américain. Le TTML, et son profil IMSC, est le format de texte temporisé en XML utilisé par les plateformes de streaming ; la livraison Netflix, par exemple, repose sur l'IMSC.

Pour l'essentiel du web et des réseaux sociaux, vous ne quitterez jamais le SRT et le VTT. Dès qu'un diffuseur ou un agrégateur de streaming entre en jeu, demandez quel format et quelle spec sont attendus : un fichier au mauvais format, c'est une relivraison, pas une correction rapide.

Lequel utiliser, selon la destination

On adapte le format à l'endroit où la vidéo est lue. YouTube, Vimeo et la plupart des lecteurs acceptent un fichier SRT ou VTT : on livre un fichier et on garde la vidéo propre. Le web ouvert (un lecteur HTML5 sur un site) veut du VTT. Les plateformes de formation acceptent en général le SRT.

On n'incruste que lorsque la destination ne laisse pas le choix : Instagram et TikTok n'acceptent pas qu'on téléverse un fichier SRT ou VTT pour la vidéo dans le feed (ils ne proposent que des sous-titres générés automatiquement, à la mise en forme limitée), et le feed se regarde en muet ; donc dès qu'on veut un contrôle total du design ou une précision fiable, on grave le texte dans l'image. Dans le doute, on livre les deux : un master propre avec un SRT, et une version incrustée séparée pour le social.

Sous-titres et sous-titres SME (SDH)

Le format est un axe ; la finalité en est un autre. Les sous-titres classiques supposent que le spectateur entend et ne rendent que la parole. Les sous-titres d'accessibilité ajoutent l'identification des locuteurs et les sons non parlés pour les sourds et malentendants. La France utilise la norme SME, codée par couleurs ; le SDH est l'équivalent anglophone, qui sert la même finalité avec ses propres conventions, le plus souvent monochromes.

Les deux peuvent se livrer en fichier ou être incrustés, mais les sous-titres d'accessibilité sont presque toujours en fichier pour que le spectateur les active à la demande. On ne confond pas les deux : un brief qui demande de l'accessibilité veut du SME, pas du sous-titre classique.

Les compromis cachés : montage, accessibilité, SEO

Les sous-titres en fichier gagnent sur tout, sauf la mise en forme. On les corrige ou les retraduit en quelques secondes sans toucher à la vidéo, on réutilise un seul master pour toutes les langues, et on laisse le choix au spectateur. Ils sont aussi lisibles par la machine : les moteurs indexent les mots et les lecteurs d'écran les annoncent.

Les sous-titres incrustés ne gagnent que sur l'apparence. Ils donnent un contrôle total du design et un affichage garanti, ce qui compte pour le social de marque, mais sacrifient la modifiabilité, la réutilisation multilingue, l'accessibilité et la découvrabilité. Le bon choix est en général le fichier, sauf si la plateforme ou le design impose l'inverse.

Livrer les sous-titres depuis DaVinci Resolve

DaVinci Resolve fait les deux. On crée une piste de sous-titres et on l'exporte en SRT pour une livraison en fichier, ou on grave la piste dans l'image pour une version incrustée, en choisissant police, taille et position à la sortie.

En pratique, on garde les sous-titres en fichier le plus longtemps possible et on n'incruste qu'à l'export final, pour les plateformes qui l'exigent. On conserve ainsi un seul master propre, des corrections de fautes peu coûteuses, et un fichier accessible et indexable pour tout le reste.

Questions fréquentes

Quel est le meilleur format de sous-titres ?

Pour la plupart des livraisons, un fichier : le SRT par défaut, le VTT pour le web. Les sous-titres incrustés ne valent que pour le social qui ne gère pas les fichiers. Le fichier reste modifiable, accessible et indexable.

Qu'est-ce qu'un sous-titre incrusté ?

Un sous-titre gravé définitivement dans l'image. Il s'affiche partout avec une mise en forme illimitée, mais ne peut être ni désactivé ni modifié sans réexporter toute la vidéo, et reste invisible aux moteurs de recherche et aux lecteurs d'écran.

Qu'est-ce que le format de sous-titres SRT ?

Le SRT (SubRip) est un fichier texte qui liste des répliques numérotées avec timecodes de début et de fin et le texte du sous-titre. Sans mise en forme, il est pris en charge presque partout, ce qui en fait le choix par défaut.

Quelle est la différence entre SRT et VTT ?

Les deux sont des fichiers de sous-titres séparés. Le SRT est en texte brut, timecodes à la virgule, sans mise en forme ; le VTT (WebVTT) est le standard web, commence par un en-tête WEBVTT, utilise des timecodes au point et gère une mise en forme et un positionnement CSS basiques.

Faut-il des sous-titres incrustés pour Instagram ou TikTok ?

Souvent oui. Instagram et TikTok n'acceptent pas qu'on téléverse un fichier SRT ou VTT pour la vidéo dans le feed (ils ne proposent que des sous-titres générés automatiquement, à la mise en forme limitée), et le feed se regarde surtout en muet ; dès qu'on veut un contrôle total du design ou une précision fiable, on incruste le texte dans l'image. Pour YouTube, Vimeo ou le web, on livre plutôt un fichier SRT ou VTT.

Peut-on désactiver des sous-titres incrustés ?

Non. Ils font partie de l'image. Seuls les sous-titres en fichier (SRT, VTT) peuvent être activés ou désactivés par le spectateur.

Les sous-titres incrustés sont-ils mauvais pour le SEO et l'accessibilité ?

Ce sont des pixels, pas du texte : les moteurs ne peuvent pas les indexer et les lecteurs d'écran ne peuvent pas les lire. Les sous-titres en fichier sont à la fois indexables et accessibles.

Quelle est la différence entre sous-titres ouverts et fermés ?

Les sous-titres ouverts sont incrustés dans l'image et toujours affichés ; les fermés vivent dans un fichier ou une piste que le spectateur peut désactiver. Les sous-titres incrustés sont des sous-titres ouverts, les fichiers SRT et VTT des sous-titres fermés. Le compromis est le même : affichage et style garantis avec l'incrustation, souplesse et accessibilité avec un fichier.

Sources et références

Un projet qui a besoin d'être fait dans les règles ?

Si votre mix doit passer la spec d'une plateforme, parlons des livrables et du planning.

Démarrer un projet