Monter et nettoyer un podcast : le workflow de post-production voix
Monter et traiter sont deux métiers distincts. Voici l'ordre qui donne un épisode propre et cohérent : couper, nettoyer, égaliser, compresser, niveler, normaliser, contrôler.
Par Hanna Eng·Ingénieure du son, diplômée de l'Abbey Road Institute Paris
Normalisez un podcast à -16 LUFS intégrés en stéréo, ou -19 LUFS en mono, avec un plafond de crête réelle de -1 dBTP. Ce master unique passe sans risque sur Apple Podcasts, Spotify et YouTube. Spotify normalise vers -14 LUFS et Apple recommande -16 LUFS, donc -16 LUFS vous garde dans la bonne plage partout, sans distorsion.
La plupart des problèmes audio d'un podcast viennent du mauvais ordre : traiter une prise avant de la couper, ou normaliser avant d'avoir retiré le bruit. Ce guide sépare le montage du traitement et déroule toute la chaîne dans l'ordre qu'une ingénieure du son utilise vraiment, avec les cibles de loudness qui font accepter un épisode partout.
Cibles de loudness pour podcast
| Réglage | Valeur |
|---|---|
| Master, stéréo | -16 LUFS |
| Master, mono | -19 LUFS |
| Plafond de crête réelle | -1 dBTP |
| Normalisation Spotify | -14 LUFS |
| Recommandation Apple | -16 LUFS |
| Musique de fond vs voix | 18 à 20 dB en dessous |
| Crossfade de montage dialogue | quelques ms |
Source : Spotify (normalisation du loudness), Apple Podcasts for Creators, Podnews (LUFS and LKFS for podcasters)
Montage vs traitement : deux métiers à ne pas confondre
Monter un podcast, c'est couper et assembler le contenu : enlever les erreurs, les silences morts et les hésitations pour que l'épisode soit fluide. Nettoyer et traiter, c'est travailler le signal : bruit, réverbération, égalisation, dynamique et niveau. Faites le montage éditorial d'abord, puis le traitement audio, pour ne jamais traiter du son que vous finirez par supprimer.
Le workflow complet en 7 étapes
Un montage de podcast propre suit sept étapes : importer et organiser les pistes, monter le contenu, nettoyer les défauts, égaliser et compresser la voix, équilibrer les niveaux entre intervenants, normaliser au loudness cible, puis contrôler et exporter. Suivre cet ordre donne un résultat cohérent et reproductible d'un épisode à l'autre.
Étape 1 : importer et organiser les pistes
Importez chaque intervenant sur sa propre piste, plus des pistes dédiées à la musique et aux effets. Si vous avez enregistré en double-ender, alignez les pistes grâce au clap de synchro placé au début. Une session bien rangée vous permet de traiter chaque voix indépendamment, ce qui est la base d'un nettoyage propre.
Étape 2 : le montage de contenu (rough cut)
Coupez d'abord les gros défauts : digressions, redites, erreurs techniques et longs silences. Réduisez ou marquez les hésitations les plus gênantes sans chercher à supprimer chaque "euh" : l'objectif est la clarté, pas une perfection robotique qui sonne artificielle. C'est l'étape la plus longue, souvent plusieurs fois la durée du brut.
Étape 3 : nettoyer la voix (bruit, réverbération, sibilances, plosives)
Le nettoyage retire ce qui parasite la voix : bruit de fond constant, réverbération de pièce, sibilances trop marquées, plosives P et B, clics de bouche et respirations bruyantes. Traitez un défaut à la fois et restez léger : un débruitage trop agressif rend la voix étouffée, comme sous l'eau.
- Réduisez le bruit de fond constant sans ternir la voix (en douceur, pas au maximum).
- Enlevez la réverbération et l'écho, le défaut numéro un des prises maison (de-verb de dialogue dans iZotope RX).
- Atténuez les sibilances (de-esser), adoucissez les plosives, et retirez les clics de bouche.
Étape 4 : égaliser et compresser la voix
Commencez par un filtre passe-haut autour de 80 à 100 Hz pour retirer les basses inutiles, puis ajoutez un léger gain de présence entre 2 et 5 kHz pour l'intelligibilité. La compression réduit ensuite l'écart entre les passages forts et faibles. L'ordre logique est : égalisation, compression, de-esser, puis limiteur.
Étape 5 : équilibrer les niveaux entre intervenants
Avant de normaliser, harmonisez le volume perçu de chaque voix entre elles et avec la musique. Un invité plus fort ou plus faible que l'animateur fatigue l'auditeur. Réglez les niveaux relatifs piste par piste, puis vérifiez les transitions vers les jingles et l'intro pour éviter les sauts de volume.
Étape 6 : normaliser au bon loudness (LUFS)
Visez -16 LUFS en stéréo, avec un plafond de crête à -1 dBTP. Apple et Spotify indiquent -16 LUFS quel que soit le nombre de canaux ; si vous livrez du mono, certains ingénieurs descendent d'environ 3 LU (autour de -19 LUFS) pour compenser la sommation des deux haut-parleurs. C'est une convention, pas une règle imposée par les plateformes. Spotify normalise vers -14 LUFS et Apple recommande -16 LUFS. Un seul master à -16 LUFS, -1 dBTP convient à toutes les plateformes sans distorsion.
Étape 7 : contrôle qualité et export
Écoutez l'épisode en entier sur au moins deux supports : un casque pour les détails, et un téléphone ou des enceintes grand public pour le rendu réel des auditeurs. Vérifiez bruits résiduels, sauts de niveau et coupures sèches, puis exportez en WAV ou MP3 au format attendu par les plateformes.
Quels logiciels pour monter et nettoyer un podcast
Pour débuter, Audacity est gratuit et complet. Pour aller plus loin, des stations professionnelles et des outils dédiés à la réparation de dialogue offrent une réduction de bruit adaptative, une déréverbération par apprentissage automatique et un de-essing précis. Le choix dépend de votre niveau et du temps que vous voulez consacrer au traitement, pas du nombre de filtres.
Combien de temps prend le montage d'un podcast
Comptez environ trois à cinq heures de montage par heure finie pour un montage soigné. Un épisode de trente minutes représente souvent deux à trois heures de post-production, nettoyage et mixage compris, davantage avec plusieurs invités ou un nettoyage lourd.
Montage assisté par IA vs manuel : un hybride neutre
Les outils d'IA sont devenus efficaces sur les parties répétitives d'un montage de podcast : détecter les hésitations, retirer les longs silences, et faire une première passe de réduction de bruit et de réverbération. Ils ne remplacent pas le jugement éditorial, qui décide de ce qu'on coupe, de la respiration d'une conversation et des pauses qui portent du sens. L'approche raisonnable est hybride : laisser le logiciel faire le balayage mécanique, puis laisser un humain trancher ce qui touche au rendu et au ressenti de l'épisode.
Parmi les options courantes du secteur pour la passe automatique : Descript et Cleanvoice pour retirer hésitations et silences, Adobe Podcast pour une réduction de bruit et de réverbération en un clic, et Auphonic pour le nivelage et la normalisation du loudness automatiques. Ce sont des exemples neutres, pas des recommandations. Hanna traite l'audio dans Pro Tools et iZotope RX, où chaque correction est appliquée et vérifiée à l'oreille plutôt que laissée entièrement à un modèle.
- Utilisez l'IA pour le balayage mécanique : détection des hésitations, retrait des silences, première passe bruit et réverbération.
- Gardez les décisions éditoriales et de ton humaines : ce qu'on coupe, où laisser une respiration, comment la conversation s'enchaîne.
- Réécoutez toujours : l'IA peut empiéter sur les mots voisins ou aplatir une intonation si on la laisse seule.
- Hanna travaille dans Pro Tools et iZotope RX, chaque geste vérifié à l'oreille.
| Tâche | Assisté par IA | Manuel / à l'oreille |
|---|---|---|
| Retrait des hésitations et silences | Première passe rapide | Décision finale sur ce qui reste |
| Réduction de bruit et de réverbération | Point de départ en un clic | Correction ciblée et mesurée |
| Nivelage et loudness | Normalisation automatique | Équilibre entre voix et musique |
| Choix éditoriaux et de ton | Non adapté | Toujours humain |
Source : Descript (hésitations), Cleanvoice (hésitations), Auphonic (nivelage et loudness), Adobe Podcast
Équilibre musique et voix : faire ducker le lit sonore
Quand une musique passe sous la parole, gardez le lit sonore environ 18 à 20 dB en dessous de la voix parlée pour qu'il ajoute de l'atmosphère sans masquer les consonnes. La façon la plus propre de tenir cet écart est le ducking : le niveau de la musique baisse automatiquement dès que quelqu'un parle et remonte dans les silences, via automation de volume ou compresseur sidechain.
Réglez l'écart à l'oreille sur de la vraie parole, pas sur la crête la plus forte, et contrôlez-le sur des enceintes de téléphone, là où l'intelligibilité souffre en premier. Les intros et outros, où la musique est seule, peuvent être plus fortes que le lit qui tourne sous le dialogue.
- Musique de fond environ 18 à 20 dB en dessous de la voix parlée sous le dialogue.
- Utilisez le ducking (automation de volume ou sidechain) pour que la musique baisse sous la parole et remonte dans les silences.
- Jugez l'équilibre sur des enceintes de téléphone, où une intelligibilité faible se voit en premier.
Crossfades : couper les hésitations sans hacher
Une coupe sèche entre deux morceaux de parole peut laisser un léger clic ou pop et un changement brusque de bruit de fond. Un court crossfade de quelques millisecondes au point de montage fond les deux côtés, supprime le clic et masque la jointure laissée par un mot ou une pause retirés. C'est ce qui permet de couper les hésitations tout en restant naturel plutôt que haché.
Pour les silences plus longs, placez un bruit de fond assorti (l'ambiance discrète du lieu d'enregistrement) sous la jointure, pour que le silence entre les mots sonne comme la même pièce, pas comme un trou numérique. Mettez un crossfade sur chaque montage de parole et gardez-le court : un crossfade long sur du dialogue brouille les consonnes et sonne faux.
- Appliquez un court crossfade (quelques millisecondes) à chaque montage de parole pour tuer les clics et fondre la jointure.
- Placez un bruit de fond assorti sous les jointures plus longues pour que le silence sonne comme la même pièce.
- Gardez les crossfades de dialogue courts : les longs brouillent les consonnes.
Organisation des fichiers pour une remise propre
Un projet bien rangé se monte plus vite et se reprend bien plus facilement pour une correction ou un futur épisode. Nommez et regroupez tout avant de commencer à couper, et gardez les livrables séparés des fichiers de travail.
- Gardez les enregistrements bruts d'origine intacts dans leur propre dossier ; montez sur des copies.
- Une piste par intervenant, plus des pistes dédiées musique et effets, clairement étiquetées.
- Nommez les fichiers de façon cohérente, par exemple NomEmission_EpNN_Intervenant_brut et NomEmission_EpNN_master.
- Gardez les livrables (WAV et MP3 finaux) séparés de la session et des fichiers de travail.
- Notez la cible de loudness et les réglages d'export avec le projet pour que les futurs épisodes correspondent.
Questions fréquentes
Quel logiciel pour monter un podcast ?
Audacity est un point de départ gratuit et complet. Pour un nettoyage plus poussé, les DAW professionnels et les outils dédiés à la réparation de dialogue (comme iZotope RX) ajoutent réduction de bruit adaptative et déréverbération. Le bon outil dépend de votre niveau et du temps de traitement souhaité, pas du nombre de fonctions.
Comment enlever le bruit de fond d'un podcast ?
Utilisez un outil de réduction de bruit ou de réparation spectrale, appliqué en douceur. Profilez le bruit constant (souffle, ronflement, ventilateur) et réduisez-le de quelques dB à la fois plutôt qu'en une passe agressive, qui rend la voix étouffée et "sous l'eau". Nettoyez avant d'égaliser et de compresser.
Comment supprimer l'écho ou la réverbération d'un enregistrement ?
Utilisez un outil de de-verb comme iZotope RX Dialogue De-reverb. Il réduit les réflexions de la pièce mais ne supprime pas une forte réverbération, donc le vrai remède reste d'enregistrer dans une pièce calme et peu réverbérante. Le de-verb répare les cas modérés, il ne remplace pas une bonne prise.
Dans quel ordre appliquer EQ, compression et normalisation ?
L'EQ d'abord (passe-haut autour de 80 à 100 Hz, puis léger gain de présence), puis la compression pour réguler la dynamique, puis un de-esser, puis un limiteur, et enfin la normalisation de tout l'épisode à la cible de loudness. Le nettoyage du bruit et de la réverbération vient avant tout ça.
À quel niveau LUFS normaliser un podcast ?
Visez -16 LUFS intégrés en stéréo, ou -19 LUFS en mono, avec un true peak à -1 dBTP. Ce master unique fonctionne sur Apple Podcasts, Spotify et YouTube. Spotify normalise à -14 LUFS et Apple recommande -16 LUFS, donc -16 vous garde dans la bonne plage.
Combien de temps faut-il pour monter un podcast d'une heure ?
Prévoyez au minimum trois à cinq heures de montage par heure finie, davantage pour un nettoyage lourd ou plusieurs invités. Un montage soigné tourne autour de trois à cinq minutes de travail par minute finie, en incluant la coupe, le nettoyage du bruit, le nivelage et la passe de loudness finale.
Comment couper les hésitations sans hacher le son ?
Retirez le mot, puis placez un court crossfade de quelques millisecondes au point de montage. Le crossfade fond les deux côtés, supprime le clic qu'une coupe sèche peut laisser et masque la jointure pour que la parole reste fluide. Pour les silences plus longs, placez un bruit de fond assorti sous la jointure afin que le silence sonne comme la même pièce. Gardez les crossfades de dialogue courts : un long crossfade brouille les consonnes et sonne faux.
À quel volume mettre la musique de fond sous la voix ?
Gardez le lit musical de fond environ 18 à 20 dB en dessous de la voix parlée pour qu'il ajoute de l'atmosphère sans masquer les consonnes. Utilisez le ducking, par automation de volume ou compresseur sidechain, pour que la musique baisse automatiquement quand quelqu'un parle et remonte dans les silences. Réglez le niveau à l'oreille sur de la vraie parole et contrôlez sur des enceintes de téléphone, là où l'intelligibilité souffre en premier.
Faut-il utiliser des outils d'IA pour monter son podcast ?
L'IA est efficace pour le balayage mécanique : détecter les hésitations, retirer les silences, faire une première passe de bruit et de réverbération. Parmi les options courantes : Descript et Cleanvoice pour les hésitations et silences, Adobe Podcast pour le bruit et la réverbération, et Auphonic pour le nivelage et le loudness. Les choix éditoriaux et de ton, ce qu'on coupe et où laisser une respiration, doivent rester humains, et chaque montage automatique demande une réécoute. Hanna travaille ainsi dans Pro Tools et iZotope RX, en appliquant et vérifiant chaque correction à l'oreille.
Combien de jours prend le montage d'un podcast en délai de livraison ?
Le délai se compte en jours ouvrés et dépend de l'épisode : sa durée, le nombre d'intervenants, l'ampleur du nettoyage que demande le brut, et la présence de musique et de chapitres. Un épisode solo court et propre est livré plus vite qu'une longue conversation à plusieurs invités qui demande un gros travail de bruit et de réverbération. Convenez de la fenêtre de livraison à l'avance pour qu'elle s'accorde à votre calendrier de publication.
Sources et références
- Spotify, normalisation du loudness (officiel)
- Apple Podcasts for Creators, exigences audio
- iZotope RX, Dialogue De-reverb
- Podnews, LUFS and LKFS for podcasters
- Pure Audio Insight, volume de la musique de fond (18-20 dB sous la voix)
- Descript, crossfade audio (transitions douces, éviter les clics)
- Podcast Engineering School, crossfading when editing audio
- Descript Help, filler words (exemple neutre du secteur)
- Cleanvoice, filler words (exemple neutre du secteur)
- Auphonic, audio post production (exemple neutre du secteur)