Grâce aux progrès de l’Intelligence Artificielle ces dernières années, les outils de transcription automatiques se sont démocratisés et apportent aujourd’hui une aide non négligeable pour la recherche utilisateurs, en particulier lors d’interviews. Pour ne rien gâcher, ces outils sont souvent intégrés directement dans nos outils préférés : Dovetail, Zoom, etc. proposent notamment leur propre outil de transcription. Certains outils de transcription indépendants peuvent également se greffer facilement à d’autres outils standards, ce qui permet par exemple d’utiliser tel ou tel outil en fonction de la langue de nos interlocuteurs, la qualité des transcriptions étant souvent variable en fonction de la langue. Bref, la vie est belle, non ? 😎 Pour être honnête, oui et non… C’est effectivement super pratique et plutôt efficace (même s’il faut souvent ajuster quelques mots mal retranscrits à cause de l’accent ou parce qu’il s’agit de vocabulaire très spécifique ou d’acronymes) mais un gros point noir que tous ces outils ont en commun est qu’ils sont proposés en mode SaaS. Cela signifie que les données de nos interviews vont partir dans le cloud, très souvent dans un datacenter aux US et bien souvent on ne prend pas le temps de lire (et de comprendre) en détail la politique de confidentialité de ces SaaS. Qui exactement a accès à ces données ? Vont-elles être partagées avec des tiers ou même revendues ? Combien de temps vont-elles être conservées ? Où ? Et a-t-on bien communiqué ces informations à nos participants et obtenu leur consentement éclairé ? 🤔 Et même si on le fait dans les règles de l’art et en respectant scrupuleusement le RGPD, on peut avoir à travailler sur des sujets hautement confidentiels et aucune solution SaaS ne pourra convenir… Que faire alors ? ❓ On peut évidemment travailler “à l’ancienne” et retranscrire à la main chaque interview mais ça reste assez fastidieux… Heureusement, il y a des solutions hors ligne qui permettent une transcription de qualité 100% en local sur votre machine 👍
La solution que j’utilise depuis plusieurs mois s’appelle
MacWhisper. Comme son nom l’indique, c’est une application pour Mac qui utilise le modèle Open Source
Whisper d’OpenAI. L’interface de l’outil est perfectible et il manque la détection automatique des participants (il faut les indiquer à la main pour l’instant) mais la qualité de transcription est excellente en anglais et très bonne en français (au début il faut tester avec les différents modèles pour voir ce qui convient le mieux à chaque situation mais une fois qu’on est calé, c’est super et surtout très rapide). Sur les interviews pour lesquelles j’ai utilisé MacWhisper (plusieurs dizaines d’heures en anglais et en français, avec différents accents), j’ai trouvé les résultats bien meilleurs qu’avec Dovetail par exemple.
N’hésitez pas à essayer la version gratuite (les modèles disponibles sont un peu moins bons qu’avec la version Pro) ou passez directement à la version Pro (26€ la licence perpétuelle*, c’est donné !) et faites vos retours en commentaire !
* La licence couvre toutes les mise à jour mineures. Pour les versions majeures, il faut reprendre une licence.