MaryTTS : le TTS open-source


#1

Bonjour à tous,

Premier post certes, mais j’aimerais vous présenter MaryTTS, un super outils en ligne open-source pour faire du TTS (Text To Speech, du Texte vers la Parole).

Le TTS est utile principalement pour les sourds/muets qui ne peuvent s’exprimer oralement, mais peut aussi servir pour ceux et celles qui n’auraient pas de micro (ou de trop mauvaise qualité), ou encore à s’exprimer à l’orale sans révéler son identité (exemple: lanceurs d’alertes, radio pirate, …).

Bref, aujourd’hui comme d’hab, google a le monopole du TTS accessible à tous. Des solutions payantes existent mais sont closed source, et les rares services gratuits sont soit closed source soit de très mauvaise qualité…

MaryTTS est d’une qualité rivalisant clairement avec le TTS de google et est open-source. Il gère de nombreuses langues et proposes même des filtres sur la sortie audio. Une démo est disponnible sur leur site : http://mary.dfki.de

La campagne “degooglisons internet” (que je supporte à 100%) n’a pas encore de service TTS : êtes-vous partant pour proposer un mirroir MaryTTS ?
J’ai personnellement installer le bestiaux chez moi et je dois dire qu’à part quelques erreurs de débutant l’installation est simple et rapide tout comme sa prise en main.
Il ne demande pas beaucoup de bande passante ni de mémoire (ram ou de stockage).

Voilà c’était ma modeste idée que je soumettais à tout hasard.
Si cela vous tente je suis partant pour expliquer les quelques trucs que j’ai appris lors de son installation mais à prioris c’est à la porté de tous.

Librement,
Chenille


#2

Bonjour,
Projet intéressant, la voix masculine fr Pierre est de bonne qualité. Le moteur de synthèse peut-
il fonctionner en local, sans aucune connexion internet ?

Iriamu


#3

Absolument, j’en ai fait le test chez moi.

Lors de l’installation le logiciel télécharge les fichiers voix, nous les possédons donc :wink:


#4

Intéressant, merci pour l’info.

Je ne sais pas s’ils utilisent déjà ce moteur, mais en suivant l’actualité autour du projet MyCroft j’ai vu qu’ils ont prévu de changer de moteur TTS d’ici peu.

J’ai aussi noté qu’ils vont (ou ont) changé de moteur STT pour utiliser le projet de Mozilla.

Bref, perso il faut vraiment que je prenne du temps pour tester MyCroft.


#5

Le pb de Mycroft est qu’il est propriétaire…
Quant à Mozilla je ne savais pas. MaryTTS à l’avantage de posséder plus de langue pour le moment :wink:


#6

Qu’entends-tu par propriétaire ? Ils publient leur code sur leur compte GitHub. Leur solution passe (actuellement) par des services fermés, mais il suffit de reconfigurer le produit pour utiliser d’autres services.

Concernant MaryTTS et le projet de Mozilla, ce sont des approches complémentaires : le premier est un TTS (Text To Speech) qui transforme le texte en voix tandis que le second est un STT (Speech To Text) qui transforme un enregistrement audio en texte.


#7

Oui c’est ça que je voulais dire…
Et donc reconfigurer pour utiliser quels services à la place ?

MaryTTS semble plus stable et les voies y sont plus jolies.

Quant aux projet de mozilla il fait les deux non (TTS et STT) ? En tout cas son TTS est trop robotique encore à mon goût…


#8

De ce que j’en ai compris (je suis en train de bricoler mon device sur la base d’un Nabaztag/Karotz) :

  • le wake word est décodé en local (chez toi) donc même si le micro est allumé en permanence, y’a pas de fuite pour la vie privée (on peut le vérifier avec le code ouvert)
  • la conversion STT était initialement faite par défaut chez Google, en passant par le service home.mycroft.ai qui se chargeait de relayer (ce qui permettait de rajouter un peu d’entropie dans l’espoir de réduire le fichage fait par Google). Cette conversion STT va maintenant être faite par défaut sur la base du projet de Mozilla.
  • l’interprétation de la commande est faite en local (chez toi) par ce qu’ils nomment les skills
  • la vocalisation de la réponse est faite par leur TTS (Mimic) en local (chez toi)

Au final, ça me semble très très correct comme approche. Mais si j’ai loupé un détail, je suis intéressé car je ne voudrais pas perdre mon temps dans un projet irrespectueux.


#9

Je ne remet pas cela en question… En revanche tenter d’améliorer les voix devient vite un soucis non ?

Là aussi je ne remet pas en cause cela. Mais le même soucis se pose : leurs fichiers sonores ne sont pas accessibles/éditables et donc on dépend d’une boite pour attendre d’éventuelles évolutions…

C’est correct on est tout à fait d’accord. Après je voyais plus le développement/la popularisation d’un logiciel open-source afin qu’éventuellement la communauté du libre s’empare du TTS et arrête d’être dépendante de grosses boites qui font la qualité qu’ils souhaitent et les langues qu’ils souhaitent…

C’est plus d’un point de vu “politique” donc et non technologique :wink:

Je m’y connais sans doute bien moins que toi dans ce sujet (j’ai commencer à m’y “intéresser” ya tout juste un an, et plus en tant qu’utilisateur que dév pour le coup donc il est possible que je sois en partie à côté de la plaque et si telle est le cas merci de me le signaler :slight_smile:


#10

Concernant les voix, l logiciel Mimic est open-source, oix y compris : https://github.com/MycroftAI/mimic

Et vu ce soir : il est possible de passer par MaryTTS au lieu de Mimic.

Bref, même s’il y a une boite qui tente de trouver un business autour du projet, Mycroft a tout l’air d’un vrai projet libre qui mérite qu’on l’utilise (un projet sans utilisateur est un projet mort).