WellSaid Labs crée des avatars vocaux au son naturel pour les applications de synthèse vocale. (Graphique WellSaid Labs)

WellSaid Labs aura beaucoup plus à dire dans les années à venir, grâce à un nouvel investissement de 10 millions de dollars qui sera utilisé pour renforcer les efforts de la startup de Seattle pour faire fonctionner un chœur croissant de voix synthétiques générées par l’IA.

Le cycle de financement de la série A – dirigé par Fuse, une société de capital-risque à un stade précoce qui compte le secondeur vedette des Seattle Seahawks Bobby Wagner parmi ses partenaires – fait suite au financement de démarrage de 2 millions de dollars que WellSaid a levé en 2019 lorsqu’il a été créé par Allen de Seattle. Institut d’intelligence artificielle.

L’un des investisseurs de ce premier tour de table, Voyager Capital, a contribué au financement de la série A nouvellement annoncé. Qualcomm Ventures et Good Friends aussi.

Le PDG de WellSaid, Matt Hocking, a déclaré que le nouveau financement ira à la croissance de la startup de synthèse vocale, qui compte une douzaine d’employés.

Le PDG de WellSaid Labs, Matt Hocking.

“Nous devons doubler les recherches que nous mettons en œuvre et les recherches que nous menons ici pour améliorer continuellement notre technologie”, a déclaré Hocking à .. « En plus de cela, il y a évidemment des embauches pour développer notre offre de produits et servir plus de clients de manière plus diversifiée et plus intéressante. Et puis en plus de cela, nous nous concentrons définitivement sur notre équipe de vente et sur la construction de celle-ci. »

La plate-forme de WellSaid Labs met à disposition un large assortiment de voix synthétiques au son naturel via sa plate-forme de production audio, pour une utilisation dans des applications allant du matériel de formation interne aux vidéos rapides sur les réseaux sociaux.

“Nous n’essayons pas de créer de meilleures voix que les humains”, a déclaré Hocking. « Ce n’est pas pour cela que nous sommes ici. Beaucoup de contenus ne sont pas exprimés, simplement à cause de la rapidité d’exécution qui doit se produire, ou il doit être constamment mis à jour, ou il s’agit simplement d’un contenu interne auquel aucun budget n’est associé.

Ce sont des situations dans lesquelles WellSaid est utile. “Cela ouvre des opportunités pour permettre à la voix d’être ajoutée à ces productions où elles n’auraient généralement pas cette alternative”, a déclaré Hocking.

Il a refusé de nommer les noms des clients, mais pour ce que cela vaut, le site Web de WellSaid répertorie les approbations de Nokia, de l’Université de Californie à San Francisco, de Blue Sky eLearn et d’un détaillant alimentaire canadien appelé Sobeys.

WellSaid propose plus d’une douzaine d’avatars de synthèse vocale basés sur des modèles de voix humaine, allant du bavardage d’un vendeur de voitures à des récitations pragmatiques qui sonnent comme s’ils venaient d’une chercheuse. La société affirme que son logiciel a atteint la «parité humaine» pour le naturel dans de courts clips audio.

Mais attendez… il y a plus : les clients peuvent créer leurs propres « AI Voice Avatars » selon leurs spécifications, capturant le style de parole d’une voix de marque. Théoriquement, WellSaid pourrait amener Jeff Bezos dans le studio et créer une voix synthétique qui donne l’impression que l’ancien PDG d’Amazon lisait un message de bienvenue aux nouveaux employés. (En réalité, si jamais ce besoin se faisait sentir, Amazon aurait probablement sa propre équipe de synthèse vocale pour faire le travail.)

Au fil du temps, WellSaid souhaite enrichir son répertoire et augmenter la fidélité de ses voix de synthèse. À l’avenir, les voix de l’entreprise pourraient bien jouer des rôles de parole dans les jeux vidéo, lire des scripts sur des programmes d’information générés par ordinateur ou s’engager dans des interactions complexes en temps réel avec les consommateurs.

Tout cela soulève des questions plus profondes sur la technologie de WellSaid et son modèle commercial. Tout d’abord, qu’est-ce qui empêche quelqu’un de synthétiser, disons, la voix du président Joe Biden à des fins malveillantes ?

“Nous avons évidemment la responsabilité de nous assurer que notre technologie est utilisée de la bonne manière aux bonnes fins”, a déclaré Hocking. « Nous créons des voix spécifiques à un domaine sur la base d’une vraie voix. Nous n’irions jamais construire une voix sans le consentement de quelqu’un.

Et en ce qui concerne le modèle économique, comment WellSaid peut-il espérer rivaliser avec des entreprises comme Google, Amazon et Microsoft, qui ont toutes leurs propres plateformes de synthèse vocale ?

« Nous sommes en concurrence avec eux parce qu’ils font du TTS [text-to-speech]», a reconnu Hocking. « Mais nous avons repensé et réinventé ce qu’est TTS. »

Hocking a fait valoir que WellSaid est bien placé pour poursuivre de nouvelles applications pour la technologie de synthèse vocale. « Nous avons été exposés à certains de ces autres cas d’utilisation intéressants », a-t-il expliqué. “Ce qui n’était possible que sur un plateau de tournage il y a cinq ans est maintenant possible dans une perspective différente aujourd’hui.”

Et du point de vue de Hocking, Seattle est le bon endroit pour repousser les limites de la synthèse vocale.

“La majorité de notre équipe vient de Seattle”, a-t-il souligné. “Nous nous sommes tous rencontrés ici, et notre préférence est évidemment d’avoir des gens vivant dans la région – non seulement parce que nous avons l’impression qu’il y a de grands talents ici, mais en plus, c’est juste un endroit idéal pour créer une entreprise.”