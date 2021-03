https://jsimon-polly.s3.amazonaws.com/5a5d2ba5-e1d6-4759-b803-5d0073a59eef.mp3

Dernièrement, mes cercles de médias sociaux ont parlé de l’approche la plus simple ou la plus facile de la révolution audio et vocale pour les non-initiés. Certains éditeurs (et certains annonceurs aussi) sont déconcertés par l’étendue des options audio et à cause de cela, ils ne font rien.

Pour être honnête, je peux comprendre comment quelqu’un peut se sentir dépassé par le grand nombre de possibilités. Dans mon esprit, je les vois penser:

Le public aime vraiment les podcasts (star de la superproduction audio) – nous devons en avoir un.

Les compétences vocales sont également populaires, c’est donc une autre chose à explorer.

Mais alors – allons-nous avec Alexa ou Google Assistant, ou les deux?

Et une interface vocale? Devrions-nous changer notre chatbot en un voicebot?

Spotify semble énorme pour le moment, comment y prendre pied?

Ce sont toutes des questions et des doutes parfaitement raisonnables. La réalité est que l’audio n’est pas si compliqué. Il existe des solutions très simples que le monde des médias peut adopter pour lancer sa stratégie audio, et tout commence par la technologie de synthèse vocale (TTS).

Pourquoi la technologie de la synthèse vocale est-elle la première étape audio?

Hé, cette rubrique rime! En activant mon mode sérieux, il y a quatre raisons principales pour lesquelles TTS est:

Simplicité d’intégration

Faible coût de production

Soutenu par l’IA

Distribution sur TOUTES les autres plates-formes audio

Remarquez le lecteur audio au début de cet article, celui que vous utilisez peut-être pour écouter cet article au cas où vous voudriez être pratique? C’est le résultat final de la processus d’intégration simple et court. Un petit morceau de code est intégré dans le site Web respectif avec le contenu du texte (comme une publication d’actualités ou ce blog, par exemple) et est ajouté automatiquement à chaque nouvel article. En une heure, tout est mis en place.

Le chargement de l’audio converti ne prend que quelques secondes et en quelques clics de plus, il est possible de personnaliser entièrement le lecteur audio pour qu’il s’aligne de manière native sur l’aspect général du site Web. Le temps de chargement du lecteur est optimisé à la fois pour la latence et la consommation de ressources afin que son encombrement soit minimal. En prime, la lecture se poursuit en arrière-plan au cas où un visiteur déciderait d’ouvrir ou de passer à un autre onglet.

La synthèse vocale peut réduire considérablement les coûts de production par rapport à des alternatives telles que la narration humaine car le contenu existe déjà et il n’est pas nécessaire d’ajouter des modules complémentaires de post-production tels que des effets sonores et de la musique. Il s’agit simplement de le transformer en audio. La technologie est également hautement évolutive, vous pouvez donc faire plus avec moins.

Pour vous assurer que la technologie TTS ne convertit ou n’audiofie que le texte de la page qui est pertinent, Les solutions d’IA sont chargées de faire le bon match sur le site Web donné. Cela fait généralement partie du court processus d’intégration, où une sauce spéciale AI garantit que 100% du texte pertinent est lu et aucun des peluches.

Utiliser l’IA à ce titre n’a rien de nouveau. Par exemple, Apple a un widget intégré qui lit le texte sur mobile lorsque le lecteur fait glisser l’écran de haut en bas. Il existe également la fonction Read It de Google via Google Assistant, où l’assistant vocal lit directement les articles et autres textes.

Dans ces deux cas, l’expérience est fluide mais assez basique. Ne vous méprenez pas – c’est génial qu’ils existent sur des sites Web qui ne fournissent pas une expérience personnalisée, en particulier pour les personnes malvoyantes et analphabètes. C’est juste qu’ils ne fournissent pas une expérience d’écoute native qui soit en ligne avec le contenu, ce que l’intégration TTS personnalisée gère facilement.

Ce n’est pas tout en matière d’IA. En ce qui concerne l’écoute elle-même, il existe une variété d’options pour affiner l’expérience, telles que le réglage de différentes voix pour différentes sections, différentes vitesses de lecture pour différentes parties, la conversion multilingue, etc. Lorsqu’il est associé à un appareil à écran, il est possible d’associer du texte et de l’audio pour voir le texte tout en écoutant et synchroniser la mise en évidence pour les personnes handicapées. En bref, beaucoup peut être fait pour créer l’expérience parfaite.

Enfin, TTS agit comme un passerelle vers une distribution plus large dans le paysage audio, en cochant la plupart des cases de dilemme mentionnées précédemment. Votre contenu audio fraîchement créé peut être syndiqué sur toutes les plateformes de streaming audio. En quelques clics, vous pouvez essentiellement avoir un podcast en lui-même distribué sur Spotify, Apple Podcasts, Google Podcasts, iHeartMedia, etc. Voici un exemple du podcast de ce blog.

Mais qu’en est-il du discours froid et synthétique?

Cela vous surprendra-t-il d’apprendre que c’est tout sauf froid et concrètement synthétique?

Grâce aux progrès de la puissance de traitement et de la compression, la formation des modèles vocaux est plus facile et plus accessible. Propulsé par la technologie neuronale, nous avons maintenant les voix de synthèse vocale les plus naturelles et les plus humaines jamais développées.

L’avantage de la synthèse vocale neuronale (NTTS) est d’apprendre à partir des données d’entraînement, ce qui se traduit par une parole plus fluide sans unités de son audibles, un rythme approprié et une intonation de la voix en fonction du cas d’utilisation prévu (si le contexte est conversationnel ou informationnel). Il s’agit d’un discours synthétisé qui a des transitions fluides avec, par exemple, des pauses plus naturelles lors du passage d’un paragraphe à l’autre ou même du passage d’un dialogue à un autre entre différents personnages.

Les oreilles humaines sont devenues non seulement tolérantes aux voix «mécaniques», mais à l’aise avec elles. Notre recherche a montré que 59% des personnes ont écouté les versions audio alimentées par TTS des articles de presse et des articles de blog du début à la fin. Cela suggère clairement que la capacité de consommer du contenu via l’audio répond à un besoin du marché et que la technologie vocale est devenue très importante dans la consommation de contenu. Croyez-moi, nous ne faisons qu’effleurer la surface.

Conclusion: Frankie dit se détendre

Avec tout ce que j’ai écrit jusqu’à présent, je vais répéter ce que j’ai dit dans l’une de ces discussions sociales:

détendez-vous, prenez le temps de connaître la technologie et voyez si cela a du sens pour votre public.

Comprenez ce que vous pouvez en faire, comment vous pouvez le distribuer et comment votre public réagit. Il n’est pas nécessaire de démarrer un podcast et de consacrer vos ressources à quelque chose qui ne fonctionnera probablement pas. Je dis cela en tant que fan de podcast qui a accueilli le format à bras ouverts car j’aime la radio et c’était l’évolution naturelle et logique. Mais la saturation des podcasts est réelle et il devient de plus en plus difficile d’occuper et de retenir l’attention, surtout si c’est ainsi que vous faites irruption dans la scène audio.

La synthèse vocale alimentée par l’IA est la solution la plus simple et la plus simple pour comprendre SI votre public aime interagir avec du contenu audio. Vous connaissez mieux votre public – essayez-le et voyez sa réaction. Testez-le et si le sentiment est positif, construisez lentement sur cette base en augmentant progressivement le rythme et l’investissement.

Alors, qu’est-ce que j’obtiens avec le contenu audio?

Le fait est que l’audio numérique est maintenant partout, à commencer par une version intégrée de lui-même sur de nombreux sites Web. Grâce à cette omniprésence, l’audio est aujourd’hui utilisé à la fois comme canal principal de consommation de contenus et comme support complémentaire à la communication écrite et / ou visuelle. Peu importe que les gens recherchent des informations et des divertissements. Ils veulent les deux, et plus encore.

La révolution qui a commencé avec l’adoption croissante des haut-parleurs intelligents poursuit désormais son ascension grâce à une meilleure connectivité numérique partout. Un bon exemple est celui des voitures et autres types de véhicules qui approfondissent lentement le concept des plates-formes de divertissement à chaque nouvelle version.

Il a effectivement transformé la façon dont les gens consomment le contenu en raison de sa nature personnelle et pratique. Donc l’ajouter à votre répertoire signifie d’abord et avant tout répondre aux besoins d’un public croissant d’auditeurs.

Je pourrais vous parler des différentes opportunités qu’offre une expérience d’écoute, d’une meilleure expérience utilisateur et de rendre votre contenu portable à de nouvelles options de distribution et un nouveau flux de monétisation. Qu’il suffise de dire que l’audio est là où se trouve le public de nos jours, en particulier les lecteurs, et qu’ils y resteront longtemps.

Quelle est la prochaine étape?

Disons que vous proposez déjà une expérience d’écoute.

Il y a quelque temps, j’ai officialisé ma vision d’une stratégie audio en plusieurs étapes, et je m’en tiens fermement à cette structure.

Ces cinq étapes peuvent également être regroupées en quatre phases distinctes, tout comme les films Marvel:

Mettre à la disposition en donnant à votre public la possibilité d’écouter votre contenu; Améliorer en recommandant plus d’articles de contenu audio à écouter pour améliorer l’expérience globale; Développer en offrant des options pour consommer votre audio via des canaux supplémentaires tels que les plates-formes audio grand public et les haut-parleurs intelligents; Vocaliser en permettant à vos utilisateurs de découvrir, d’interagir et d’interagir avec votre contenu audio à l’aide de commandes vocales.

C’est un cercle très uni qui maximise le potentiel de votre contenu dans un monde où les gens veulent effectuer plusieurs tâches et absorber en déplacement. La barre est haute, je vais vous le dire.

Dernières pensées

Avec plus de consommation de contenu audio que jamais auparavant, le moment est venu de vous concentrer et de vous renseigner. Il y a un tas de bonnes choses que l’audio apporte à chaque stratégie de contenu: la portabilité, l’intimité, l’immersion et l’implication passive de l’auditeur, pour n’en nommer que quelques-unes.

Notez que malgré la technologie qui fait la plupart des démarches, une bonne expérience d’écoute exige un peu de travail de votre part. Cela concerne principalement la création de contenu audio-friendly car la technologie sous-jacente n’est pas parfaite, ce qui signifie que certains contenus fonctionnent mieux que les autres. Il s’agit d’un secteur en développement qui recherche constamment des moyens de tirer le meilleur parti du contenu tout en le gardant très pertinent et économique.

Une chose est sûre: les personnes qui privilégient l’audio et la voix d’abord vous couvrent.

Crédits image: