La start-up musicale Lalal.ai est un séparateur audio AI qui peut séparer les voix et les instrumentaux en tiges distinctes. À chaque interaction de piste, les capacités de division de l’IA s’améliorent – bien que ce soit (littéralement) un travail en cours.

La pièce suivante a été développée en collaboration avec Lalal.ai, partenaire de Digital Music News.

Alors, qu’est-ce que le fractionnement audio AI? L’un des premiers acteurs dans ce domaine est Lalal.ai, qui poursuit un modèle conçu pour supplanter davantage de plugins DAW statiques ou de solutions logicielles de fractionnement conventionnelles qui ne sont pas conçues pour s’améliorer automatiquement avec le temps.

De par sa nature même, la technologie Lalal.ai n’est pas parfaite. Au lieu de cela, il évolue et se perfectionne constamment: l’algorithme Lalal.ai qui effectue le fractionnement est formé à l’aide de milliers de pistes, dans un processus qui affine constamment l’IA sous-jacente. Cela signifie que les utilisateurs qui téléchargent de l’audio sur le service aident à entraîner le modèle pour un fractionnement audio de qualité.

La qualité du son et le mastering de chaque piste individuelle sont également des facteurs importants pour la précision d’un partage audio AI.

Lalal.ai pense que sa trajectoire d’amélioration basée sur l’IA surpassera facilement les solutions de fractionnement existantes au fil du temps. Cela inclut Deezer, qui a créé Spleeter, un outil qui permet aux DJ d’effectuer une réduction et une isolation vocales. Spleeter est un excellent programme entre les mains du bon ingénieur du son, mais il n’est pas tout à fait prêt pour les heures de grande écoute.

Spleeter est un programme Python qui nécessite un outil de ligne de commande pour être utilisé. Il produit toujours des fichiers WAV à 44,1 kHz / 16 bits, quel que soit le format téléchargé. Cela signifie que les utilisateurs doivent reconvertir la sortie de Spleeter au format d’origine avant de pouvoir être utilisée.

En revanche, Lalal.ai est un séparateur audio en ligne convivial alimenté par l’IA. Il n’a pas besoin d’être installé et il n’y a pas de plug-ins tiers pour l’utilisation de la DAW. Faites simplement glisser et déposez un fichier audio dans le navigateur, puis téléchargez les pistes vocales et instrumentales séparées. Le format audio que vous alimentez Lalal.ai est le format que vous recevez une fois le traitement terminé.

Alors, comment un séparateur audio AI est-il formé, exactement?

La modélisation de l’information est la principale façon dont Lalal.ai est formé pour diviser les pistes audio. Le réseau de neurones est alimenté par un modèle utilisant des pistes séparées par un humain. Plus le modèle est précis, mieux le processus d’apprentissage automatique peut déchiffrer l’audio vocal à partir de l’audio instrumental.

L’apprentissage consiste à optimiser le modèle par rapport aux connaissances actuelles disponibles pour obtenir le meilleur résultat. Ce processus d’optimisation de modèle est appelé apprentissage automatique lorsqu’il est assisté par des ordinateurs (bon apprentissage à l’ancienne lorsque les humains le font).

Ce qui nous amène à la différence fondamentale entre la technologie de division audio classique et les approches basées sur l’IA.

Tout comme leurs homologues humains, l’IA qui est formée à une tâche spécifique s’améliore au fil du temps. Les ordinateurs modélisent constamment des choses différentes et à mesure que ce modèle se développe, ses connaissances augmentent également.

Alors que les programmes de fractionnement audio classiques tels que Spleeter de Deezer peuvent aider les humains à fractionner l’audio, les programmes d’IA apprennent et s’améliorent au fil du temps à mesure que davantage de données sont ajoutées. Cela signifie que des services comme Lalal.ai peuvent améliorer le fractionnement de leur tige à mesure que davantage de données deviennent disponibles.

La création d’un mécanisme d’IA fonctionnel nécessite un modèle et un processus ou un apprentissage d’optimisation de modèle. Le Lalal.ai a les deux. Il peut traiter le son stéréo de divers formats audio d’entrée et le transformer en deux tiges. Le réseau génère un fragment de données décrivant le placement des parties vocales et instrumentales dans le signal d’entrée d’origine.

Après cela, le fragment de données est passé à un autre algorithme qui convertit le signal d’entrée en tiges distinctes. Bien que le processus soit assez simple à décrire, il effectue plusieurs milliards d’opérations mathématiques pour savoir où placer ces indicateurs de données pour un bon résultat.

Tout comme les petits enfants doivent exécuter un acte plusieurs fois pour l’apprendre correctement, les réseaux de neurones le font aussi. Lalal.ai doit traiter des centaines de milliers de pistes audio avant de pouvoir apprendre à séparer les tiges vocales des tiges instrumentales. Les données d’entraînement peuvent facilement atteindre des gigaoctets de chansons.