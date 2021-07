in

La langue espagnole dispose déjà d’un modèle d’IA massif que tout le monde peut utiliser. Bientôt, il sera appliqué au catalan, au galicien, au basque, au portugais et à l’espagnol en Amérique latine.

Le Barcelona Supercomputing Center -Centro Nacional de Supercomputación (BSC), en collaboration avec la Bibliothèque nationale d’Espagne, a présenté MarIA, l’intelligence artificielle de la langue espagnole le plus avancé qui soit.

MarIA est une experte en IA pour comprendre et écrire en espagnol et est capable de comprendre non seulement des concepts abstraits, mais aussi leur contexte.

Cette intelligence artificielle a été formée avec 59 000 Go de textes traités pendant près de 7 millions d’heures par le supercalculateur MareMostrum du BSC, l’un des plus puissants d’Europe.

Comme il s’agit d’un projet réalisé par des organismes publics espagnols, MarIA est disponible sous forme open source pour tous ceux qui veulent l’utiliser. Il peut être téléchargé sur GitHub.

Ses applications possibles vont des correcteurs ou prédicteurs de langue aux applications de résumé automatique, aux chatbots, aux recherches intelligentes, aux moteurs de traduction et au sous-titrage automatique, entre autres.

C’est ainsi que MarIA a été créée

La première étape dans la création d’un modèle du langage est de développer un corpus de mots et de phrases qui sera la base sur laquelle le système sera formé.

Pour créer le corpus MarIA, 59 To ont été utilisés, soit 59 000 Go de textes issus des archives web de la Bibliothèque nationale d’Espagne.

Ces textes ont été passés au crible pour éliminer tout autre chose qu’un langage bien formé. Il a fallu presque 7 millions d’heures de travail supplémentaires du supercalculateur MareNostrum. Ainsi, plus de 200 millions de documents occupant 550 Go de données.

Les chercheurs du BSC-CNS ont utilisé réseaux de neurones basés sur l’architecture Transformer qui ont été formés avec ces 200 millions de textes, à apprendre à utiliser la langue.

Ces formations utilisent des techniques telles que la présentation de textes avec des mots cachés au réseau de neurones, afin que vous appreniez à deviner quel est le mot caché étant donné son contexte.

Pour cette formation ont été nécessaires 184 000 heures processeur et plus de 18 000 heures GPU.

Le résultat est MarIA, un expert en intelligence artificielle en langue espagnole, que tout le monde peut utiliser. Maintenant, ce processus sera appliqué au reste des langues de l’État espagnol.

Nous vivons le début d’une révolution, celle de l’intelligence artificielle, qui ne fait que commencer…