Le plus grand modèle de langue en français voit le jour !

Le plus grand modèle de langue en français voit le jour !

09.11.2021 – L’agence digitale suisse Coteries, basée à l’EPFL Innovation Park, lance aujourd’hui Cedille, une nouvelle intelligence artificielle pour la génération de textes qui apporte une solution à même de changer la donne pour les utilisateurs francophones.

Dès lors, toute entreprise active dans la génération de contenus en français (qui avait jusqu’à présent essentiellement accès à des modèles entraînés en anglais) peut désormais tirer parti du plus grand modèle francophone à ce jour, accessible publiquement en version Bêta sur cedille.ai.

Cedille est 4 fois plus grand que les modèles francophones publiés à ce jour. Avec ses 6 milliards de paramètres, Cedille peut générer des textes en français d’excellente qualité et est à même de rivaliser avec des modèles multilingues comme GPT-3, la référence actuelle du domaine. Cedille a des possibilités d’application infinies et est particulièrement puissant pour générer des articles, résumer de longs rapports, réécrire des textes, traduire des contenus, trouver des idées, construire des chatbots et simplifier des concepts complexes. Pour le côté plus technique, le modèle atteint aujourd’hui un score de perplexité – une mesure de performance clé de prédiction du prochain mot où le score le plus bas est le meilleur – de 4.5 comparé au meilleur système disponible publiquement (GPT-fr) qui présente un score de 12.9, positionnant Cedille comme près de 3 fois plus performant.

Basée à l’EPFL Innovation Park, Coteries compte une douzaine de spécialistes du digital fournit des services en design UX/UI, en développement web et mobile, en marketing digital et en machine learning à de nombreux clients. L’équipe d’apprentissage automatique spécialisée en traitement du langage naturel (Natural Language Processing) et en génération de langage naturel (Natural Language Generation) est composée de Florian Laurent (Master of Science en informatique de l’EPFL) et Martin Müller (Master en biologie computationnelle et bioinformatique de l’ETHZ  et d’un PhD de l’EPFL).

Selon Martin “Avec Cedille nous redistribuons les cartes pour le français comparé aux modèles de langue anglophones – et avec encore d’autres modèles de langues à venir! Nous avons pu réaliser cet exploit grâce aux efforts de la communauté open source EleutherAI. En publiant notre modèle publiquement, nous sommes ravis de contribuer en retour à la communauté!”

Selon Florian “Avec Cedille, je suis ravi de pouvoir apporter la puissance de très grands modèles à la langue française. Il n’y a désormais plus besoin d’entraîner un nouveau modèle pour chaque tâche spécifique: il suffit de donner quelques exemples à Cedille!”

Soucieuse de publier un modèle libre de contenus inappropriés, les ingénieurs ont pris soin de filtrer les données sur lesquelles Cedille est entraîné. Tous les contenus toxiques ainsi que les contenus de faible qualité ont été supprimés. Ce processus a été rendu possible par une combinaison de traitement du langage naturel et d’un examen manuel minutieux des échantillons de données.

Un projet lancé avec le soutien de Google

Le projet a été lancé avec le soutien du programme Google TRC et a été entraîné pendant plusieurs mois sur des Tensor Processing Units (TPUs), des puces spéciales fabriquées par Google pour accélérer les calculs en intelligence artificielle. L’utilisation de cette infrastructure a permis d’assurer une empreinte écologique neutre pour le processus d’entraînement du modèle. Une réalisation majeure quand on sait que de tels processus nécessitent des quantités d’énergie énormes et donc des émissions de carbone élevées.

Contact
Pour toute information complémentaire, n’hésitez pas à prendre contact avec l’équipe sur cedille.ai/contact ou via hello@cedille.ai.

Source: Communiqué Coteries

Image: (c) Coteries 2021 – Martin Müller, Senior Machine Learning Engineer (à gauche) et Florian Laurent, Senior Machine Learning Engineer (à droite)