((Traduction automatisée par Reuters, veuillez consulter la clause de non-responsabilité https://bit.ly/rtrsauto))
(Ajout des commentaires de Zuckerberg et du contexte de raisonnement) par Katie Paul
Meta Platforms META.O a publié mardi la plus grande version de ses modèles d'intelligence artificielle Llama 3, pour la plupart gratuits, avec des compétences multilingues et des mesures de performances générales qui talonnent les modèles payants de rivaux comme OpenAI.
Le nouveau modèle Llama 3 peut converser en huit langues, écrire un code informatique de meilleure qualité et résoudre des problèmes mathématiques plus complexes que les versions précédentes, a indiqué la société mère de Facebook dans des articles de blog et un document de recherche annonçant la sortie de la nouvelle version.
Avec 405 milliards de paramètres, ou variables que l'algorithme prend en compte pour générer des réponses aux requêtes des utilisateurs, il éclipse la version précédente publiée l'année dernière , même s'il reste plus petit que les principaux modèles proposés par les concurrents.
Le modèle GPT-4 d'OpenAI, en revanche, aurait un trillion de paramètres et Amazon prépare un modèle avec 2 trillions de paramètres.
Faisant la promotion du Llama 3 sur plusieurs canaux, le directeur général Mark Zuckerberg a déclaré qu'il s'attendait à ce que les futurs modèles de Llama dépassent leurs concurrents propriétaires d'ici à l'année prochaine. Le chatbot Meta AI alimenté par ces modèles est en passe de devenir l'assistant d'intelligence artificielle le plus populaire d'ici la fin de l'année, avec des centaines de millions de personnes qui l'utilisent déjà, a-t-il déclaré.
Cette publication intervient alors que les entreprises technologiques s'efforcent de démontrer que leurs portefeuilles croissants de grands modèles de langage gourmands en ressources peuvent apporter des gains suffisamment importants dans des domaines connus comme le raisonnement avancé pour justifier les sommes gargantuesques qui ont été investies dans ces modèles.
Le principal chercheur en IA de Meta a déclaré qu'il pensait que ces modèles se heurteraient aux limites du raisonnement et que d'autres types de systèmes d'IA seraient nécessaires pour réaliser des percées.
Outre son modèle phare de 405 milliards de paramètres, Meta commercialise également des versions actualisées de ses modèles plus légers Llama 3 de 8 milliards et 70 milliards de paramètres, initialement lancés au printemps , a indiqué l'entreprise.
Les trois nouveaux modèles sont multilingues et peuvent traiter des demandes d'utilisateurs plus importantes grâce à une "fenêtre contextuelle" élargie, ce qui, selon Ahmad Al-Dahle, responsable de l'IA générative chez Meta, devrait améliorer l'expérience de la génération de code informatique en particulier.
"C'est le premier retour que nous avons eu de la communauté", a déclaré M. Al-Dahle lors d'un entretien avec Reuters, en soulignant que des fenêtres contextuelles plus grandes donnent aux modèles quelque chose qui s'apparente à une mémoire plus longue qui aide à traiter les demandes en plusieurs étapes.
Par ailleurs, M. Al-Dahle a déclaré que son équipe avait été en mesure d'améliorer les performances du modèle Llama 3 dans des tâches telles que la résolution de problèmes mathématiques en utilisant l'IA pour générer certaines des données sur lesquelles ils ont été formés.
Meta met ses modèles Llama à la disposition des développeurs de manière largement gratuite, une stratégie qui, selon Zuckerberg, portera ses fruits sous la forme de produits innovants, d'une moindre dépendance à l'égard de concurrents potentiels et d'un plus grand engagement sur les principaux réseaux sociaux de l'entreprise. Certains investisseurs ont toutefois froncé les sourcils en raison des coûts engendrés.
L'entreprise pourrait également tirer profit du fait que les développeurs choisissent d'utiliser ses modèles gratuits plutôt que des modèles payants, ce qui affaiblirait les modèles d'entreprise de ses rivaux. Lors de son annonce, Meta a vanté les progrès réalisés dans les principaux tests de mathématiques et de connaissances, ce qui pourrait rendre cette perspective plus attrayante.
Bien qu'il soit notoirement difficile de mesurer les progrès réalisés en matière de développement de l'IA, les résultats des tests fournis par Meta semblent indiquer que son plus grand modèle, le Llama 3, est presque équivalent, voire supérieur, au Claude 3.5 Sonnet d'Anthropic et au GPT-4o d'OpenAI, qui sont largement considérés comme les deux modèles frontaliers les plus puissants du marché.
Sur le benchmark MATH de problèmes mathématiques de niveau compétition, par exemple, le modèle de Meta a obtenu un score de 73,8, contre 76,6 pour GPT-4o et 71,1 pour Claude 3.5 Sonnet.
Le modèle a obtenu un score de 88,6 sur MMLU, un test de référence qui couvre des dizaines de sujets en mathématiques, en sciences et en sciences humaines, alors que GPT-4o a obtenu un score de 88,7 et Claude 3.5 Sonnet un score de 88,3.
Dans leur article, les chercheurs de Meta ont également annoncé la sortie, dans le courant de l'année, de versions "multimodales" des modèles, qui ajouteront des capacités d'image, de vidéo et de parole au modèle textuel de base Llama 3.
Les premières expériences indiquent que ces modèles peuvent être "compétitifs" par rapport à d'autres modèles multimodaux tels que Gemini 1.5 de Google et Claude 3.5 Sonnet d'Anthropic, ont-ils déclaré.

0 commentaire
Vous devez être membre pour ajouter un commentaire.
Vous êtes déjà membre ? Connectez-vous
Pas encore membre ? Devenez membre gratuitement
Signaler le commentaire
Fermer