Meta présente des modèles d’IA avancés pour la vision et le langage

EditeurLuke Juricic
Publié le 06/05/2025 21:05
© Reuters.

Investing.com — Meta Platforms (NASDAQ:META) a dévoilé une série de nouveaux modèles d’intelligence artificielle qui repoussent les limites de la perception machine et de la compréhension du langage, marquant une avancée significative dans les capacités de l’IA. Parmi ces nouveaux modèles figurent le Perception Encoder, le Perception Language Model (PLM), Meta Locate 3D, le Dynamic Byte Latent Transformer et le Collaborative Reasoner, chacun conçu pour relever des défis complexes dans leurs domaines respectifs.

Le Perception Encoder se distingue par sa capacité à interpréter les informations visuelles des images et des vidéos, surpassant les modèles existants dans les tâches de classification et de récupération sans apprentissage préalable. Il a démontré une grande compétence dans des tâches difficiles, comme l’identification d’animaux dans leurs habitats naturels, et a montré des améliorations significatives dans les tâches linguistiques après son intégration avec un grand modèle de langage.

Le PLM de Meta, quant à lui, est un modèle vision-langage open-source entraîné sur une combinaison de données étiquetées par des humains et de données synthétiques. Il est conçu pour gérer des tâches complexes de reconnaissance visuelle et existe en variantes comptant jusqu’à 8 milliards de paramètres. Le PLM-VideoBench, un nouveau benchmark lancé en même temps que le PLM, se concentre sur la compréhension fine des activités et le raisonnement spatio-temporel.

Dans le domaine de la robotique, Meta Locate 3D représente une innovation en matière de localisation d’objets, permettant aux robots de comprendre et d’interagir avec le monde en 3D à l’aide de commandes en langage naturel. Ce modèle peut localiser avec précision des objets dans des environnements 3D, une étape cruciale vers des systèmes robotiques plus autonomes et intelligents. Meta a également publié un ensemble de données pour soutenir le développement de cette technologie, comprenant 130.000 annotations linguistiques.

Le Dynamic Byte Latent Transformer est un autre modèle révolutionnaire de Meta, conçu pour améliorer l’efficacité et la robustesse du traitement du langage. Cette architecture de modèle de langage au niveau des octets égale les performances des modèles traditionnels basés sur la tokenisation et est désormais disponible pour la communauté suite à sa publication de recherche fin 2024.

Enfin, le cadre Collaborative Reasoner vise à développer des agents d’IA sociaux capables de collaborer avec des humains ou d’autres agents d’IA. Il comprend une série de tâches orientées vers des objectifs qui nécessitent un raisonnement en plusieurs étapes et une conversation à plusieurs tours. L’évaluation de Meta montre que les modèles actuels peuvent bénéficier du raisonnement collaboratif, et l’entreprise a rendu open-source son pipeline de génération de données et de modélisation pour encourager davantage de recherches.

Alors que Meta intègre ces modèles d’IA avancés dans de nouvelles applications, le potentiel de systèmes d’IA plus performants dans divers domaines est appelé à s’étendre, marquant des progrès significatifs dans la recherche et le développement de l’intelligence artificielle.

Cet article a été généré et traduit avec l’aide de l’IA et revu par un rédacteur. Pour plus d’informations, consultez nos T&C.

Derniers commentaires

Installez nos applications
Divulgation des risques: Négocier des instruments financiers et/ou des crypto-monnaies implique des risques élevés, notamment le risque de perdre tout ou partie de votre investissement, et cela pourrait ne pas convenir à tous les investisseurs. Les prix des crypto-monnaies sont extrêmement volatils et peuvent être affectés par des facteurs externes tels que des événements financiers, réglementaires ou politiques. La négociation sur marge augmente les risques financiers.
Avant de décider de négocier des instruments financiers ou des crypto-monnaies, vous devez être pleinement informé des risques et des frais associés aux transactions sur les marchés financiers, examiner attentivement vos objectifs de placement, votre niveau d'expérience et votre tolérance pour le risque, et faire appel à des professionnels si nécessaire.
Fusion Media tient à vous rappeler que les données contenues sur ce site Web ne sont pas nécessairement en temps réel ni précises. Les données et les prix sur affichés sur le site Web ne sont pas nécessairement fournis par un marché ou une bourse, mais peuvent être fournis par des teneurs de marché. Par conséquent, les prix peuvent ne pas être exacts et peuvent différer des prix réels sur un marché donné, ce qui signifie que les prix sont indicatifs et non appropriés à des fins de trading. Fusion Media et les fournisseurs de données contenues sur ce site Web ne sauraient être tenus responsables des pertes ou des dommages résultant de vos transactions ou de votre confiance dans les informations contenues sur ce site.
Il est interdit d'utiliser, de stocker, de reproduire, d'afficher, de modifier, de transmettre ou de distribuer les données de ce site Web sans l'autorisation écrite préalable de Fusion Media et/ou du fournisseur de données. Tous les droits de propriété intellectuelle sont réservés par les fournisseurs et/ou la plateforme d’échange fournissant les données contenues sur ce site.
Fusion Media peut être rémunéré par les annonceurs qui apparaissent sur le site Web, en fonction de votre interaction avec les annonces ou les annonceurs.
La version anglaise de ce document est celle qui s'impose et qui prévaudra en cas de différence entre la version anglaise et la version française.
© 2007-2025 - Fusion Media Ltd Tous droits réservés