Investing.com — Meta Platforms (NASDAQ:META) a dévoilé une série de nouveaux modèles d’intelligence artificielle qui repoussent les limites de la perception machine et de la compréhension du langage, marquant une avancée significative dans les capacités de l’IA. Parmi ces nouveaux modèles figurent le Perception Encoder, le Perception Language Model (PLM), Meta Locate 3D, le Dynamic Byte Latent Transformer et le Collaborative Reasoner, chacun conçu pour relever des défis complexes dans leurs domaines respectifs.
Le Perception Encoder se distingue par sa capacité à interpréter les informations visuelles des images et des vidéos, surpassant les modèles existants dans les tâches de classification et de récupération sans apprentissage préalable. Il a démontré une grande compétence dans des tâches difficiles, comme l’identification d’animaux dans leurs habitats naturels, et a montré des améliorations significatives dans les tâches linguistiques après son intégration avec un grand modèle de langage.
Le PLM de Meta, quant à lui, est un modèle vision-langage open-source entraîné sur une combinaison de données étiquetées par des humains et de données synthétiques. Il est conçu pour gérer des tâches complexes de reconnaissance visuelle et existe en variantes comptant jusqu’à 8 milliards de paramètres. Le PLM-VideoBench, un nouveau benchmark lancé en même temps que le PLM, se concentre sur la compréhension fine des activités et le raisonnement spatio-temporel.
Dans le domaine de la robotique, Meta Locate 3D représente une innovation en matière de localisation d’objets, permettant aux robots de comprendre et d’interagir avec le monde en 3D à l’aide de commandes en langage naturel. Ce modèle peut localiser avec précision des objets dans des environnements 3D, une étape cruciale vers des systèmes robotiques plus autonomes et intelligents. Meta a également publié un ensemble de données pour soutenir le développement de cette technologie, comprenant 130.000 annotations linguistiques.
Le Dynamic Byte Latent Transformer est un autre modèle révolutionnaire de Meta, conçu pour améliorer l’efficacité et la robustesse du traitement du langage. Cette architecture de modèle de langage au niveau des octets égale les performances des modèles traditionnels basés sur la tokenisation et est désormais disponible pour la communauté suite à sa publication de recherche fin 2024.
Enfin, le cadre Collaborative Reasoner vise à développer des agents d’IA sociaux capables de collaborer avec des humains ou d’autres agents d’IA. Il comprend une série de tâches orientées vers des objectifs qui nécessitent un raisonnement en plusieurs étapes et une conversation à plusieurs tours. L’évaluation de Meta montre que les modèles actuels peuvent bénéficier du raisonnement collaboratif, et l’entreprise a rendu open-source son pipeline de génération de données et de modélisation pour encourager davantage de recherches.
Alors que Meta intègre ces modèles d’IA avancés dans de nouvelles applications, le potentiel de systèmes d’IA plus performants dans divers domaines est appelé à s’étendre, marquant des progrès significatifs dans la recherche et le développement de l’intelligence artificielle.
Cet article a été généré et traduit avec l’aide de l’IA et revu par un rédacteur. Pour plus d’informations, consultez nos T&C.