Moins de quatre mois après avoir dévoilé son Segment Anything Model 2 axé sur la vidéo, Meta a publié SAM 3 et SAM 3D, déployant immédiatement les modèles avancés de vision par ordinateur dans des produits grand public comme Facebook Marketplace et Instagram.
Les deux outils permettent aux ordinateurs de mieux comprendre ce qu’ils regardent. SAM 3 permet aux utilisateurs de saisir une description et de permettre à l’IA de trouver et de mettre en évidence instantanément chaque objet correspondant dans une photo ou une vidéo.
SAM 3D va encore plus loin en prenant une image plate en deux dimensions et en prédisant à quoi ressemblera l’objet sous d’autres angles, transformant ainsi une photo standard en un modèle 3D rotatif.
Alors que les itérations précédentes restaient en grande partie dans le domaine de la recherche, cette mise à jour marque un passage rapide à l’utilitaire appliqué, alimentant des fonctionnalités qui permettent aux utilisateurs de visualiser des meubles dans leur maison ou d’appliquer des effets à des objets spécifiques dans des vidéos.
Les nouveaux modèles introduisent le « concept rapide ».”Segmentation”, permettant l’identification textuelle de tous les objets correspondants dans une scène et la reconstruction 3D haute fidélité à partir d’images 2D uniques-des capacités qui, selon les méta, surpassent largement les références existantes.
La version 2024 de SAM 2 s’est fortement concentrée sur l’efficacité de la segmentation vidéo, mais l’annonce d’aujourd’hui élargit considérablement la portée pour inclure la compréhension sémantique et la génération 3D.
De la recherche au produit : immédiat Intégration
Rompant le cycle traditionnel de la recherche au produit, Meta contourne la phase d’incubation typique pour intégrer SAM 3 directement dans ses applications phares.
Les utilisateurs de Facebook Marketplace découvriront désormais une fonctionnalité « View in Room » optimisée par SAM 3D, qui permet aux acheteurs potentiels de visualiser à quoi ressembleraient les meubles dans leur propre espace de vie avant de s’engager dans un achat.
Cette application exploite la capacité du modèle à reconstruire Objets 3D à partir d’images 2D uniques, abordant un point de friction courant dans le commerce en ligne.
Simultanément, l’application « Edits » d’Instagram et la fonctionnalité « Vibes » de Meta AI utilisent SAM 3 pour activer des effets vidéo précis et spécifiques à un objet. Les créateurs peuvent désormais appliquer des modifications telles que des projecteurs ou des traînées de mouvement à des sujets spécifiques dans une image vidéo, tâches qui nécessitaient auparavant un masquage complexe dans un logiciel de montage professionnel.
Afficher sur les discussions
En automatisant ces processus, Meta vise à banaliser les effets visuels avancés, les rendant accessibles en tant qu’utilitaires standard pour les utilisateurs occasionnels.
Pour faciliter une expérimentation plus large, la société a lancé le « Segment Anything Playground », une interface Web qui permet au public de tester ces modèles sans expertise technique.
Les utilisateurs peuvent télécharger des images ou des vidéos et inviter le système avec des descriptions textuelles à voir les capacités de segmentation en temps réel. Cette stratégie contraste fortement avec le déploiement de SAM 2, qui est resté principalement un outil destiné à la communauté de recherche en vision par ordinateur.
Le déploiement immédiat dans les applications grand public suggère un pivot stratégique pour tirer parti des avancées de l’IA pour la fidélisation et l’engagement des utilisateurs dans l’écosystème social de Meta.
Leap technique : segmentation des concepts et 3D
SAM 3 introduit une fonctionnalité importante appelée « Promptable Concept Segmentation » (PCS). Contrairement à ses prédécesseurs, qui se concentraient sur la segmentation d’objets uniques en fonction d’invites visuelles telles que des clics ou des cases, SAM 3 peut identifier et masquer toutes les instances d’un concept décrit par du texte.
Par exemple, un utilisateur peut inviter le modèle avec « casquette de baseball rouge », et il segmentera chaque élément correspondant dans le cadre. Ce changement nécessite que le modèle possède à la fois une compréhension sémantique du texte et des capacités de localisation précises.
Pour y parvenir, l’architecture dissocie la reconnaissance de la localisation à l’aide d’un « jeton de présence ». Ce mécanisme détermine d’abord si un concept existe dans le cadre avant que le modèle ne tente de le segmenter, réduisant ainsi les faux positifs et améliorant la précision globale de la détection.
Selon l’équipe de recherche Meta,”SAM 3 double la précision des systèmes existants dans les PCS d’image et de vidéo, et améliore les capacités SAM précédentes sur les tâches de segmentation visuelle.”
Cette double approche permet au modèle de gérer des requêtes complexes tout en maintenant des performances élevées sur les tâches de segmentation standard.
Meta Sam 3 Segmentez tout avec des concepts.
Dans la génération 3D, SAM 3D permet la reconstruction d’objets et de scènes à partir d’une seule image 2D, une tâche qui nécessitait traditionnellement plusieurs points de vue ou données de profondeur. Meta affirme que ce nouveau modèle surpasse considérablement les méthodes existantes.
L’équipe Meta AI note que”dans les tests de préférences humaines en face-à-face, il atteint au moins un taux de victoire de 5 : 1 par rapport aux autres modèles leaders.”Ceci est particulièrement pertinent pour les applications de réalité augmentée et de jeux, où la génération rapide d’actifs est cruciale.
Vue sur les discussions
Les mesures de performances publiées par Meta indiquent que SAM 3 est très efficace. L’équipe Meta Research déclare également que”SAM 3 s’exécute en 30 millisecondes pour une seule image avec plus de 100 objets détectés sur un GPU H200″. Une telle vitesse est essentielle pour les applications en temps réel sur les appareils grand public, où la latence peut dégrader l’expérience utilisateur.
Pour la reconstruction humaine, SAM 3D Body utilise un nouveau format open source.
« SAM 3D Body… exploite un nouveau format de maillage 3D open source appelé Meta Momentum Human Rig (MHR), qui offre une interprétabilité améliorée en séparant la structure squelettique et la forme des tissus mous. »
Cette séparation permet une interprétation plus réaliste et plus réaliste. des modèles humains ajustables, ce qui pourrait avoir des implications pour les avatars virtuels et l’animation.
Malgré ces progrès, le modèle n’est pas sans limites. L’équipe Meta AI admet que « SAM 3 a du mal à généraliser des concepts hors domaine précis de manière immédiate, comme l’identification de termes spécifiques qui nécessitent une connaissance du domaine comme « plaquette ». moteur de données hybride, Meta a pu faire évoluer ses données de formation de manière significative. La société a développé un système utilisant des « annotateurs IA » basés sur Llama pour vérifier les masques et vérifier l’exhaustivité, une tâche qui serait d’une lenteur prohibitive pour les humains seuls.
Meta explique qu’« en déléguant certaines tâches aux annotateurs IA – des modèles qui correspondent ou dépassent la précision humaine – nous avons plus que doublé le débit par rapport à un pipeline d’annotation réservé aux humains. »
Cette approche a permis la création de l’ensemble de données SA-Co, qui contient plus de 4 millions de concepts uniques et 52 millions de masques, offrant un riche terrain d’entraînement pour les nouveaux modèles.
Parallèlement aux modèles, Meta a publié le benchmark « Segment Anything with Concepts » (SA-Co). Cet ensemble de données présente 207 000 concepts uniques conçus pour tester les capacités de reconnaissance de vocabulaire ouvert, repoussant ainsi les normes de l’industrie en matière d’évaluation.
Le moteur de données extrait également de manière itérative les « négatifs durs » (des expressions qui n’existent pas dans une image mais qui s’opposent au modèle) pour améliorer la robustesse contre les faux positifs.
Au-delà des applications grand public, la technologie trouve des applications dans la recherche scientifique. Un partenariat avec Conservation X Labs a appliqué SAM 3 à l’ensemble de données SA-FARI, contribuant ainsi à la surveillance automatisée de la faune grâce à la segmentation vidéo. Ce cas d’utilisation démontre l’utilité potentielle du modèle dans le traitement de grands volumes de données vidéo non conservées à des fins de recherche.
La version comprend des poids de modèle, du code et des ensembles de données d’évaluation, poursuivant la stratégie de Meta d’open source des technologies d’IA clés. En rendant ces outils disponibles, Meta vise à établir des normes industrielles et à encourager le développement ultérieur au sein de la communauté de l’IA.
Les travaux futurs se concentreront sur l’amélioration de la capacité du modèle à gérer des requêtes de raisonnement complexes en combinant SAM 3 avec des modèles multimodaux de langage étendu (MLLM), permettant potentiellement des interactions encore plus sophistiquées.