L’équipe QWEN d’Alibaba a lancé Qwen3-VL, sa série de modèles de langue visuelle la plus puissante à ce jour.

publié le 23 septembre, le produit phare est un modèle massif de 235 milliards de dollars paramètre mis à la disposition des développeurs du monde entier. Sa grande taille (471 Go) en fait un outil pour les équipes bien ressourcées.

L’IA open-source défie directement les meilleurs systèmes fermés comme Google’s Gemini 2.5 Pro avec de nouvelles compétences avancées.

Il s’agit notamment d’agir en tant que”agent visuel”pour contrôler les applications et comprendre les vidéos de plusieurs heures. Le communiqué est une décision clé dans la stratégie d’Alibaba pour diriger le champ d’IA open source.

Ce lancement n’est pas un événement isolé, mais la dernière salve de la campagne agressive d’Alibaba pour dominer la société a publié une vague de modèles puissants pour le fait de faire des motifs, de la génération d’images, de la génération d’images, de la génération d’images, de la génération d’images, de la compréhension de la compréhension, de l’Open de procédures, et de la génération d’images, de la génération d’images, de la génération d’images, d’assemblage de compréhension, de l’ouverture de l’openser, et de la génération d’images, de la génération d’images, de l’assemblage de la compréhension, Les empiles de ses rivaux occidentaux.

Disponible sur le visage étreint Sous une licence Apache 2.0 permissive. Sa performance est à la pointe de la technologie.”La version instruct correspond ou dépasse même Gemini 2.5 Pro dans les principales références de perception visuelle. La version pensée obtient des résultats de pointe dans de nombreux références multimodales de raisonnement”, a déclaré l’équipe dans son annonce visuelle. href=”https://qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef&from=research.latest-advancements-LIST”Target=”_ Blank”> Innovation clé dans qwen3-vl Cette fonction se déplace au-delà de la reconnaissance d’image simple, permettant au modèle de faire fonctionner les interfaces utilisateur graphiques informatiques et mobiles (GUIS).

Il peut reconnaître les éléments à l’écran, comprendre leurs fonctions et exécuter les tâches de manière autonome.

Cela transforme le modèle d’un observateur passif en un participant actif dans les environnements numériques. Les applications potentielles vont de l’automatisation des tâches logicielles répétitives et d’aider les utilisateurs avec des flux de travail complexes à la création d’outils d’accessibilité plus intuitifs pour naviguer sur les applications.

L’utilité pratique du modèle est encore améliorée par sa fenêtre de contexte massive. Il prend en charge nativement 256 000 jetons, extensible jusqu’à un million.

Cela permet à un utilisateur de nourrir le modèle un film complet, puis de poser des questions spécifiques sur les points de l’intrigue ou les apparences de caractères, que le modèle peut identifier à la seconde. Les nouvelles capacités sont alimentées par une refonte architecturale importante conçue pour repousser les limites de la compréhension visuelle et temporelle.

L’équipe QWEN a introduit trois mises à jour principales pour améliorer ses performances, en particulier avec des détails visuels à grain fin long, comme .

Tout d’abord, le modèle utilise un «mrope entrelacée», une méthode de codage de position plus robuste. Cela remplace l’approche précédente où les informations temporelles ont été concentrées dans des dimensions à haute fréquence. La nouvelle technique distribue des données de temps, de hauteur et de largeur sur toutes les fréquences, améliorant considérablement la compréhension à longue vidéo tout en maintenant la compréhension de l’image.

Deuxièmement, l’introduction de la technologie «Deepstack» améliore la capture des détails visuels. Au lieu d’injecter des jetons visuels dans une seule couche du modèle de langue, Deepstack les injecte sur plusieurs couches. Cela permet une fusion plus fine des fonctionnalités à plusieurs niveaux du transformateur de vision (VIT), affûtant la précision d’alignement du texte du modèle.

Enfin, l’équipe a amélioré sa modélisation temporelle vidéo de la corde T à un mécanisme”d’alignement de timestampe texte”. Ce système utilise un format d’entrée entrelacé des horodatages et des trames vidéo, permettant un alignement précis au niveau du cadre entre les données temporelles et le contenu visuel. Cela augmente considérablement la capacité du modèle à localiser les événements et les actions dans des séquences vidéo complexes.

Cette version est la dernière d’une offensive d’IA rapide et délibérée d’Alibaba. La société a récemment lancé de puissants modèles open source pour un raisonnement avancé et une génération d’images à haute fidélité. Cette décision solidifie également un pivot stratégique loin du mode «pensée hybride» des modèles antérieurs, ce qui obligeait les développeurs à basculer entre les modes.

Le passage à des modèles spécialisés séparés pour le suivi des instructions et le raisonnement profond a été motivé par les modèles de la communauté. Le gambit open-source dans un domaine spécialisé

Qwen3-vl entre dans un domaine compétitif qui pivote de plus en plus de l’échelle monolithique de la formation des modèles de formation toujours diminueux. Dominance.

Ce choix stratégique place Qwen3-VL dans un domaine diversifié d’outils spécialisés. Le domaine se diversifie rapidement, avec des modèles comme Florence-2 de Microsoft poursuivant également une approche unifiée et rapide pour gérer plusieurs tâches de vision comme le sous-titrage et la détection d’objets dans une seule architecture cohérente.

Un niche clé est les performances en temps réel sur le matériel contraint, illustré par ROBOFLOW’S RF-Dett. Ce modèle léger est optimisé pour la détection d’objets sur les périphériques Edge, hiérarchisant la faible latence et la réactivité par rapport au raisonnement interprétatif des systèmes plus grands.

Il y parvient en rationalisant l’architecture DetR complexe pour un déploiement pratique et immédiat dans la robotique et les caméras intelligentes.

En contraste, d’autres modèles priorisent la flexibilité de la recherche et l’accessibilité. L’AYA Vision de Cohere, par exemple, est un modèle de poids ouvert conçu spécifiquement pour faire progresser la recherche multilingue et multimodale, mettant en évidence sa concentration sur l’autonomisation des projets académiques et axés sur l’accessibilité.

Le défi le plus radical du paradigme de mise à l’échelle provient de l’innovation architecturale fondamentale. Les chercheurs ont récemment dévoilé le réseau neuronal tout topographique (ALL-TNN), un modèle qui imite la structure du cerveau humain pour une efficacité énergétique supérieure.

Il évite le «partage de poids» commun dans l’IA conventionnelle, en utilisant plutôt une «contrainte de douceur» pour encourager les neurones artificiels voisins qui apprennent des caractéristiques similaires. Le coauteur Zejin Lu a expliqué le concept: «Pour les humains, lorsque vous détectez certains objets, ils ont une position typique. Vous savez déjà que les chaussures sont généralement en bas, au sol. L’avion, c’est en haut. href=”https://en.wikipedia.org/wiki/Convolutional_neural_network”Target=”_ Blank”> Réseau neuronal convolutionnel (CNN) .

Ce comportement humain est livré avec un compromis: sa précision brute est plus faible qu’un CNN traditionnel, mais il consomme par rapport à dix fois des fois. Cela en fait une alternative convaincante pour les dispositifs de bord à faible puissance où l’efficacité est primordiale, prouvant que la conception élégante peut être plus efficace que le calcul brute-force.

En libérant un modèle de vision puissant, ouvert et spécialisé, Alibaba parie qui nourrit cet écosystème diversifié est le chemin le plus sûr de l’innovation à ce stade.

Categories: IT Info