Cette semaine, l’équipe QWEN d’Alibaba a publié un nouveau modèle de raisonnement open-source phare qui secoue l’industrie de l’IA. Dévoilé le 25 juillet, le modèle QWEN3-235B-A22B-Thinking-2507 a déjà dépassé les références clés de l’industrie, surperformant de puissants systèmes propriétaires de rivaux comme Google et Openai.

Le lancement marque un changement stratégique important pour le géant de la technologie chinoise. Il abandonne son approche précédente «pensée hybride» pour former des modèles spécialisés séparés pour un raisonnement complexe et un suivi rapide des instructions. Cette décision vise à fournir une qualité de meilleure qualité et à fournir aux développeurs des outils d’IA de pointe.

Un nouveau roi open source: Qwen3-Things est en tête du modèle de référence

Le modèle de Thoking Qwen3 fournit à l’état de pointe, ce qui est en train de se faire entendre. Ses performances ne se limitent pas à un seul créneau; Au lieu de cela, il démontre une capacité bien équilibrée et puissante dans le raisonnement, le codage et l’alignement des utilisateurs complexes, définissant une nouvelle norme pour ce que l’IA open-source peut atteindre.

Dans le domaine du raisonnement mathématique et logique avancé, le modèle s’est avéré exceptionnellement capable. Sur la référence AIME25, un test conçu pour évaluer les compétences sophistiquées de résolution de problèmes en plusieurs étapes, QWEN3-Thinking-2507 a obtenu un score remarquable de 92,3. Cela le place avant certains des modèles propriétaires les plus puissants, dépassant notamment le GEMINI-2.5 Pro de Google, qui a affiché un score de 88,0 sur la même évaluation.

Les prouesses du modèle s’étendent dans le domaine critique du développement logiciel. Lorsqu’il est testé sur LivecodeBench V6, une référence qui évalue la capacité d’une IA à gérer les tâches de codage du monde réel, QWEN3-Thinking a obtenu un score supérieur de 74,1. Cette performance met confortablement avant le GEMINI-2.5 Pro (72,5) et O4-MinI d’OpenAI (71.8), démontrant son utilité pratique pour les développeurs et les équipes d’ingénierie.

Au-delà de l’intelligence brute et de la compétence de codage, le modèle excelle également dans l’alignement humain et la préférence subjective. Il a pris la première place de la référence V2 durs de l’arène, qui mesure les utilisateurs de modèles préfèrent dans les comparaisons en tête-à-tête. Ce score leader de 79,7 indique non seulement une forte compétence technique, mais aussi un degré élevé d’utilité, de cohérence et de sécurité dans ses réponses générées.

Les capacités du modèle signalent un moment pivot où les alternatives open-source ne sont plus seulement rattrapées mais sont désormais directement concurrentes à la frontière même de la raison même de l’essentiel.

Cette version historique représente un pivot stratégique majeur pour la division AI d’Alibaba, signalant une évolution délibérée et soigneusement considérée dans sa philosophie de développement. La société a annoncé qu’elle abandonnait officiellement le mode «pensée hybride» qui était une caractéristique centrale de ses modèles QWEN3 précédents. Cette approche initiale obligeait les développeurs à basculer manuellement entre les modes de raisonnement rapide et profonde de suivi des instructions à l’aide de jetons spéciaux, un système qui pourrait introduire la complexité et l’incohérence.

La décision de s’éloigner de cette architecture hybride a été motivée par un engagement envers la qualité et les commentaires directs de la communauté des développeurs. Dans une déclaration officielle, disponible sous la licence Apache 2.0 , un accord hautement permis et commercial. Cela permet aux organisations de télécharger, de modifier et de déployer librement le modèle.

Cette approche ouverte contraste fortement avec les modèles API de concurrents. Il donne aux entreprises un contrôle total sur la confidentialité, la sécurité, le coût et la latence de leurs données, répondant aux principales préoccupations pour les entreprises opérant dans des industries réglementées ou avec des informations sensibles.

Le modèle est disponible en téléchargement sur le visage étreint et est accessible via l’API. Le est fixé à 0,70 $ par million de jetons d’entrée et 8,40 $ par million de jetons de production , avec un anton gratuit pour les développeurs à expérimenter. href=”https://openrouter.ai/models/qwen/qwen3-235b-a22b-thinking-2507″cible=”_ blank”> accéder au modèle via des plates-formes comme OpenRouter . C’est compatible avec des frameworks agents comme Qwen-agent , facilitant l’intégration dans des flux de travail complexes et automatisés qui nécessitent une planification et une utilisation d’outils.

Lunettes

Le modèle de pensée QWEN3 est le dernier d’une succession rapide de versions d’Alibaba. L’équipe QWEN a également récemment lancé un nouveau modèle massif de codeur de paramètre 480B et un modèle de traduction multilingue, créant un écosystème d’IA open source complet.

Cette vague d’activité démontre un effort concerté par Alibaba pour s’établir en tant que leader à travers plusieurs domaines d’IA, de la raison générale de la codage spécialisée et de la traduction. La stratégie semble être celle de fournir une gamme complète d’outils puissants et ouverts pour les développeurs.

Le moment de cette version était clairement stratégique. Il est venu un jour avant qu’Alibaba ne prévisualise ses nouveaux lunettes intelligentes”Quark Ai”lors de la conférence mondiale de l’intelligence artificielle à Shanghai. Les lunettes sont alimentées par la nouvelle série QWEN3, une décision conçue pour présenter l’application réelle de son puissant groupe d’informations sur l’information de Song. En prouvant ses capacités d’IA de classe mondiale juste avant de dévoiler le matériel, Alibaba a exécuté une stratégie”Show, Don’t Tell”pour renforcer la confiance du marché.

Cette approche matérielle et logicielle intégrée positionne Alibaba pour concurrencer non seulement les performances du modèle, mais sur la création d’une expérience utilisateur sans couture au sein de son vaste écosystème de services, de E-Commerce à Cloud Computing.

Categories: IT Info