Microsoft a introduit un trio de nouveaux modèles d’intelligence artificielle sous sa bannière PHI, intensifiant sa focalisation sur des systèmes plus petits et efficaces capables d’une résolution de problèmes complexes. L’entreprise a publié PHI-4-reasoning et PHI-4-reasoning-plus , tous deux contenant 14 milliards de paramètres, à côté du compact PHI-4-MINE-REAMIN 3,8 milliards de paramètres.
Les modèles, décrits par Microsoft comme des systèmes où «les modèles de raisonnement sont formés pour tirer parti de la mise à l’échelle du temps d’inférence pour effectuer des tâches complexes qui exigent une décomposition en plusieurs étapes et une réflexion interne», vise à fournir des performances élevées comparables à des systèmes IA beaucoup plus importants tout en maintenant l’efficacité. Ils sont maintenant disponibles via Microsoft azure Ai Foundry et le Plateforme de visage étreinte Sous licences permissives.
Poussant les limites de raisonnement avec moins de paramètres
La revendication centrale est que ces modèles plus petits peuvent se contenir des poids lourds de l’industrie. Microsoft de Microsoft Documentation technique affirme que PHI-4-Seasoning-Plus, amélioré par l’apprentissage en renforcement, exécute compétitivement avec O3-Mini d’Openai et approche la capacité de Deepseek-R1 (un modèle de paramètre 671b). des évaluations comme le test AIME 2025.
Cependant, le rapport met également en garde sur les performances de la performance pour les modèles comme les modèles comme les modèles de 3025 benchmark, la précision, la précision de Benchmark, la précision de Benchmark, la précision de Benchmark, la précision de Benchmark, de 3025 benchmark, de la précision, de la précision, de la précision, de la banc de benchmy, de la banc de Benchmacy, de 30% 202555 Benchmark, de la précision pour les modèles comme des modèles comme les modèles de 30% AIME 2025 Deepseek-R1-Distill-Llama-70B peut varier de 30% à 70% sur 50 courses, ce qui fait des comparaisons à une seule course. href=”https://huggingface.co/microsoft/phi-4-mini-reasoning”cible=”_ blank”> 128000-token de longueur de contexte Avec une taille de vocabulaire de 200k +. Microsoft a déclaré ces modèles «Taille et performances de l’équilibre», permettant à des «appareils même limités aux ressources d’effectuer efficacement les tâches de raisonnement complexes». La saisonning de PHI-4 est un réglage fin supervisé (SFT) du modèle de base PHI-4 original, en utilisant plus de 1,4 million d’exemples avec des étapes de raisonnement générées par Openai d’Openai. Optimisation relative des politiques (GRPO)-un algorithme conçu pour améliorer les sorties du modèle basées sur des préférences relatives entre les différentes réponses générées-pour affiner sa sortie.
Cela se traduit par une précision plus élevée en mathématiques mais génère également des réponses qui sont, en moyenne, 1,5 fois plus longues que la ré-saison de PHI-4, une différence moins prononcée dans le codage ou la planification. Le modèle de relève de PHI-4-Mini a été formé séparément en février 2024 sur Plus d’un million de problèmes mathétiques (Sourrisé de la perpéturation) (Sorcée des problèmes de mathématiques (Source de Deepseek R1 POSUSITION) des problèmes mathétiques . plage.
Pour s’adapter aux chaînes de raisonnement détaillées, les modèles 14B avaient leur capacité de contexte doublé par rapport aux jetons 16K à 32k d’origine PHI-4. Microsoft suggère également des paramètres d’inférence spécifiques (comme la température 0,8) pour des résultats optimaux avec le PHI-4-Seasoning-plus modèle .