Microsoft fait ses débuts pour les modèles de raisonnement PHI-4, visant de grands gains de performances

Microsoft a introduit un trio de nouveaux modèles d’intelligence artificielle sous sa bannière PHI, intensifiant sa focalisation sur des systèmes plus petits et efficaces capables d’une résolution de problèmes complexes. L’entreprise a publié PHI-4-reasoning et PHI-4-reasoning-plus , tous deux contenant 14 milliards de paramètres, à côté du compact PHI-4-MINE-REAMIN 3,8 milliards de paramètres.

Les modèles, décrits par Microsoft comme des systèmes où «les modèles de raisonnement sont formés pour tirer parti de la mise à l’échelle du temps d’inférence pour effectuer des tâches complexes qui exigent une décomposition en plusieurs étapes et une réflexion interne», vise à fournir des performances élevées comparables à des systèmes IA beaucoup plus importants tout en maintenant l’efficacité. Ils sont maintenant disponibles via Microsoft azure Ai Foundry et le Plateforme de visage étreinte Sous licences permissives.

Poussant les limites de raisonnement avec moins de paramètres

La revendication centrale est que ces modèles plus petits peuvent se contenir des poids lourds de l’industrie. Microsoft de Microsoft Documentation technique affirme que PHI-4-Seasoning-Plus, amélioré par l’apprentissage en renforcement, exécute compétitivement avec O3-Mini d’Openai et approche la capacité de Deepseek-R1 (un modèle de paramètre 671b). des évaluations comme le test AIME 2025.

Les deux modèles 14B auraient été Outperform de Claide 3.7 Sonnet de Google et gremin 2 FLOI Des références, bien que des exceptions aient été notées pour les questions scientifiques du GPQA et les tâches de planification de l’échelle BA. Le rapport technique met en évidence des gains significatifs sur la base PHI-4 sur les références générales, avec PHI-4-Seasoning-Plus montrant une amélioration de 22 points sur Ifeval (instruction suivante) et un gain de 10 points sur Arenahard (évaluation des préférences humaines).

Cependant, le rapport met également en garde sur les performances de la performance pour les modèles comme les modèles comme les modèles de 3025 benchmark, la précision, la précision de Benchmark, la précision de Benchmark, la précision de Benchmark, la précision de Benchmark, de 3025 benchmark, de la précision, de la précision, de la précision, de la banc de benchmy, de la banc de Benchmacy, de 30% 202555 Benchmark, de la précision pour les modèles comme des modèles comme les modèles de 30% AIME 2025 Deepseek-R1-Distill-Llama-70B peut varier de 30% à 70% sur 50 courses, ce qui fait des comparaisons à une seule course. href=”https://huggingface.co/microsoft/phi-4-mini-reasoning”cible=”_ blank”> 128000-token de longueur de contexte Avec une taille de vocabulaire de 200k +. Microsoft a déclaré ces modèles «Taille et performances de l’équilibre», permettant à des «appareils même limités aux ressources d’effectuer efficacement les tâches de raisonnement complexes». La saisonning de PHI-4 est un réglage fin supervisé (SFT) du modèle de base PHI-4 original, en utilisant plus de 1,4 million d’exemples avec des étapes de raisonnement générées par Openai d’Openai. Optimisation relative des politiques (GRPO)-un algorithme conçu pour améliorer les sorties du modèle basées sur des préférences relatives entre les différentes réponses générées-pour affiner sa sortie.

Cela se traduit par une précision plus élevée en mathématiques mais génère également des réponses qui sont, en moyenne, 1,5 fois plus longues que la ré-saison de PHI-4, une différence moins prononcée dans le codage ou la planification. Le modèle de relève de PHI-4-Mini a été formé séparément en février 2024 sur Plus d’un million de problèmes mathétiques (Sourrisé de la perpéturation) (Sorcée des problèmes de mathématiques (Source de Deepseek R1 POSUSITION) des problèmes mathétiques . plage.

Pour s’adapter aux chaînes de raisonnement détaillées, les modèles 14B avaient leur capacité de contexte doublé par rapport aux jetons 16K à 32k d’origine PHI-4. Microsoft suggère également des paramètres d’inférence spécifiques (comme la température 0,8) pour des résultats optimaux avec le PHI-4-Seasoning-plus modèle .

L’évolution de la famille PHI et du contexte stratégique Le lancement marque une continuation du projet PHI de Microsoft, qui a commencé à attirer l’attention avec le paramètre 14B original PHI-4 en décembre 2024. Ce modèle initial PHI 4 a été noté pour de fortes performances mathématiques, atteignant un score de 91,8 sur les tests AMC 12, devant des concurrents comme Gemini Pro 1.5 (89,8) à l’époque. Microsoft a suivi de PHI-4 entièrement open-open en janvier 2025, libérant ses poids sur la face étreinte sous une licence MIT.

À ce moment-là, Microsoft Engineer Shital Shah a été publié sur X,”Beaucoup de gens avaient demandé à la version de poids… Pas plus. La famille a connu une expansion supplémentaire en février 2025 avec l’ajout d’un mini modèle de texte différent et de la variante PHI-4-Multimodal. Les modèles de raisonnement actuels s’appuient directement sur les techniques de données SFT et synthétiques utilisées précédemment.

Les modèles soulignent la stratégie de Microsoft de cultiver des modèles plus petits très capables-souvent appelés modèles de petits langues (SLM)-ainsi que ses investissements dans les séries GPT d’Openai à grande échelle. Les SLM suscitent l’intérêt de l’industrie en raison des avantages potentiels tels que des coûts de formation réduits et un réglage fin plus spécifique au domaine. Cette approche cible l’efficacité et l’accessibilité, réduisant potentiellement la barrière pour les entreprises et les développeurs. Microsoft intègre des modèles PHI dans son écosystème, tels que la variante de silice PHI optimisée pour les NPU dans Copilot + PCS.

Pour un accès plus large, PHI-4-MINI-REATALING est également disponible dans le Principes AI responsables , bien que reconnaît des limites comme le contexte de jeton 32K pour les modèles 14B et le primaire sur l’anglais.

Microsoft fait ses débuts pour les modèles de raisonnement PHI-4, visant de grands gains de performances

Published by All Things Windows on May 1, 2025

Poussant les limites de raisonnement avec moins de paramètres

IT Info

Anthropic améliore Claude AI avec des intégrations d’applications et de meilleures capacités de recherche

IT Info

Nvidia, affrontement anthropique sur les restrictions aux puces AI américaines visant la Chine

IT Info

Comment créer un disque de réinitialisation de mot de passe dans Windows 11

Microsoft fait ses débuts pour les modèles de raisonnement PHI-4, visant de grands gains de performances

Published by All Things Windows on May 1, 2025

Poussant les limites de raisonnement avec moins de paramètres

Related Posts

IT Info

Anthropic améliore Claude AI avec des intégrations d’applications et de meilleures capacités de recherche

IT Info

Nvidia, affrontement anthropique sur les restrictions aux puces AI américaines visant la Chine

IT Info

Comment créer un disque de réinitialisation de mot de passe dans Windows 11