Microsoft har introdusert en trio av nye kunstige intelligensmodeller under PHI-banneret, og intensivert fokuset på mindre, effektive systemer som er i stand til kompleks problemløsing. Selskapet , både-4-Reseasoning og phi-4-Reseasoning-plus
Modellene, beskrevet av Microsoft som systemer der “resonnementsmodeller er opplært til å utnytte inferens-tidsskalering for å utføre komplekse oppgaver som krever multispill dekomponering og intern refleksjon,”tar sikte på å gi høy ytelse sammenlignbar til mye større AI-systemer mens du opprettholder effektiviteten. De er nå tilgjengelige gjennom Microsofts azure ai Foundry og Hugging Face Platform Under tillatte lisenser.
Pushing Reasoning-grensene med færre parametere
Den sentrale påstanden er at disse mindre modellene kan holde sine egne mot industriens tungvekter. Microsofts Teknisk dokumentasjon hevder at Phi-4-Reseasoning-Plus, forbedret gjennom forsterkningslæring, utfører Competitive med Openai’s O3-Mini og Approaches Veoricate-R-R-R-R-R-R-REYPS-REYPS-ROPS-REPUSE-REPUSE-PLUS-PLUSE-PRAPS-PLUSE-PRAGAMS-PLUSE-PRAGAMER-en ( Evalueringer som AIME 2025-testen.
Rapporten advarer også om ytelsesvarians, som noterer seg på 30-rekken som en rapport også advarer om ytelsesvariens for ytelse. DeepSeek-R1-Distill-lama-70b kan variere fra 30% til 70% over 50 løp, noe href=”https://huggingface.co/microsoft/phi-4-mini-reasoning”Target=”_ blank”> 128 000-token kontekstlengde med en 200k+ ordforråd. Microsoft uttalte disse modellene “Balansestørrelse og ytelse”, slik at”til og med ressursbegrensede enheter kan utføre komplekse resonneringsoppgaver effektivt.”
Inne i treningsprosessen og modellspesifikasjonene
Å oppnå denne ytelsen involverte spesifikke treningsstrategier. PHI-4-Reseasoning er en overvåket finjustering (SFT) av den originale PHI-4-basemodellen, ved å bruke over 1,4 millioner eksempler med resonnementstrinn generert av Openais O3-mini.
Denne SFT-prosessen, ved bruk av en offentlig avskjæring av mars 2025, skjedde mellom januar 2025. PHI-R-R-4-top-top-top-tops-top-tops-top-tops-top-tops-top-tops-top-tops av en offentlig cuting-problem og april. Relativ policyoptimalisering (GRPO)-en algoritme designet for å forbedre modellutgangene basert på relative preferanser mellom forskjellige genererte svar-for å avgrense utgangen.
Dette resulterer i høyere nøyaktighet i matematikk, men genererer også svar som i gjennomsnitt er 1,5 ganger lengre enn phi-4-russing, en forskjell mindre uttales i koding eller planlegging. Den phi-4-mini-reseasle-modellen ble trent separat i februar 2024 på
For å imøtekomme de detaljerte resonnementkjedene, hadde 14B-modellene sin kontekstkapasitet doblet fra den originale PHI-4s 16K til 32K-symboler. Microsoft antyder også spesifikke inferensinnstillinger (som temperatur 0,8) for optimale resultater med , et populært format for å kjøre modeller lokalt på forbrukermaskinvare. Microsoft la vekt på at PHI-modellene er utviklet etter dens ansvarlige AI-prinsipper , men erkjenner begrensninger som 32k token-kontekst for 14B-modellen og primærfokuset.