Microsoft har introdusert en trio av nye kunstige intelligensmodeller under PHI-banneret, og intensivert fokuset på mindre, effektive systemer som er i stand til kompleks problemløsing. Selskapet , både-4-Reseasoning og phi-4-Reseasoning-plus , både-4-rekkende som har 3,8 milliarder parametere.

Modellene, beskrevet av Microsoft som systemer der “resonnementsmodeller er opplært til å utnytte inferens-tidsskalering for å utføre komplekse oppgaver som krever multispill dekomponering og intern refleksjon,”tar sikte på å gi høy ytelse sammenlignbar til mye større AI-systemer mens du opprettholder effektiviteten. De er nå tilgjengelige gjennom Microsofts azure ai Foundry og Hugging Face Platform Under tillatte lisenser.

Pushing Reasoning-grensene med færre parametere

Den sentrale påstanden er at disse mindre modellene kan holde sine egne mot industriens tungvekter. Microsofts Teknisk dokumentasjon hevder at Phi-4-Reseasoning-Plus, forbedret gjennom forsterkningslæring, utfører Competitive med Openai’s O3-Mini og Approaches Veoricate-R-R-R-R-R-R-REYPS-REYPS-ROPS-REPUSE-REPUSE-PLUS-PLUSE-PRAPS-PLUSE-PRAGAMS-PLUSE-PRAGAMER-en ( Evalueringer som AIME 2025-testen.

Begge 14B-modellene har angivelig outperform anthropics cla cla cla r.e son son son son son son son son son son son son son son son son son son son son son son son son son son son son son son son son son son son thooglin. Benchmarks, selv om det ble notert unntak for GPQA-vitenskapsspørsmål og BA-Calendar-planleggingsoppgaver. Den tekniske rapporten belyser betydelige gevinster over basen PHI-4 på generelle benchmarks også, med PHI-4-reseasoning-pluss som viser en 22-punkts forbedring på IFeVal (instruksjon etter) og en 10-punkts gevinst på Arenahchch (Human Preference Evaluation).

Rapporten advarer også om ytelsesvarians, som noterer seg på 30-rekken som en rapport også advarer om ytelsesvariens for ytelse. DeepSeek-R1-Distill-lama-70b kan variere fra 30% til 70% over 50 løp, noe href=”https://huggingface.co/microsoft/phi-4-mini-reasoning”Target=”_ blank”> 128 000-token kontekstlengde med en 200k+ ordforråd. Microsoft uttalte disse modellene “Balansestørrelse og ytelse”, slik at”til og med ressursbegrensede enheter kan utføre komplekse resonneringsoppgaver effektivt.”

Inne i treningsprosessen og modellspesifikasjonene

Å oppnå denne ytelsen involverte spesifikke treningsstrategier. PHI-4-Reseasoning er en overvåket finjustering (SFT) av den originale PHI-4-basemodellen, ved å bruke over 1,4 millioner eksempler med resonnementstrinn generert av Openais O3-mini.

Denne SFT-prosessen, ved bruk av en offentlig avskjæring av mars 2025, skjedde mellom januar 2025. PHI-R-R-4-top-top-top-tops-top-tops-top-tops-top-tops-top-tops-top-tops av en offentlig cuting-problem og april. Relativ policyoptimalisering (GRPO)-en algoritme designet for å forbedre modellutgangene basert på relative preferanser mellom forskjellige genererte svar-for å avgrense utgangen.

Dette resulterer i høyere nøyaktighet i matematikk, men genererer også svar som i gjennomsnitt er 1,5 ganger lengre enn phi-4-russing, en forskjell mindre uttales i koding eller planlegging. Den phi-4-mini-reseasle-modellen ble trent separat i februar 2024 på ph3-r-seasoning-plus-modellen

På den tiden hadde Microsoft Engineer Shital Shah postet på X, “Mye av folk på Huggingface <0 Vel, vent ikke mer. Familien så videre utvidelse i februar 2025 med tillegg av en annen tekstbasert minimodell og PHI-4-Multimodal-varianten. De nåværende resonnementsmodellene bygger direkte på SFT og syntetiske datateknikker som ble brukt tidligere.

Modellene understreker Microsofts strategi for å dyrke svært dyktige mindre modeller-ofte betegnet små språkmodeller (SLM)-sammen med sine investeringer i storskala AI som Openais GPT-serie. SLM-er får bransjeinteresse på grunn av potensielle fordeler som reduserte treningskostnader og enklere domenespesifikk finjustering. Denne tilnærmingen er rettet mot effektivitet og tilgjengelighet, og potensielt senker barrieren for bedrifter og utviklere. Microsoft integrerer PHI-modeller i sitt økosystem, for eksempel PHI-silika-varianten optimalisert for NPUer i Copilot+ PC-er.

For bredere tilgang, er Phi-4-Mini-Reseasoning også tilgjengelig i , et populært format for å kjøre modeller lokalt på forbrukermaskinvare. Microsoft la vekt på at PHI-modellene er utviklet etter dens ansvarlige AI-prinsipper , men erkjenner begrensninger som 32k token-kontekst for 14B-modellen og primærfokuset.

Categories: IT Info