Microsoft ha introdotto un trio di nuovi modelli di intelligenza artificiale sotto il suo banner PHI, intensificando la sua attenzione su sistemi più piccoli ed efficienti in grado di risolvere i problemi complessi. La società rilasciato Phi-4-ragioning e phi-4-ragion-plus , entrambi contenenti 14 parametri da miliardo, lungo il pad-4-2 3,8 miliardi di parametri.
I modelli, descritti da Microsoft come sistemi in cui”i modelli di ragionamento sono addestrati a sfruttare il ridimensionamento del tempo di inferenza per eseguire compiti complessi che richiedono decomposizione in più fasi e riflessione interna”, mirano a fornire prestazioni elevate paragonabili a sistemi di intelligenza artificiale molto più grandi mantenendo l’efficienza. Sono ora disponibili tramite Microsoft azure ai fondry e il Abbraccia la piattaforma facciale in licenze permissive.
I confini di ragionamento spingendo con meno parametri
L’affermazione centrale è che questi modelli più piccoli possono trattenere i propri pesi pesi del settore. Microsoft’s documentazione tecnica afferma che Phi-4-ragioning-plus, migliorato attraverso l’apprendimento di rinforzo, si comporta con competizione con OpenIai O3-Mini e approccio alla capitalità di DEEF-R1 (A 671b Model) Valutazioni come il test AIME 2025.
Tuttavia, il rapporto avvertisce anche sulla varianza delle prestazioni, notando che sul 30 25 valutazione delle preferenze). DeepSeek-R1-Distill-Llama-70B può variare dal 30% al 70% in 50 corse, rendendo i confronti a corsa singola potenzialmente inaffidabili.
Phi-4-Mini-riginizzazione, nonostante le sue dimensioni dei parametri di 3,8b, è riportato che supera i modelli come OpenThinker-7b su diversi benchmark matematici e supportano un ampio 128.000-token lunghezza del contesto Con una dimensione del vocabolario 200K+. Microsoft ha dichiarato questi modelli”dimensioni e prestazioni del bilanciamento”, consentendo”anche dispositivi limitati alle risorse di eseguire compiti di ragionamento complessi in modo efficiente.”
All’interno del processo di formazione e delle specifiche del modello
raggiungendo queste prestazioni hanno coinvolto specifiche strategie di allenamento. Phi-4-REAGASING è una messa a punto controllata (SFT) del modello di base PHI-4 originale, che utilizza oltre 1,4 milioni di esempi con fasi di ragionamento generate da O3-Mini di Openi.
Questo processo SFT, utilizzando i dati in termini di matematica, si è verificato tra i problemi di matematica, si è verificato un raggruppamento in materia di matematica, che si è verificato in modo che si verificasse un raggruppamento di matematica e si è verificato in modo che si verificasse un raggruppamento e si verificano un raggruppamento di matematica di marzo, si è verificato tra i problemi di matematica di marzo. Ottimizzazione delle politiche (GRPO)-Un algoritmo progettato per migliorare gli output del modello in base alle preferenze relative tra diverse risposte generate-per perfezionare il suo output.
Ciò si traduce in una maggiore precisione in matematica ma genera anche risposte che sono, in media, 1,5 volte più lunghe rispetto a PHI-4-ragioning, una differenza meno pronunciata nella codifica o nella pianificazione. Il modello di ragionamento PHI-4-Mini è stato addestrato separatamente nel febbraio 2024 su su un problema di matematica sintetica
Per adattarsi alle catene di ragionamento dettagliate, i modelli 14B avevano la loro capacità di contesto raddoppiata dai token da 16K a 32k di PHI-4 originali. Microsoft suggerisce anche impostazioni di inferenza specifiche (come la temperatura 0,8) per risultati ottimali con phi-4-ragion-plus modello .