da premium after a weeks Solo cinque giorni prima, il 25 marzo, Gemini 2.5 Pro è stato reso disponibile esclusivamente per pagare gli abbonati di Gemini Advanced e gli utenti di Google AI Studio. Quella versione era limitata al piano premium di $ 19,99/mese di Google One AI. Entro la fine della settimana, la versione sperimentale di quello stesso modello è diventata l’impostazione predefinita per tutti che utilizzano l’app Gemini, comprese quelle di livello libero.
Questa brusca espansione suggerisce motivazioni multiple: ridimensionamento dell’adozione, accelerare i cicli di feedback e posizionando Gemini come un vero concorrente ai modelli da apertura, antropica e xai. Riflette anche la fiducia nelle prestazioni del modello e nella prontezza del mondo reale, anche in una forma sperimentale.
Un modello incentrato sul ragionamento con nuovi compromessi
Gemini 2.5 Profumo di Shift di come pensa. A differenza dei tradizionali modelli generativi che si basano su previsioni a passaggio singolo, questo modello esegue una verifica logica in più fasi per rafforzarne il ragionamento.
Quella finestra di grande contesto consente a Gemini di elaborare interi libri, contratti legali o basi di codice in una volta. Sul benchmark MRCR 128k, che verifica la comprensione attraverso contenuti a lungo termine, Gemini ha ottenuto una precisione del 91,5% e ha mantenuto le prestazioni dell’83,1% su vasta scala, significativamente davanti al 36,3% di GPT-4.5.
Il modello di Google si classifica anche nel ragionamento scientifico, segnando l’84% sul GPQA Diamond Benchmark e href=”https://lmarena.ai/?leaderboard”Target=”_ blank”> in cima alla classifica LMarena di quasi 40 punti.
su test incentrati sulla matematica come AIME 2024, Gemini ha raggiunto l’accuratezza del 92,0%, battendo GPT-4.5 (36.7%) e DeepSeek R1 (79,8%). Per compiti multimodali che coinvolgono sia il testo che le immagini, ha ottenuto un punteggio dell’81,7% sul benchmark MMMU, in vista del sonetto Claude 3.7 e GPT-4.5.
Tuttavia, le prestazioni variano tra le categorie. Gemini ha segnato il 52,9% su Simpleqa, un test di richiamo fattuale, il 62,5% di GPT-4,5%. In scenari di ingegneria del software autonomo (codifica agente), Claude 3.7 Sonnet conduce ancora con il 70,3%, mentre Gemini Trails al 63,8%.
fonte: Google
Strumenti per sviluppatori e funzionalità multimodali
Mentre i contatti O3-Mini di OpenIAI nella generazione di codice live (74,1% su LiveCodebench), Gemini 2.5 Pro detiene il suo 70,4%. Funziona ancora meglio nelle attività di modifica del codice. Sul benchmark di Aider Polyglot-progettato per testare la modifica del codice multilingue-i punteggi di GEMINI del 74,0%, allineando gli ultimi modelli di Claude e DeepSeek.
Supporto nativo di Gemini per input multimodali significa che può elaborare immagini, video, codice e testo nella stessa query. Tale capacità si estende a strumenti come Gemini Live, che consente l’assistenza basata sullo schermo e sulla fotocamera. Google ha anche integrato Gemini in strumenti dell’area di lavoro come Gmail, Docs e Drive: fornendo riassunti intelligenti, miglioramenti della ricerca e-mail e aiuti di navigazione dei documenti.
Acquisizione Android e risposta utente
L’espansione di Gemini va oltre i modelli migliorati. Sta anche sostituendo Google Assistant come AI vocale predefinita sui dispositivi Android. Il cambiamento ha disegnato reazioni miste. Alcuni utenti hanno elogiato le prestazioni di Gemini in compiti come la codifica e la ricerca.
Altri hanno criticato il turno, citando le funzionalità assistenti mancanti e le interazioni vocali meno intuitive. Gemelli sta inoltre incorporando la cronologia della ricerca per risposte personalizzate: il calo delle sovrapposizioni future tra l’intelligenza artificiale e la ricerca tradizionale. Se questa strategia paga dipenderà da come gli utenti rispondono.