Google ha spinto ieri il suo modello Flash AI Gemini 2.5 in anteprima pubblica, rendendolo accessibile tramite più canali: l’app Gemini a rivolta dei consumatori e le piattaforme di sviluppatori tra cui l’API Gemini via Google Ai Studio e L’annuncio di Google Come primo”Modello di ragionamento completamente ibrido”, il motivi di ragionamento completamente ibrido”, il flash di ragioni in modo uniforme”, il flash di ragioni in modo univoco”, il flash del flash offre unità unica in modo univoco controlli espliciti sui controlli espliciti sul”pensiero dell’IA”, mira a fornire un modello di utensile flessibili e un ragionamento a costi flessibili”, il flash per le late dell’Ai, mira a fornire un modello di utensile flessibili”, il motivi per il ragionamento flessibile”, il flash di ragioni in modo unito”, il flash di latenza in modo uniforme”offre un flash in modo univoco i controlli espliciti sul”pensiero”. compiti. Google posiziona il suo rapporto prestazioni-costi come mettendolo sulla”frontier di Pareto”, suggerendo un equilibrio ottimale per alcuni carichi di lavoro.

Per gli utenti finali, il modello appare nel app gemini e semplicemente”2,5 flash) (sperimentazione di supplica) Modello di pensiero flash che è emerso sperimentalmente nel dicembre 2024 e, non si è mai laureato da quella fase.

Questa iterazione 2.5 è descritta come offerta di capacità di ragionamento sostanzialmente migliorata rispetto alla generazione di flash 2.0, pur essendo progettata per essere più veloce ed economica rispetto ai Gemini 2,5 Pro di fascia alta annunciati a marzo. La versione dell’app di consumo attualmente supporta funzionalità come la tela di Google per il codice di codice e di testo, sebbene un Google abbia indicato che il supporto di ricerca profondo seguirà più tardi.

Fonte: Google

Leve per lo sviluppatore per ragionamento e costo

La caratteristica di definizione di Gemini 2.5 Flash è il suo sistema di ragionamento, controllabile tramite il href=”https://developers.googleblog.com/en/start-building-with-se–gemini-25-flash/”target=”_ blank”> API Gemini . Gli sviluppatori possono attivare interamente il processo di”pensiero”per la massima velocità o abilitarlo per query complesse. L’ulteriore granularità arriva tramite regolabile “budget pensanti” Essenzialmente un berretto da battiti per il ragionamento usato per il ragionamento per la query.

Questa adattabilità si riflette nell’anteprima prezzi API : $ 0,15 per milione di token input. L’output costa $ 0,60 per milione di token con il pensiero disabilitato, salindo a $ 3,50 per milione di token quando il ragionamento è attivo. Google posiziona questa struttura dei costi di non ragionamento in modo competitivo contro modelli come O4-Mini di Openi, sebbene O4-Mini mostri benchmark di prestazioni superiori a un prezzo più elevato.

La struttura dei prezzi rafforza l’idoneità di Flash per l’idoneità ad alto volume e sensibile ai costi come sommalizzazione, app di chat, sottotitoli ed estrazione dati, evidenziato da Blog per sviluppatori di Google .

fonte: fonte: Google

Posizionamento Flash nella famiglia Gemini e la sua evoluzione

Gemini 2.5 Flash è stato discusso pubblicamente per la prima volta il 9 aprile, introdotto come modello distinto dalle complesse capacità di ragionamento di 2.5 Pro. Nonostante l’attenzione di Flash sulla velocità, mantiene la grande finestra di contesto token di 1 milione caratteristica della linea Pro, permettendogli di gestire estese input.

Il concetto di”pensiero”sottostante si è evoluto dal modello di pensiero flash sperimentale di dicembre 2024. Tale precedente iterazione mirava a fornire trasparenza di ragionamento, in parte come risposta ai modelli O1 di Openi. Per quanto riguarda quell’esperimento, Jeff Dean, capo scienziato di Google DeepMind, ha dichiarato su X,”Costruito sulla velocità e sulle prestazioni di 2.0 Flash, questo modello è addestrato a usare i pensieri per rafforzare il suo ragionamento. E vediamo risultati promettenti quando aumentiamo il calcolo del tempo di inferenza.”

Vuole vedere Gemina 2.0 Flash in azione? Dai un’occhiata a questa demo in cui il modello risolve un problema di fisica e ne spiega il ragionamento. ; href=”https://twitter.com/jeffdean/status/1869790032296579169?ref_src=twsrc%5etfw”bersaglio=”_ blank”> 19 dicembre 2024

mentre l’interfaccia esplicita che mostra”non è una parte di 2,5 flash”. rappresenta l’evoluzione funzionale di questa idea.

Parte di una più ampia espansione di gemelli in mezzo a un controllo

L’implementazione di 2,5 flash si adatta agli integrativi più ampi di Google.

Google mira a sfruttare questa fase di anteprima per perfezionare il”pensiero dinamico”del modello basato sul feedback degli sviluppatori, in particolare per quanto riguarda le istanze”in cui il pensiero o il pensiero eccessivo”, come ha detto Doshi. Resta la distinzione che gli sviluppatori ottengano controlli di API granulare, mentre l’attuale app di consumo offre Flash come una singola scelta sperimentale, probabilmente con il ragionamento abilitato per impostazione predefinita.

Tuttavia, come notato quando è stato annunciato per la prima volta il flash, questa anteprima pubblica arriva senza accompagnare i rapporti tecnici o di sicurezza dettagliati. Questa mancanza di trasparenza continua un modello visto con alcune recenti versioni di intelligenza artificiale, attirando il controllo, specialmente per i modelli ampiamente disponibili. Mentre Google pianifica sviluppi futuri come la disponibilità locale e sfruttando nuovi TPU, il passo immediato prevede la raccolta di dati del mondo reale per guidare il flash 2.5 verso una potenziale versione generale.

Categories: IT Info