Google ha in silenzio il suo modello Gemini 2.5 Pro (sperimentale) disponibile a tutti che utilizzano la sua app Web gratuita a partire dal 29 marzo, un’espansione notevolmente rapida pochi giorni dopo il suo debutto iniziale del 25 marzo per pagare abbonati e sviluppatori. Questa ampia disponibilità porta una delle capacità più intriganti e recentemente evidenziate del modello a un pubblico di massa: un evidente abilità per comprendere non solo il testo all’interno dei documenti PDF, ma anche la loro struttura visiva.

Analisi di co-fondatore di Matrisk, una startup di AI specializzata nella gestione del deposito assicurativo, suggerisce Gemini 2.5 Pro segna una partenza dai precedenti modelli di linguaggio di grandi dimensioni offrendo funzionalità di gestione del PDF superiori. vale a dire, citando accuratamente informazioni all’interno di lunghi documenti. Ha descritto i modelli di test per quasi due anni sulla loro capacità di individuare la posizione esatta (casella di delimitazione) di un estratto di testo all’interno di un’immagine della pagina PDF.

Design di documenti di decodifica

La documentazione per sviluppatori di Google fornisce supporto a questa osservazione. Conferma i modelli gemini elabora i pdf usando “visione nativa” La grande finestra di contesto di 1 milione di token del modello, consentendo di ingerire e analizzare efficacemente lunghi documenti. La documentazione dell’API Gemini dettaglia le funzionalità come l’analisi di questi elementi visivi, l’estrazione di informazioni strutturate, la risposta alle domande basate su testo e visioni combinate e trascrivendo i PDF in altri formati mentre tentano di preservare il layout originale. Alcuni commenti di terze parti, come un Post sul prompt ingegneria sottostack , nota specificamente questo”supporto per il pdf nativo”come superando le sfide pregenti nei documenti di miseria per il complesso di miseria Avverte esplicitamente sulla precisione del modello in questo settore. elenchi di documentazioni ufficiali”Spatial ragioning”come una limitazione di un ragionamento. Oggetti.”

Ciò suggerisce che mentre Gemini 2.5 Pro mostra la promessa nella comprensione del layout per determinati compiti, come quello di Filimonov testato, raggiungendo l’accuratezza di punta per tutte le query spaziali all’interno di un documento in fase di sviluppo, che portano a incordazioni per gli utenti che cercano posizioni esatte.

Lo sviluppo non esiste nel vuoto. Concorrente antropico ha introdotto una capacità di”PDF visivo”per il suo modello di sonetto Claude 3.5 intorno a novembre 2024 , permettendogli di analizzare i contenuti misti all’interno dei documenti, sebbene principalmente per gli utenti a pagamento o tramite API con diversi limiti tecnici.

Il passaggio di Google per offrire Gemini 2.5 Pro è potenzialmente simile, se si verifica ufficialmente le competenze ufficiali pubblicitarie. Tra un’attività più ampia e un po’di controllo. Google ha respinto ampiamente il modello prima di rilasciare una documentazione di sicurezza dettagliata. Una”carta modello”iniziale pubblicata intorno al 16 aprile ha suscitato critiche da parte di specialisti della governance AI come Kevin Bankston al Center for Democracy and Technology, che l’ha definita”scarsa”e preoccupato per una”storia preoccupante di una corsa in fondo alla sicurezza dell’IA e alla trasparenza del mercato. è reso generalmente disponibile.”Questo contesto di una rapida iterazione ha visto anche il lancio di anteprima di Gemini 2.5 Flash il 18 aprile, un modello ha discusso pubblicamente il 9 aprile e ottimizzato per velocità ed efficienza dei costi tramite ragionamento controllabile, distinto dal focus ad alta capacità della versione Pro. La finestra (con 2 milioni di previsti secondo l’annuncio del 25 marzo di Google), include forti prestazioni nel ragionamento multimodale (segnare l’81,7% sui benchmark MMMU) e la matematica complessa (92,0% su AIME 2024).

Eppure, affronta la concorrenza rigida, con una dura concorrenza rigida come GPT-4.5. e il sonetto Claude 3.7 di Antropico negli esercizi di codifica autonomi. Questo posiziona Gemini 2.5 Pro come modello potente e versatile con punti di forza specifici, in particolare in compiti multimodali e lunghi, ma uno le cui prestazioni variano a seconda del dominio dell’applicazione specifico se misurato rispetto ai suoi migliori rivali nel campo in rapida evoluzione.

Categories: IT Info