Tahimik na ginawa ng Google ang modelo ng Gemini 2.5 Pro (eksperimentong) na magagamit sa lahat na gumagamit ng libreng web app simula nitong Marso 29, isang kamangha-manghang mabilis na pagpapalawak ng mga araw lamang matapos ang paunang pasinaya nitong Marso para sa pagbabayad ng mga tagasuskribi at mga developer. Ang malawak na kakayahang ito ay nagdudulot ng isa sa mas nakakaintriga, kamakailan-lamang na naka-highlight na mga kakayahan sa isang madla na madla: isang maliwanag na knack para sa pag-unawa hindi lamang ang teksto sa loob ng mga dokumento ng PDF, ngunit ang kanilang visual na istraktura din. Figimonov, Co-Founder ng Matrisk, isang AI startup na dalubhasa sa pamamahala ng pag-file ng seguro, nagmumungkahi ng gemini 2.5 pro markahan ang isang pag-alis mula sa mga nakaraang malalaking modelo ng wika sa pamamagitan ng pag-aalok ng mahusay na mga kakayahan sa paghawak ng PDF.-ibig sabihin, tumpak na binabanggit ang impormasyon sa loob ng mga mahahabang dokumento. Inilarawan niya ang mga modelo ng pagsubok sa halos dalawang taon sa kanilang kakayahang matukoy ang eksaktong lokasyon (hangganan ng kahon) ng isang sipi ng teksto sa loob ng isang imahe ng pahina ng PDF. Sumulat siya, hanggang sa pagsubok sa Gemini 2.5 Pro. Sa kanyang panloob na pagsusuri, nakamit ng modelo ang isang intersection sa unyon (IOU) na marka-isang sukatan na sumusukat sa overlap sa pagitan ng hinulaang kahon ng pagbubuklod at ang aktwal na isa-ng 0.804 para sa tiyak na gawain na ito, na nagpapahiwatig ng isang malakas na pagkakahawak kung saan nakaupo ang teksto nang biswal sa pahina. Tinapos ni Filimonov na ginagawang”tumpak, visual na mga pagsipi ng PDF… isang katotohanan.”Kinukumpirma nito ang mga modelo ng Gemini na nagpoproseso ng mga PDF gamit ang “katutubong pangitain,”Malaking 1 milyong window ng token ng modelo ng modelo, na pinapayagan itong ingest at pag-aralan nang epektibo ang mga mahahabang dokumento. Ang mga detalye ng dokumentasyon ng Gemini API ay mga pag-andar tulad ng pagsusuri sa mga visual na elemento na ito, pagkuha ng nakabalangkas na impormasyon, pagsagot sa mga katanungan batay sa pinagsamang teksto at visual, at isinasagawa ang mga PDF sa iba pang mga format habang sinusubukan na mapanatili ang orihinal na layout. Ang ilang komentaryo ng third-party, tulad ng isang mag-post sa prompt engineering subttack , tiyak na nagtatala ng”katutubong suporta ng PDF”tungkol sa pag-iipon ng mga naunang hamon sa pag-parse ng kumplikadong mga elemento ng dokumento. Malinaw na pag-iingat tungkol sa katumpakan ng modelo sa lugar na ito. Ang opisyal na dokumentasyon ay naglilista ng”spatial na pangangatuwiran”bilang isang limitasyon Ang mga bilang ng mga bagay.”
Ang pag-unlad na ito ay hindi umiiral sa isang vacuum. Ipinakilala ng Competitor Anthropic ang isang”Visual PDFS”na kakayahan para sa Claude 3.5 sonnet model pabalik sa paligid ng Nobyembre 2024 , pinapayagan itong pag-aralan ang halo-halong nilalaman sa loob ng mga dokumento, kahit na lalo na para sa mga bayad na gumagamit o sa pamamagitan ng API na may iba’t ibang mga limitasyong teknikal. sa gitna ng mas malawak na aktibidad at ilang pagsisiyasat. Itinulak ng Google ang modelo nang malawak bago ilabas ang detalyadong dokumentasyon sa kaligtasan. Ang isang paunang”Model Card”na inilathala noong Abril 16 ay iginuhit ang pintas mula sa mga espesyalista ng pamamahala ng AI tulad ni Kevin Bankston sa Center for Democracy and Technology, na tinawag itong”maliit”at nag-aalala tungkol sa isang”nakakabagabag na kwento ng isang lahi hanggang sa ilalim sa kaligtasan at transparency ng mga kumpanya Pangkalahatang magagamit.”Ang kontekstong ito ng mabilis na pag-ulit ay nakita din ang paglulunsad ng preview ng Gemini 2.5 Flash noong Abril 18, isang modelo na unang tinalakay sa publiko noong Abril 9 at na-optimize para sa bilis at kahusayan sa pamamagitan ng pagkontrol sa pangangatuwiran, na naiiba mula sa mataas na kakayahan na pokus ng pro bersyon.. Ang Claude ng Anthropic 3.7 Sonnet sa mga autonomous coding ehersisyo. Ang posisyon na ito ay Gemini 2.5 Pro bilang isang malakas at maraming nalalaman na modelo na may mga tiyak na lakas, lalo na sa mga gawain ng multimodal at long-context, ngunit ang isa na ang pagganap ay nag-iiba depende sa tiyak na domain ng aplikasyon kapag sinusukat laban sa mga nangungunang karibal nito sa mabilis na umuusbong na larangan.