A Google csendesen a Gemini 2.5 Pro (Kísérleti) modelljét mindenki számára elérhetővé tette, március 29-től kezdve az ingyenes webalkalmazás használatával, amely néhány nappal az első március 25-i debütálás után rendkívül gyors bővítés az előfizetők és a fejlesztők fizetése után. Ez a széles rendelkezésre állás a modell egyik érdekesebb, nemrégiben kiemelt képességét hozza a tömeges közönség számára: látszólagos ütés nemcsak a PDF-dokumentumokon belüli szöveg megértésére, hanem a vizuális struktúrájukra is. Filimonov, A MatRisk társalapítója, a biztosítási iratkezelésre szakosodott AI induló vállalkozás, a Gemini 2.5 pro-t jelöli a korábbi nagy nyelvi modellektől, kiváló PDF-kezelési képességeket kínálva. nevezetesen, pontosan idézve az információkat a hosszú dokumentumokon belül. Közel két éven át leírta a tesztelési modelleket, hogy képesek meghatározni a szöveges kivonat pontos helyét (korlátozó dobozát) egy PDF oldalképen. Eredményeket írt, amíg a Gemini 2.5 Pro teszteléséig. Belső értékelése során a modell elérte az Union (IOU) közötti metszéspontot-egy metrikát, amely megméri az átfedést az előrejelzett korlátozó doboz és a tényleges érték között-0,804 ehhez a konkrét feladathoz, jelezve, hogy a szöveg az oldalon vizuálisan helyezkedik el. Filimonov arra a következtetésre jutott, hogy ez „pontos, vizuális PDF idézeteket… valósággá teszi”. Megerősíti a Gemini modellek feldolgozását a PDF-ekkel a „natív látás”, , lehetővé téve számukra, hogy a tartalmat az egyszerű szövegkivonáson túl is értelmezzék, beleértve a diagramokat, a táblázatot, a táblázatot, a táblázatot és az általános lezárást. A Model nagy 1 millió token kontextusablakja, lehetővé téve a hosszú dokumentumok hatékony lenyelését és elemzését. A Gemini API dokumentációja részletezi a funkciókat, mint például ezeknek a vizuális elemeknek a elemzése, a strukturált információk kinyerése, a kombinált szöveg és a látvány alapján történő kérdések megválaszolása, és a PDF-ek átírása más formátumokba, miközben megpróbálja megőrizni az eredeti elrendezést. Néhány harmadik pártos kommentár, például egy Post a Prompt Engineering Substack-en , kifejezetten megjegyzi ezt a„ natív PDF támogatást “, mint a Parsing Parsing Complex Dokumentumok elárasztott előzetes kihívásait. Vigyázzon a modell pontosságára ezen a területen. A hivatalos dokumentáció felsorolja a „térbeli érvelést” korlátozásként. objektumok száma.”
Ez azt sugallja, hogy míg a Gemini 2.5 Pro ígéretet mutat az egyes feladatok elrendezésének megértésében, mint például az egyik Filimonov, és pontos pontosságot ér el a dokumentumon belüli összes térbeli lekérdezésnél, továbbra is fejlesztés alatt álló terület, és potenciálisan következetlenségeket eredményez a felhasználók számára, akik pontos helyeket keresnek.
Ez a fejlemény nem létezik vákuumban. A versenytárs antropikus bevezette a „vizuális PDFS” képességet a Claude 3.5 szonettmodell Back