Úgy tűnik, hogy a Gemini 2.5 Pro az első AI modell, amely teljes mértékben megérti a PDF-elrendezéseket, lehetővé téve a pontos hivatkozásokat

A Google csendesen a Gemini 2.5 Pro (Kísérleti) modelljét mindenki számára elérhetővé tette, március 29-től kezdve az ingyenes webalkalmazás használatával, amely néhány nappal az első március 25-i debütálás után rendkívül gyors bővítés az előfizetők és a fejlesztők fizetése után. Ez a széles rendelkezésre állás a modell egyik érdekesebb, nemrégiben kiemelt képességét hozza a tömeges közönség számára: látszólagos ütés nemcsak a PDF-dokumentumokon belüli szöveg megértésére, hanem a vizuális struktúrájukra is. Filimonov, A MatRisk társalapítója, a biztosítási iratkezelésre szakosodott AI induló vállalkozás, a Gemini 2.5 pro-t jelöli a korábbi nagy nyelvi modellektől, kiváló PDF-kezelési képességeket kínálva. nevezetesen, pontosan idézve az információkat a hosszú dokumentumokon belül. Közel két éven át leírta a tesztelési modelleket, hogy képesek meghatározni a szöveges kivonat pontos helyét (korlátozó dobozát) egy PDF oldalképen. Eredményeket írt, amíg a Gemini 2.5 Pro teszteléséig. Belső értékelése során a modell elérte az Union (IOU) közötti metszéspontot-egy metrikát, amely megméri az átfedést az előrejelzett korlátozó doboz és a tényleges érték között-0,804 ehhez a konkrét feladathoz, jelezve, hogy a szöveg az oldalon vizuálisan helyezkedik el. Filimonov arra a következtetésre jutott, hogy ez „pontos, vizuális PDF idézeteket… valósággá teszi”. Megerősíti a Gemini modellek feldolgozását a PDF-ekkel a „natív látás”, , lehetővé téve számukra, hogy a tartalmat az egyszerű szövegkivonáson túl is értelmezzék, beleértve a diagramokat, a táblázatot, a táblázatot, a táblázatot és az általános lezárást. A Model nagy 1 millió token kontextusablakja, lehetővé téve a hosszú dokumentumok hatékony lenyelését és elemzését. A Gemini API dokumentációja részletezi a funkciókat, mint például ezeknek a vizuális elemeknek a elemzése, a strukturált információk kinyerése, a kombinált szöveg és a látvány alapján történő kérdések megválaszolása, és a PDF-ek átírása más formátumokba, miközben megpróbálja megőrizni az eredeti elrendezést. Néhány harmadik pártos kommentár, például egy Post a Prompt Engineering Substack-en , kifejezetten megjegyzi ezt a„ natív PDF támogatást “, mint a Parsing Parsing Complex Dokumentumok elárasztott előzetes kihívásait. Vigyázzon a modell pontosságára ezen a területen. A hivatalos dokumentáció felsorolja a „térbeli érvelést” korlátozásként. objektumok száma.”

Ez azt sugallja, hogy míg a Gemini 2.5 Pro ígéretet mutat az egyes feladatok elrendezésének megértésében, mint például az egyik Filimonov, és pontos pontosságot ér el a dokumentumon belüli összes térbeli lekérdezésnél, továbbra is fejlesztés alatt álló terület, és potenciálisan következetlenségeket eredményez a felhasználók számára, akik pontos helyeket keresnek.

Ez a fejlemény nem létezik vákuumban. A versenytárs antropikus bevezette a „vizuális PDFS” képességet a Claude 3.5 szonettmodell Back 2024 november körül , lehetővé téve a vegyes tartalom elemzését a dokumentumokon belül, bár elsősorban a fizetett felhasználók számára vagy a különböző műszaki korlátokkal rendelkező API-n keresztül. tevékenység és némi ellenőrzés. A Google a részletes biztonsági dokumentáció kiadása előtt tágabb értelemben vette a modellt. Az április 16-án közzétett kezdeti „modellkártya” kritikát vonzott az AI kormányzási szakembereitől, mint például Kevin Bankston a Demokrácia és Technológiai Központban, aki „csekélynek” nevezte, és aggódott egy „zavaró történet az alsó versenyről az AI biztonságáról és az átláthatóságról, mivel a vállalatok a modellek kiadására rohannak. A 2.5-es sorozat a„ Egy részletes műszaki jelentést közzéteszi a modellre. Elérhető.”A gyors iterációnak a kontextusában a Gemini 2.5 Flash előnézeti elindítását is látta április 18-án, egy modellt, amelyet először április 9-én tárgyaltak, és a sebességre és a költséghatékonyságra optimalizáltak a Pro verzió nagyméretű fókuszától függően. (A Google március 25-i bejelentése szerint 2 millió tervezve) tartalmazza az erős teljesítményt a multimodális érvelésben (81,7%-os pontszám az MMMU referenciaértékeken) és az összetett matematikában (92,0% az AIME 2024-en). 62,5%) és az Antropic’s Claude 3.7 szonett autonóm kódolási gyakorlatokban. Ez a Gemini 2.5 PRO-t erőteljes és sokoldalú modellként, specifikus erősségekkel, különösen a multimodális és a hosszú kontextusú feladatokban, de az, amelynek teljesítménye a specifikus alkalmazási tartománytól függ, ha a gyorsan fejlődő mezőben a legfontosabb riválisaival mérik.

Úgy tűnik, hogy a Gemini 2.5 Pro az első AI modell, amely teljes mértékben megérti a PDF-elrendezéseket, lehetővé téve a pontos hivatkozásokat

Published by All Things Windows on April 21, 2025

IT Info

Antropikus tanulmány térképek Claude AI valós értékei, kiadják az adatkészletet

IT Info

A Security Audit szerint a Pulexity Android alkalmazása nem biztonságos, idézi a kritikus hibákat

IT Info

A Meta fokozza az Instagram életkor-ellenőrzéseit proaktív AI rendszerrel

Úgy tűnik, hogy a Gemini 2.5 Pro az első AI modell, amely teljes mértékben megérti a PDF-elrendezéseket, lehetővé téve a pontos hivatkozásokat

Published by All Things Windows on April 21, 2025

Related Posts

IT Info

Antropikus tanulmány térképek Claude AI valós értékei, kiadják az adatkészletet

IT Info

A Security Audit szerint a Pulexity Android alkalmazása nem biztonságos, idézi a kritikus hibákat

IT Info

A Meta fokozza az Instagram életkor-ellenőrzéseit proaktív AI rendszerrel