Google stellte stillschweigend sein Gemini 2.5 Pro (Experimental)-Modell für alle zur Verfügung, die ihre kostenlose Web-App ab dem 29. März verwenden, eine bemerkenswert schnelle Erweiterung nur wenige Tage nach dem ersten Debüt am 25. März für die Zahlung von Abonnenten und Entwicklern. Diese breite Verfügbarkeit bringt eine der faszinierenderen, kürzlich hervorgehobenen Fähigkeiten des Modells für ein Massenpublikum: ein offensichtliches Talent, nicht nur den Text innerhalb von PDF-Dokumenten, sondern auch ihre visuelle Struktur zu verstehen. Filimonov, Mitbegründer von Matrisk, einem KI-Startup, das auf Versicherungsantriebsmanagement spezialisiert ist, schlägt vor, dass Gemini 2.5 Pro eine Abteilung von früheren Großsprachenmodellen markiert, indem er überlegene PDF-Handhabungsfunktionen anbietet. nämlich genau, um Informationen innerhalb langwieriger Dokumente genau zu zitieren. Er beschrieb fast zwei Jahre lang Testmodelle auf ihrer Fähigkeit, den genauen Ort (Begrenzungsfeld) eines Textauszugs innerhalb eines PDF-Seitenbildes zu bestimmen. Ergebnisse, schrieb er bis zum Testen von Gemini 2.5 Pro. Bei seiner internen Bewertung erreichte das Modell eine Schnittstelle über Union (IOU)-eine Metrik, die die Überlappung zwischen dem vorhergesagten Begrenzungsfeld und dem tatsächlichen von 0,804 für diese spezifische Aufgabe misst, was auf einen starken Verfassungen hinweist, wo Text visuell auf der Seite sitzt. Filimonov kam zu dem Schluss, dass „präzise, ​​visuelle PDF-Zitate… Realität“. It confirms Gemini models process PDFs using “native vision,” allowing them to interpret content beyond mere text extraction, including diagrams, charts, tables, and overall layout.

This capability is aided by the Das große 1-Million-Token-Kontextfenster von Model, sodass es längere Dokumente einnehmen und effektiv analysieren kann. Die Gemini-API-Dokumentation beschreibt Funktionen wie die Analyse dieser visuellen Elemente, das Extrahieren strukturierter Informationen, die Beantwortung von Fragen auf der Grundlage kombinierter Text und Visuals und die Übertragung von PDFs in andere Formate, um zu versuchen, das ursprüngliche Layout zu erhalten. Ein Kommentar von Drittanbietern, wie a Post auf dem prompt technischen Ingenieurwesen. Vorsichtsmaßnahmen vor der Präzision des Modells in diesem Bereich. offizielle Dokumentationslisten”räumliches Argument”als Einschränkung. von Objekten.”

Dies deutet darauf hin, dass Gemini 2.5 Pro vielversprechend beim Verständnis von Layout für bestimmte Aufgaben ist, wie das eine getestete Filimonov, das Erzielung der genauen Genauigkeit aller räumlichen Abfragen in einem Dokument ein Bereich in der Entwicklung bleibt.

Diese Entwicklung existiert nicht in einem Vakuum. Konkurrent Anthropic führte eine”visuelle PDFS”-Funktion für sein Claude 3.5-Sonnet-Modell zurück um November 2024 , sodass er gemischte Inhalte in Dokumenten analysieren kann, jedoch hauptsächlich für bezahlte Benutzer oder über API mit unterschiedlichen technischen Grenzen. breitere Aktivität und eine gewisse Prüfung. Google hat das Modell weit verbreitet, bevor sie detaillierte Sicherheitsdokumentationen veröffentlicht. Eine erste „Modellkarte“, die am 16. April veröffentlicht wurde, zog Kritik von KI-Governance-Spezialisten wie Kevin Bankston im Center for Democracy and Technology, der sie als „mager“ bezeichnete und besorgt über eine „beunruhigende Geschichte eines Rennens eines Rennens auf dem Boden auf dem Boden in der AI-Sicherheit und der Transparenz, durch die Unternehmen in den Modellen stürmen. wird allgemein verfügbar gemacht.”In diesem Kontext der schnellen Iteration wurde auch die Vorschau von Gemini 2.5 Flash am 18. April, einem Modell, das erst am 9. April öffentlich diskutiert und für Geschwindigkeit und Kosteneffizienz über kontrollierbare Argumentation optimiert wurde, unterscheidet sich von dem hohen Kapazitätsfokus der Pro-Version der Pro-Version. Das Kontextfenster (mit 2 Millionen geplant nach Googles Ankündigung vom 25. März) beinhaltet eine starke Leistung im multimodalen Argument (81,7% auf MMMU-Benchmarks) und komplexe Mathematik (92,0% auf Aime 2024). 62,5%) und das Claude 3.7-Sonett von Anthropic in autonomen Codierungsübungen. Dies positioniert Gemini 2.5 Pro als leistungsstarkes und vielseitiges Modell mit spezifischen Stärken, insbesondere bei multimodalen und langkontexten Aufgaben, deren Leistung jedoch abhängig von der spezifischen Anwendungsdomäne variiert, wenn sie an seinen Top-Konkurrenten im sich schnell entwickelnden Feld gemessen werden.

Categories: IT Info