Google悄悄地將其Gemini 2.5 Pro(實驗)模型從3月29日開始,使用其免費的Web應用程序可供所有人使用,這是在3月25日首次25日首次亮相後的幾天,用於付費訂戶和開發人員。這種廣泛的可用性將該模型更有趣,最近突出的功能之一帶給了大眾受眾:不僅是理解PDF文檔中文本的明顯訣竅,還可以理解它們的視覺結構。

通過

Filimonov, Co-Founder of Matrisk, an AI startup specialized in insurance filing management, suggests Gemini 2.5 Pro marks a departure from previous large language models by offering superior PDF handling capabilities.

Filimonov focused on a persistent problem for Retrieval-Augmented Generation (RAG) systems – frameworks that combine LLMs with external knowledge retrieval – namely, accurately引用冗長文檔中的信息。他描述了將近兩年的測試模型,以查明PDF頁面圖像中文本的確切位置(邊界框)的能力。

他寫道,結果直到測試Gemini 2.5 Pro。在他的內部評估中,該模型達到了與聯合分數(IOU)分數的交集-這是該特定任務的預測邊界框與實際一個框之間的重疊的度量標準,為0.804,表明對文本在頁面上的視覺位置有很強的掌握。 Filimonov得出結論,這使得“精確,視覺pdf引用……是現實。 ”

解碼文檔設計

Google自己的開發人員文檔對此觀察提供了支持。它可以使用“本地視覺”,允許它們允許它們允許單純的文本提取性能,包括圖表,整個圖表,

大約100萬個令牌上下文窗口,使其能夠有效攝入和分析冗長的文件。 Gemini API文檔詳細介紹了功能,例如分析這些視覺元素,提取結構化信息,基於組合文本和視覺效果回答問題,並將PDF轉錄為其他格式,同時試圖保留原始佈局。

通過頂點AI進行技術規格來保存最多可處理3,000 pdf文件,並在個人文件中處理多達3,000個PDF,並將其提示為1,000 page或1,000 page。一些第三方評論,例如在及時工程替代上發表了,特別是在官方文檔列表“空間推理”列表“空間推理”作為“限制” , iime the Mode noce noce noce noce at p. iim at teck at p. iim at p. apocts at p. iim at teck at p. at p. ate at p. “

這表明,儘管Gemini 2.5 Pro顯示出在理解某些任務的佈局方面的希望,例如經過測試的Filimonov,在文檔中的所有空間查詢中實現了精確的準確性,對於正在開發的領域仍然是一個正在開發的領域,可能會導致使用確切的位置的不一致性。

真空不存在這種發展。競爭對手人類為其Claude 3.5十四行詩模型在2024年11月左右,允許其分析文檔中的混合內容,儘管主要是針對付費用戶或具有不同技術限制的API。活動和一些審查。 Google在發布詳細的安全文檔之前將模型廣泛推出。 4月16日左右發表的最初的“模型卡”引起了AI治理專家的批評,例如民主與技術中心的凱文·班克斯頓(Kevin Bankston),他們將其稱為“微薄”,並擔心“在AI安全性和透明度上的令人不安的故事中的令人不安的故事,因為公司將在COMPARY上趕到市場上。通常可用。” This context of rapid iteration also saw the preview launch of Gemini 2.5 Flash on April 18, a model first discussed publicly on April 9 and optimized for speed and cost-efficiency via controllable reasoning, distinct from the high-capability focus of the Pro version.

Performance Profile

Beyond PDF handling, Gemini 2.5 Pro’s general capabilities, built on a 1 million token context window (with根據Google 3月25日的公告計劃的200萬個,包括多式聯運推理的出色表現(在MMMU基准上得分為81.7%)和復雜的數學(在Aime 2024中為92.0%)。

,但是,它面對僵硬的競爭,在某些事實召回的測試中,諸如gpt-4.5的型號(如gpt-homply tests tests 52. 52. 52. vct)(52. 52. vct)gpt。 Anthropic的Claude 3.7十四行詩在自動編碼練習中。這將Gemini 2.5 Pro定位為具有特定優勢的強大且多才多藝的模型,尤其是在多模式和長篇小說任務中,但其性能取決於特定的應用程序域而變化。

Categories: IT Info