Gemini 2.5 Pro似乎是第一個完全理解PDF佈局的AI模型，可以精確引用

Google悄悄地將其Gemini 2.5 Pro（實驗）模型從3月29日開始，使用其免費的Web應用程序可供所有人使用，這是在3月25日首次25日首次亮相後的幾天，用於付費訂戶和開發人員。這種廣泛的可用性將該模型更有趣，最近突出的功能之一帶給了大眾受眾:不僅是理解PDF文檔中文本的明顯訣竅，還可以理解它們的視覺結構。

通過

Filimonov, Co-Founder of Matrisk, an AI startup specialized in insurance filing management, suggests Gemini 2.5 Pro marks a departure from previous large language models by offering superior PDF handling capabilities.

Filimonov focused on a persistent problem for Retrieval-Augmented Generation (RAG) systems – frameworks that combine LLMs with external knowledge retrieval – namely, accurately引用冗長文檔中的信息。他描述了將近兩年的測試模型，以查明PDF頁面圖像中文本的確切位置（邊界框）的能力。

他寫道，結果直到測試Gemini 2.5 Pro。在他的內部評估中，該模型達到了與聯合分數（IOU）分數的交集-這是該特定任務的預測邊界框與實際一個框之間的重疊的度量標準，為0.804，表明對文本在頁面上的視覺位置有很強的掌握。 Filimonov得出結論，這使得“精確，視覺pdf引用……是現實。 ”

解碼文檔設計

Google自己的開發人員文檔對此觀察提供了支持。它可以使用“本地視覺”，允許它們允許它們允許單純的文本提取性能，包括圖表，整個圖表，

大約100萬個令牌上下文窗口，使其能夠有效攝入和分析冗長的文件。 Gemini API文檔詳細介紹了功能，例如分析這些視覺元素，提取結構化信息，基於組合文本和視覺效果回答問題，並將PDF轉錄為其他格式，同時試圖保留原始佈局。

通過頂點AI進行技術規格來保存最多可處理3,000 pdf文件，並在個人文件中處理多達3,000個PDF，並將其提示為1,000 page或1,000 page。一些第三方評論，例如在及時工程替代上發表了，特別是在官方文檔列表“空間推理”列表“空間推理”作為“限制” ， iime the Mode noce noce noce noce at p. iim at teck at p. iim at p. apocts at p. iim at teck at p. at p. ate at p. “

這表明，儘管Gemini 2.5 Pro顯示出在理解某些任務的佈局方面的希望，例如經過測試的Filimonov，在文檔中的所有空間查詢中實現了精確的準確性，對於正在開發的領域仍然是一個正在開發的領域，可能會導致使用確切的位置的不一致性。

真空不存在這種發展。競爭對手人類為其Claude 3.5十四行詩模型在2024年11月左右，允許其分析文檔中的混合內容，儘管主要是針對付費用戶或具有不同技術限制的API。活動和一些審查。 Google在發布詳細的安全文檔之前將模型廣泛推出。 4月16日左右發表的最初的“模型卡”引起了AI治理專家的批評，例如民主與技術中心的凱文·班克斯頓（Kevin Bankston），他們將其稱為“微薄”，並擔心“在AI安全性和透明度上的令人不安的故事中的令人不安的故事，因為公司將在COMPARY上趕到市場上。通常可用。” This context of rapid iteration also saw the preview launch of Gemini 2.5 Flash on April 18, a model first discussed publicly on April 9 and optimized for speed and cost-efficiency via controllable reasoning, distinct from the high-capability focus of the Pro version.

Performance Profile

Beyond PDF handling, Gemini 2.5 Pro’s general capabilities, built on a 1 million token context window (with根據Google 3月25日的公告計劃的200萬個，包括多式聯運推理的出色表現（在MMMU基准上得分為81.7％）和復雜的數學（在Aime 2024中為92.0％）。

。

，但是，它面對僵硬的競爭，在某些事實召回的測試中，諸如gpt-4.5的型號（如gpt-homply tests tests 52. 52. 52. vct）（52. 52. vct）gpt。 Anthropic的Claude 3.7十四行詩在自動編碼練習中。這將Gemini 2.5 Pro定位為具有特定優勢的強大且多才多藝的模型，尤其是在多模式和長篇小說任務中，但其性能取決於特定的應用程序域而變化。

Gemini 2.5 Pro似乎是第一個完全理解PDF佈局的AI模型，可以精確引用

Published by All Things Windows on April 21, 2025

解碼文檔設計

Performance Profile

IT Info

安全審計說，困惑的Android應用程序不安全，引用了嚴重缺陷

IT Info

人類研究映射Claude AI的現實世界值，發布數據集

IT Info

META通過主動AI系統加強Instagram年齡檢查

Gemini 2.5 Pro似乎是第一個完全理解PDF佈局的AI模型，可以精確引用

Published by All Things Windows on April 21, 2025

解碼文檔設計

Performance Profile

Related Posts

IT Info

安全審計說，困惑的Android應用程序不安全，引用了嚴重缺陷

IT Info

人類研究映射Claude AI的現實世界值，發布數據集

IT Info

META通過主動AI系統加強Instagram年齡檢查