Gemini 2.5 Pro parece ser o primeiro modelo de IA a entender completamente os layouts em PDF, permitindo citações precisas

O Google disponibilizou silenciosamente seu modelo Gemini 2.5 Pro (Experimental) para todos que usam seu aplicativo web gratuito a partir de 29 de março, uma expansão notavelmente rápida apenas alguns dias após sua estréia inicial em 25 de março por pagar assinantes e desenvolvedores. Essa ampla disponibilidade traz uma das capacidades mais intrigantes e destacadas recentemente do modelo para um público de massa: um talento aparente para entender não apenas o texto nos documentos em PDF, mas também sua estrutura visual. Filimonov, O co-fundador da Matrisk, uma startup de IA especializada em gerenciamento de arquivamento de seguros, sugere que a Gemini 2.5 Pro marca um afastamento de modelos de idiomas grandes anteriores, oferecendo recursos de manuseio de PDF superiores.

Filimonov focada em um problema persistente para a geração retrogmentada (geração), os sistemas de gênero)-Filimonov, focados em um problema, os sistemas de gênero-a-agrupamento (p. citando com precisão informações em documentos longos. Ele descreveu os modelos de teste por quase dois anos em sua capacidade de identificar a localização exata (caixa delimitadora) de um trecho de texto dentro de uma imagem da página em PDF. escreveu, até testar Gemini 2.5 Pro. Em sua avaliação interna, o modelo alcançou uma escore de interseção sobre a união (IOU)-uma métrica que media a sobreposição entre a caixa delimitadora prevista e a real-de 0,804 para essa tarefa específica, indicando uma forte compreensão de onde o texto fica visualmente na página. Filimonov concluiu que isso torna”citações precisas e visuais de PDF… uma realidade”

Designs de documentos de decodificação

A documentação do desenvolvedor do Google dá suporte a esta observação. Ele confirma que os modelos de gêmeos processam PDFs usando “Visão nativa” Permitir que o conteúdo seja do conteúdo e do texto. Janela de contexto de 1 milhão de 1 milhão de token, permitindo que ela ingerisse e analise documentos longos de maneira eficaz. A documentação da API de Gêmeos detalha as funcionalidades como analisar esses elementos visuais, extrair informações estruturadas, responder a perguntas com base em texto e visual combinados e transcrever PDFs para outros formatos enquanto tentam preservar o layout original. Alguns comentários de terceiros, como A Post no Substim de engenharia Specificamente observa este “suporte a PDF nativo”> como um desafio prisioneiro de pdf “, como o suposto prisioneiro, como o“ Sentro), como o “Sentro, o“ Public), no entanto, o “_ em branco”. Cuidados sobre a precisão do modelo nessa área. A documentação oficial não é a localização do que a localização”não é a localização do que a localização do texto ou da lista de listas de listas de listas de listas”. Objetos.”

Isso sugere que, embora o Gemini 2.5 Pro mostre promessa para entender o layout para determinadas tarefas, como o Filimonov testado, alcançando a precisão do Pinpoint para todas as consultas espaciais em um documento permanece uma área em desenvolvimento, potencialmente levando a inconsistências para os usuários que procuram locais exatos. um vácuo. O concorrente Anthropic introduziu um recurso”visual pdfs”para o seu modelo Claude 3,5 sonetos de volta Por volta de novembro de 2024 , permitindo analisar conteúdo misto nos documentos, embora principalmente para usuários pagos ou via API com diferentes limites técnicos. atividade mais ampla e algum escrutínio. O Google empurrou o modelo amplamente antes de liberar documentação detalhada de segurança. An initial “model card”published around April 16 drew criticism from AI governance specialists like Kevin Bankston at the Center for Democracy and Technology, who termed it “meager”and worried about a “troubling story of a race to the bottom on AI safety and transparency as companies rush their models to market.”

Google’s stated policy in the card is that “A detailed technical report will be published once per model family’s release…after the 2.5 series is disponibilizado geralmente.”Esse contexto de iteração rápida também viu o lançamento de visualização do Gemini 2.5 Flash em 18 de abril, um modelo discutido pela primeira vez publicamente em 9 de abril e otimizado para velocidade e eficiência de custo por meio de raciocínio controlável, distinto do foco de alta capacidade da versão pro. 2 milhões planejados de acordo com o anúncio do Google no dia 25 de março), incluem forte desempenho no raciocínio multimodal (pontuando 81,7% em benchmarks MMMU) e matemática complexa (92,0% no Aime 2024). Claude de 3,7 sonetos da Anthropic em exercícios de codificação autônoma. Isso posiciona o Gemini 2.5 Pro como um modelo poderoso e versátil com forças específicas, particularmente em tarefas multimodais e de longo prazo, mas um cujo desempenho varia dependendo do domínio de aplicação específico quando medido contra seus principais rivais no campo em rápida evolução.

Gemini 2.5 Pro parece ser o primeiro modelo de IA a entender completamente os layouts em PDF, permitindo citações precisas

Published by All Things Windows on April 21, 2025

Designs de documentos de decodificação

IT Info

A Auditoria de Segurança diz que o aplicativo Android da Perplexity é inseguro, cita falhas críticas

IT Info

Meta intensifica as verificações da idade do Instagram com o sistema de IA proativo

IT Info

O estudo antrópico mapeia os valores do mundo real de Claude AI, libera o conjunto de dados

Gemini 2.5 Pro parece ser o primeiro modelo de IA a entender completamente os layouts em PDF, permitindo citações precisas

Published by All Things Windows on April 21, 2025

Designs de documentos de decodificação

Related Posts

IT Info

A Auditoria de Segurança diz que o aplicativo Android da Perplexity é inseguro, cita falhas críticas

IT Info

Meta intensifica as verificações da idade do Instagram com o sistema de IA proativo

IT Info

O estudo antrópico mapeia os valores do mundo real de Claude AI, libera o conjunto de dados