Gemini 2.5 Pro tampaknya menjadi model AI pertama yang sepenuhnya memahami tata letak PDF, memungkinkan kutipan yang tepat

Google diam-diam membuat model Gemini 2.5 Pro (eksperimental) yang tersedia untuk semua orang menggunakan aplikasi web gratisnya mulai 29 Maret, ekspansi yang sangat cepat hanya beberapa hari setelah debut awal 25 Maret untuk membayar pelanggan dan pengembang. Ketersediaan yang luas ini membawa salah satu model yang lebih menarik dan baru-baru ini disorot untuk audiens massal: bakat yang jelas untuk memahami bukan hanya teks dalam dokumen PDF, tetapi juga struktur visual mereka.

Analisis oleh Salah satu pendiri Matrisk, startup AI yang berspesialisasi dalam manajemen pengarsipan asuransi, menunjukkan Gemini 2.5 Pro menandai keberangkatan dari model bahasa besar sebelumnya dengan menawarkan kemampuan penanganan PDF yang unggul. yaitu, secara akurat mengutip informasi dalam dokumen yang panjang. Dia menggambarkan model pengujian selama hampir dua tahun tentang kemampuan mereka untuk menentukan lokasi yang tepat (kotak pembatas) dari kutipan teks dalam gambar halaman PDF.

Desain dokumen decoding

Dokumentasi pengembang Google sendiri memberikan dukungan pada pengamatan ini. It confirms Gemini models process PDFs using “native vision,” allowing them to interpret content beyond mere text extraction, including diagrams, charts, tables, and overall layout.

This capability is aided by the Jendela konteks 1 juta token yang besar, memungkinkannya untuk menelan dan menganalisis dokumen panjang secara efektif. Dokumentasi API Gemini merinci fungsionalitas seperti menganalisis elemen-elemen visual ini, mengekstraksi informasi terstruktur, menjawab pertanyaan berdasarkan teks gabungan dan visual, dan menyalin PDF ke dalam format lain sambil mencoba melestarikan tata letak asli.

Spesifikasi teknis melalui vertex AI CATATAN Model dapat menangani hingga 3.000 file pdf. Beberapa komentar pihak ketiga, seperti POSTE PERTAMA DOMPOWER DOMPOWER DOMPOTING PERKOLIS, KECIPAN KEPALAN, KEPALA KEPALA INI. memperingatkan tentang ketepatan model di bidang ini. Dokumentasi resmi. of objects.”

This suggests that while Gemini 2.5 Pro shows promise in understanding layout for certain tasks, like the one Filimonov tested, achieving pinpoint accuracy for all spatial queries within a document remains an area under development, potentially leading to inconsistencies for users seeking exact locations.

Competitive Context and Rollout Realities

Perkembangan ini tidak ada dalam ruang hampa. Pesaing Anthropic memperkenalkan kemampuan”visual PDF”untuk model claude 3.5 sonnet kembali Sekitar November 2024 , yang memungkinkannya untuk menganalisis konten campuran dalam dokumen, meskipun terutama untuk pengguna yang dibayar atau melalui API dengan batasan teknis yang berbeda.

Langkah Google untuk menawarkan keterampilan Gemini 2.5 Pro yang berpotensi, PRO. Di tengah aktivitas yang lebih luas dan beberapa pengawasan. Google mendorong model keluar secara luas sebelum merilis dokumentasi keselamatan terperinci. Sebuah”kartu model”awal yang diterbitkan sekitar 16 April mendapat kritik dari spesialis tata kelola AI seperti Kevin Bankston di Pusat Demokrasi dan Teknologi, yang menyebutnya”sedikit”dan khawatir tentang”kisah yang meresahkan tentang perlombaan ke bawah pada keselamatan AI dan transparansi sebagai perusahaan yang detail. tersedia secara umum tersedia.”Konteks iterasi yang cepat ini juga menyaksikan peluncuran pratinjau Gemini 2.5 Flash pada 18 April, sebuah model yang pertama kali dibahas secara publik pada 9 April dan dioptimalkan untuk kecepatan dan efisiensi biaya melalui penalaran yang dapat dikendalikan, berbeda dari Fokus Kapabilitas Tinggi dari Versi Pro.

Profil Kinerja

On-On-Onken, Konteks PDF, KONTROBIBAL. 5 KONTROABLIAITAS. (Dengan 2 juta direncanakan menurut pengumuman 25 Maret Google), termasuk kinerja yang kuat dalam penalaran multimodal (mencetak 81,7% pada tolok ukur MMMU) dan matematika kompleks (92,0% pada AIME 2024).

Belum, 52.9 Model TRAILING seperti GPT-4.5 dalam uji Faktual. Antropik Claude 3.7 soneta dalam latihan pengkodean otonom. Posisi ini Gemini 2.5 Pro sebagai model yang kuat dan serbaguna dengan kekuatan spesifik, terutama dalam tugas multimoda dan konteks panjang, tetapi yang kinerjanya bervariasi tergantung pada domain aplikasi spesifik ketika diukur terhadap saingan teratasnya di bidang yang berkembang pesat.

Gemini 2.5 Pro tampaknya menjadi model AI pertama yang sepenuhnya memahami tata letak PDF, memungkinkan kutipan yang tepat

Published by All Things Windows on April 21, 2025

Desain dokumen decoding

Competitive Context and Rollout Realities

Profil Kinerja

IT Info

Studi Antropik memetakan nilai-nilai dunia nyata Claude AI, merilis dataset

IT Info

Bluesky menggulung verifikasi cek biru, tambahkan’verifikasi tepercaya’dalam sentuhan terdesentralisasi

IT Info

Cara mengaktifkan atau menonaktifkan deteksi jack panel depan di konsol audio realtek

Gemini 2.5 Pro tampaknya menjadi model AI pertama yang sepenuhnya memahami tata letak PDF, memungkinkan kutipan yang tepat

Published by All Things Windows on April 21, 2025

Desain dokumen decoding

Competitive Context and Rollout Realities

Profil Kinerja

Related Posts

IT Info

Studi Antropik memetakan nilai-nilai dunia nyata Claude AI, merilis dataset

IT Info

Bluesky menggulung verifikasi cek biru, tambahkan’verifikasi tepercaya’dalam sentuhan terdesentralisasi

IT Info

Cara mengaktifkan atau menonaktifkan deteksi jack panel depan di konsol audio realtek