Google diam-diam membuat model Gemini 2.5 Pro (eksperimental) yang tersedia untuk semua orang menggunakan aplikasi web gratisnya mulai 29 Maret, ekspansi yang sangat cepat hanya beberapa hari setelah debut awal 25 Maret untuk membayar pelanggan dan pengembang. Ketersediaan yang luas ini membawa salah satu model yang lebih menarik dan baru-baru ini disorot untuk audiens massal: bakat yang jelas untuk memahami bukan hanya teks dalam dokumen PDF, tetapi juga struktur visual mereka.
Desain dokumen decoding
Dokumentasi pengembang Google sendiri memberikan dukungan pada pengamatan ini. It confirms Gemini models process PDFs using “native vision,” allowing them to interpret content beyond mere text extraction, including diagrams, charts, tables, and overall layout.
This capability is aided by the Jendela konteks 1 juta token yang besar, memungkinkannya untuk menelan dan menganalisis dokumen panjang secara efektif. Dokumentasi API Gemini merinci fungsionalitas seperti menganalisis elemen-elemen visual ini, mengekstraksi informasi terstruktur, menjawab pertanyaan berdasarkan teks gabungan dan visual, dan menyalin PDF ke dalam format lain sambil mencoba melestarikan tata letak asli.
Spesifikasi teknis melalui vertex AI CATATAN Model dapat menangani hingga 3.000 file pdf. Beberapa komentar pihak ketiga, seperti POSTE PERTAMA DOMPOWER DOMPOWER DOMPOTING PERKOLIS, KECIPAN KEPALAN, KEPALA KEPALA INI. memperingatkan tentang ketepatan model di bidang ini. Dokumentasi resmi. of objects.”
This suggests that while Gemini 2.5 Pro shows promise in understanding layout for certain tasks, like the one Filimonov tested, achieving pinpoint accuracy for all spatial queries within a document remains an area under development, potentially leading to inconsistencies for users seeking exact locations.
Competitive Context and Rollout Realities
Perkembangan ini tidak ada dalam ruang hampa. Pesaing Anthropic memperkenalkan kemampuan”visual PDF”untuk model claude 3.5 sonnet kembali Sekitar November 2024 , yang memungkinkannya untuk menganalisis konten campuran dalam dokumen, meskipun terutama untuk pengguna yang dibayar atau melalui API dengan batasan teknis yang berbeda.
Langkah Google untuk menawarkan keterampilan Gemini 2.5 Pro yang berpotensi, PRO. Di tengah aktivitas yang lebih luas dan beberapa pengawasan. Google mendorong model keluar secara luas sebelum merilis dokumentasi keselamatan terperinci. Sebuah”kartu model”awal yang diterbitkan sekitar 16 April mendapat kritik dari spesialis tata kelola AI seperti Kevin Bankston di Pusat Demokrasi dan Teknologi, yang menyebutnya”sedikit”dan khawatir tentang”kisah yang meresahkan tentang perlombaan ke bawah pada keselamatan AI dan transparansi sebagai perusahaan yang detail. tersedia secara umum tersedia.”Konteks iterasi yang cepat ini juga menyaksikan peluncuran pratinjau Gemini 2.5 Flash pada 18 April, sebuah model yang pertama kali dibahas secara publik pada 9 April dan dioptimalkan untuk kecepatan dan efisiensi biaya melalui penalaran yang dapat dikendalikan, berbeda dari Fokus Kapabilitas Tinggi dari Versi Pro.
Profil Kinerja
On-On-Onken, Konteks PDF, KONTROBIBAL. 5 KONTROABLIAITAS. (Dengan 2 juta direncanakan menurut pengumuman 25 Maret Google), termasuk kinerja yang kuat dalam penalaran multimodal (mencetak 81,7% pada tolok ukur MMMU) dan matematika kompleks (92,0% pada AIME 2024).
Belum, 52.9 Model TRAILING seperti GPT-4.5 dalam uji Faktual. Antropik Claude 3.7 soneta dalam latihan pengkodean otonom. Posisi ini Gemini 2.5 Pro sebagai model yang kuat dan serbaguna dengan kekuatan spesifik, terutama dalam tugas multimoda dan konteks panjang, tetapi yang kinerjanya bervariasi tergantung pada domain aplikasi spesifik ketika diukur terhadap saingan teratasnya di bidang yang berkembang pesat.