Google mendorong model Gemini 2.5 Flash AI ke pratinjau publik kemarin, membuatnya dapat diakses melalui beberapa saluran: aplikasi Gemini yang menghadap konsumen, dan platform pengembang termasuk Gemini API melalui Google AI Studio dan vertex Ai vertex Ai vertex ai Pengumuman Google Sebagai”pemikiran latensi”untuk pengembang yang sepenuhnya flashing, untuk pengembang yang disediakan oleh pengembang,”pemikiran,”pemikiran,”pemikiran,”pemikiran kanker,”pemikiran,”pemikiran,”pemikiran,”pemikiran,”pemikiran,”. tugas volume tinggi. Google memposisikan rasio kinerja terhadap biaya seperti menempatkannya di”Pareto Frontier,”menunjukkan keseimbangan optimal untuk beban kerja tertentu.
Developer Levers for AI Reasoning and Cost
The defining feature of Gemini 2.5 Flash is its hybrid reasoning system, controllable via the Gemini API . Pengembang dapat beralih dari proses”berpikir”sepenuhnya mati untuk kecepatan maksimum atau memungkinkannya untuk kueri yang kompleks. Granularity lebih lanjut datang melalui disesuaikan “anggaran pemikiran,” pada dasarnya merupakan batasan untuk pengembangan komputasi yang digunakan untuk penalaran per kueri. chatbots untuk tugas analitik. Tingkat kontrol ini memungkinkan manajemen yang tepat dari trade-off antara kualitas respons, latensi, dan biaya operasional.
Kemampuan beradaptasi ini tercermin dalam pratinjau API Pricing : $ 0,15 per juta inputas ke KREK. Biaya output $ 0,60 per juta token dengan pemikiran dinonaktifkan, naik menjadi $ 3,50 per juta token ketika penalaran aktif. Google memposisikan struktur biaya yang tidak masuk akal ini secara kompetitif terhadap model-model seperti Openai O4-Mini, meskipun O4-Mini menunjukkan tolok ukur kinerja yang unggul pada titik harga yang lebih tinggi.
Struktur penetapan harga memperkuat kesesuaian Flash untuk pengkhianatan volume tinggi, sorotan biaya seperti ringkasan, obrolan, dan pengembangan data, dan pengembangan data, dan pengembangan data, dan pengembangan data, dan pengambilan data, dan pengembangan data, dan chat cellume, dan pengembangan data, dan pengembangan data, dan pengembangan data, dan pengembangan data. href=”https://developers.goOgleblog.com/en/start-building-with-gemini-25-flash/”target=”_ blank”> blog pengembang Google .
posisi flash dalam keluarga Gemini dan evolusinya
Gemini 2.5 Flash pertama kali dibahas secara publik pada 9 April, diperkenalkan sebagai model yang berbeda dari kemampuan penalaran kompleks 2,5 Pro. Meskipun Flash fokus pada kecepatan, ia mempertahankan karakteristik jendela konteks 1 juta token besar dari garis Pro, yang memungkinkannya untuk menangani input yang luas.
Konsep”pemikiran”yang mendasari itu sendiri berevolusi dari model pemikiran flash eksperimental Gemini 2.0 Desember 2024. Iterasi sebelumnya itu bertujuan untuk memberikan penalaran transparansi, sebagian sebagai respons terhadap model O1 Openai. Mengenai percobaan itu, Jeff Dean, kepala ilmuwan Google Deepmind, menyatakan pada X, “Dibangun di atas kecepatan dan kinerja 2.0 Flash, model ini dilatih untuk menggunakan pemikiran untuk memperkuat alasannya. Dan kita melihat hasil yang menjanjikan ketika kita meningkatkan perhitungan waktu inferensi.”
Ingin melihat pemikiran Gemini 2.0 flash dalam tindakan? Lihatlah demo ini di mana model memecahkan masalah fisika dan menjelaskan alasannya. pic.twitter.com/nl0hyj7zfs
-Jeff Dean (@jeffdean) href=”https://twitter.com/jeffdean/status/1869790032296579169?ref_src=twsrc%5etfw”target=”_ blank-explisit, 1924 yang ditunjukkan”tidak ada. mewakili evolusi fungsional dari ide ini.
bagian dari ekspansi Gemini yang lebih luas di tengah pengawasan
Peluncuran 2,5 flash pas ke dalam penyebaran google yang lebih luas dan lebih banyak gemini.
Google bertujuan untuk memanfaatkan fase pratinjau ini untuk memperbaiki”pemikiran dinamis”model berdasarkan umpan balik pengembang, terutama mengenai contoh”di mana ia berpikiran atau berpikir berlebihan,”seperti yang disebutkan Doshi. Perbedaan tetap bahwa pengembang mendapatkan kontrol API granular, sementara aplikasi konsumen saat ini menawarkan flash sebagai pilihan eksperimental tunggal, kemungkinan dengan alasan diaktifkan secara default.
Namun, seperti yang dicatat ketika 2,5 Flash diumumkan pertama kali, pratinjau publik ini tiba tanpa menyertai laporan teknis atau keselamatan terperinci. Kurangnya transparansi ini melanjutkan pola yang terlihat dengan beberapa rilis AI baru-baru ini, menarik pengawasan, terutama untuk model yang tersedia secara luas. Sementara Google merencanakan perkembangan masa depan seperti ketersediaan di tempat dan memanfaatkan TPU baru, langkah segera melibatkan pengumpulan data dunia nyata untuk memandu flash 2.5 menuju rilis umum potensial.