Google telah melancarkan Eksperimen Gemini 2.5, model AI terkini, membawa peningkatan yang ketara dalam penalaran berstruktur, keupayaan multimodal, dan pemahaman konteks panjang. Model yang kini tersedia untuk pengguna Gemini Advanced dan Google AI Studio, dijangka akan dilancarkan ke Vertex AI tidak lama lagi. 2.5 Meningkatkan penalaran AI
Salah satu peningkatan yang paling ketara dalam Gemini 2.5 adalah keupayaannya untuk memohon pengesahan logik pelbagai langkah sebelum menghasilkan respons, meningkatkan ketepatannya dalam penyelesaian masalah yang kompleks. Src=”Data: Image/Svg+Xml; Nitro-emphy-id=mty4ntoxodu5-1; base64, phn2zyb2awv3qm94psiwidagmtaynca2mj kiihdpzhropssixmdi0iibozwlnahq9ijyyosigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
bagaimana Gemini 2.5 membandingkan? Termasuk Openai’s O3-Mini High dan GPT-4.5, Xai’s Grok 3 Beta, Anthropic’s Claude 3.7 Sonnet, dan Deepseek R1. Hasilnya menunjukkan model yang membawa di beberapa kawasan ketika menghadapi persaingan di orang lain. Sumber: Google Pencapaian & Pengetahuan
Salah satu aspek yang paling kritikal dalam model AI moden adalah keupayaan mereka untuk membuat alasan melalui masalah kompleks dan tugas pengetahuan umum. Pada peperiksaan terakhir manusia, ujian multimodal yang meliputi matematik, kemanusiaan, dan sains semula jadi, Gemini 2.5 Pro menjaringkan 18.8%. Walaupun Gemini 2.5 mengatasi pesaing-pesaing ini, tiada perbandingan langsung terhadap GPT-4.5 yang lebih maju OpenAI disediakan, menjadikannya sukar untuk menentukan bagaimana model Google yang ditumpukan terhadap penentuan matematik. Gemini 2.5 Pro mencapai kadar ketepatan 92.0%pada dataset AIME 2024, penanda aras yang direka untuk menilai keupayaan model untuk menyelesaikan masalah algebra dan nombor teori yang maju. Walau bagaimanapun, apabila melihat model yang mampu membuat tindak balas pelbagai, Grok 3 Beta dan DeepSeek R1 dilakukan sedikit lebih baik, kedua-duanya menjaringkan 93.3%. Ini menunjukkan bahawa sementara Gemini 2.5 sangat mampu dalam satu tetapan yang dilaksanakan, model-model lain mungkin mempunyai sedikit kelebihan apabila dibenarkan untuk melangkah ke atas jawapan mereka.
[Kandungan tertanam] Pada LiveCodeBench, standard yang digunakan secara meluas untuk menilai keupayaan pengekodan AI-dibantu, Openai’s O3-mini yang tinggi memimpin dengan kadar ketepatan 74.1%, melampaui Gemini 2.5 Pro 70.4%. dari Claude 3.7 Sonnet dan Deepseek R1. Gemini 2.5, pada 63.8%, adalah kompetitif tetapi kurang daripada kecekapan Claude dalam pelaksanaan kod autonomi. Mengenai dataset SimpleQA, yang menguji keupayaan AI untuk memberikan jawapan yang ringkas dan tepat, GPT-4.5 OpenAI memimpin dengan 62.5%, diikuti oleh Gemini 2.5 pada 52.9%. Keputusan ini menunjukkan bahawa walaupun Gemini 2.5 berfungsi dengan baik dalam ketepatan faktual, model yang lebih maju OpenAI masih mempunyai kelebihan yang kuat dalam memastikan kebolehpercayaan maklumat.
[Kandungan tertanam] penalaran berasaskan penglihatan. Ia mencatatkan 81.7%pada penanda aras MMMU, ujian yang menilai pemahaman AI data visual, jauh lebih awal daripada GPT-4.5 (74.4%) dan Claude 3.7 sonnet (75.0%). Ia mencapai ketepatan 91.5% pada MRCR 128K, yang menilai pengekalan AI urutan teks yang besar, dan mengekalkan prestasi 83.1% pada skala 1 juta yang lebih tinggi daripada prestasi konteks yang terbaik yang tersedia sebanyak 36.3%. Src=”Data: Image/Svg+Xml; Nitro-empty-id=mtc2ndoxodk5-1; base64, phn2zyb2awv3qm94psiwidagnzcwidewmjqiih dpzhropsi3nzaiighlawdodd0imtayncigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> Sumber: Google
Evolusi Gemini Google: Dari Bard ke Integrasi AI-First
evolusi Gemini sedang membentuk semula ekosistem AI Google. Pada mulanya dilancarkan sebagai Bard, peralihan ke Gemini menandakan peralihan ke arah penalaran AI yang lebih maju dan integrasi yang mendalam di seluruh perkhidmatan Google. Peralihan ini hanya dipercepat dengan perkembangan terkini.
Salah satu perubahan terbesar ialah keputusan Google untuk menggantikan Google Assistant dengan Gemini AI, menandakan komitmennya untuk menjadikan Gemini pembantu AI perdana. Tidak seperti Google Assistant, yang bergantung kepada tindak balas yang telah ditetapkan, Gemini menawarkan keupayaan multimodal masa nyata, termasuk bantuan AI berasaskan skrin dan interaksi kamera hidup melalui Gemini Live.
Google juga membenamkan Gemini AI lebih mendalam ke dalam alat produktiviti. Kemas kini Google Drive terkini menggabungkan Gemini untuk cadangan fail pintar dan ringkasan AI yang dihasilkan, meningkatkan navigasi dokumen. Sementara itu, Gmail kini mempunyai carian berkuasa AI, membuat pengambilan e-mel lebih intuitif.
Pengembangan Google NotebookLM adalah satu lagi langkah ke arah pengurusan pengetahuan AI yang berkuasa. Ciri-ciri Peta Minda yang baru, yang diperkenalkan pada bulan Mac 2025, membolehkan pengguna untuk mengatur penyelidikan secara visual, melengkapkan nota AI yang dihasilkan. OpenAI kekal sebagai pemimpin dalam ketepatan faktual dan penalaran berstruktur, sementara Google bertaruh pada AI multimodal, pemperibadian, dan integrasi produktiviti. Sementara itu, Microsoft memanfaatkan Copilot AI untuk menyaingi Gemini dalam aplikasi perniagaan, dan Adobe menolak automasi berkuasa AI dalam alat kreatif. OpenAI dilaporkan bekerja pada pengalaman carian bertenaga ChatGPT, sementara kemas kini terbaru Google membolehkan Gemini menggunakan sejarah carian untuk respons peribadi. Langkah ini membawa kedua-dua keupayaan AI dan kebimbangan privasi baru, kerana Google bertujuan untuk memperbaiki interaksi AI sambil mengimbangi pengawasan pengawalseliaan. Walau bagaimanapun, cabaran kekal, terutamanya dalam konsistensi faktual dan AI AI, di mana pesaing seperti OpenAI dan Anthropic masih memegang kelebihan. Sebagai pembantu berkuasa AI, model carian, dan alat produktiviti terus berkembang, persaingan AI generasi akan datang akan berpusat di sekitar personalisasi, penalaran, dan interaksi multimodal masa nyata.
Salah satu aspek yang paling kritikal dalam model AI moden adalah keupayaan mereka untuk membuat alasan melalui masalah kompleks dan tugas pengetahuan umum. Pada peperiksaan terakhir manusia, ujian multimodal yang meliputi matematik, kemanusiaan, dan sains semula jadi, Gemini 2.5 Pro menjaringkan 18.8%. Walaupun Gemini 2.5 mengatasi pesaing-pesaing ini, tiada perbandingan langsung terhadap GPT-4.5 yang lebih maju OpenAI disediakan, menjadikannya sukar untuk menentukan bagaimana model Google yang ditumpukan terhadap penentuan matematik. Gemini 2.5 Pro mencapai kadar ketepatan 92.0%pada dataset AIME 2024, penanda aras yang direka untuk menilai keupayaan model untuk menyelesaikan masalah algebra dan nombor teori yang maju. Walau bagaimanapun, apabila melihat model yang mampu membuat tindak balas pelbagai, Grok 3 Beta dan DeepSeek R1 dilakukan sedikit lebih baik, kedua-duanya menjaringkan 93.3%. Ini menunjukkan bahawa sementara Gemini 2.5 sangat mampu dalam satu tetapan yang dilaksanakan, model-model lain mungkin mempunyai sedikit kelebihan apabila dibenarkan untuk melangkah ke atas jawapan mereka.
[Kandungan tertanam] Pada LiveCodeBench, standard yang digunakan secara meluas untuk menilai keupayaan pengekodan AI-dibantu, Openai’s O3-mini yang tinggi memimpin dengan kadar ketepatan 74.1%, melampaui Gemini 2.5 Pro 70.4%. dari Claude 3.7 Sonnet dan Deepseek R1. Gemini 2.5, pada 63.8%, adalah kompetitif tetapi kurang daripada kecekapan Claude dalam pelaksanaan kod autonomi. Mengenai dataset SimpleQA, yang menguji keupayaan AI untuk memberikan jawapan yang ringkas dan tepat, GPT-4.5 OpenAI memimpin dengan 62.5%, diikuti oleh Gemini 2.5 pada 52.9%. Keputusan ini menunjukkan bahawa walaupun Gemini 2.5 berfungsi dengan baik dalam ketepatan faktual, model yang lebih maju OpenAI masih mempunyai kelebihan yang kuat dalam memastikan kebolehpercayaan maklumat.
[Kandungan tertanam] penalaran berasaskan penglihatan. Ia mencatatkan 81.7%pada penanda aras MMMU, ujian yang menilai pemahaman AI data visual, jauh lebih awal daripada GPT-4.5 (74.4%) dan Claude 3.7 sonnet (75.0%). Ia mencapai ketepatan 91.5% pada MRCR 128K, yang menilai pengekalan AI urutan teks yang besar, dan mengekalkan prestasi 83.1% pada skala 1 juta yang lebih tinggi daripada prestasi konteks yang terbaik yang tersedia sebanyak 36.3%. Src=”Data: Image/Svg+Xml; Nitro-empty-id=mtc2ndoxodk5-1; base64, phn2zyb2awv3qm94psiwidagnzcwidewmjqiih dpzhropsi3nzaiighlawdodd0imtayncigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> Sumber: GoogleEvolusi Gemini Google: Dari Bard ke Integrasi AI-First
evolusi Gemini sedang membentuk semula ekosistem AI Google. Pada mulanya dilancarkan sebagai Bard, peralihan ke Gemini menandakan peralihan ke arah penalaran AI yang lebih maju dan integrasi yang mendalam di seluruh perkhidmatan Google. Peralihan ini hanya dipercepat dengan perkembangan terkini.
Salah satu perubahan terbesar ialah keputusan Google untuk menggantikan Google Assistant dengan Gemini AI, menandakan komitmennya untuk menjadikan Gemini pembantu AI perdana. Tidak seperti Google Assistant, yang bergantung kepada tindak balas yang telah ditetapkan, Gemini menawarkan keupayaan multimodal masa nyata, termasuk bantuan AI berasaskan skrin dan interaksi kamera hidup melalui Gemini Live.
Google juga membenamkan Gemini AI lebih mendalam ke dalam alat produktiviti. Kemas kini Google Drive terkini menggabungkan Gemini untuk cadangan fail pintar dan ringkasan AI yang dihasilkan, meningkatkan navigasi dokumen. Sementara itu, Gmail kini mempunyai carian berkuasa AI, membuat pengambilan e-mel lebih intuitif.
Pengembangan Google NotebookLM adalah satu lagi langkah ke arah pengurusan pengetahuan AI yang berkuasa. Ciri-ciri Peta Minda yang baru, yang diperkenalkan pada bulan Mac 2025, membolehkan pengguna untuk mengatur penyelidikan secara visual, melengkapkan nota AI yang dihasilkan. OpenAI kekal sebagai pemimpin dalam ketepatan faktual dan penalaran berstruktur, sementara Google bertaruh pada AI multimodal, pemperibadian, dan integrasi produktiviti. Sementara itu, Microsoft memanfaatkan Copilot AI untuk menyaingi Gemini dalam aplikasi perniagaan, dan Adobe menolak automasi berkuasa AI dalam alat kreatif. OpenAI dilaporkan bekerja pada pengalaman carian bertenaga ChatGPT, sementara kemas kini terbaru Google membolehkan Gemini menggunakan sejarah carian untuk respons peribadi. Langkah ini membawa kedua-dua keupayaan AI dan kebimbangan privasi baru, kerana Google bertujuan untuk memperbaiki interaksi AI sambil mengimbangi pengawasan pengawalseliaan. Walau bagaimanapun, cabaran kekal, terutamanya dalam konsistensi faktual dan AI AI, di mana pesaing seperti OpenAI dan Anthropic masih memegang kelebihan. Sebagai pembantu berkuasa AI, model carian, dan alat produktiviti terus berkembang, persaingan AI generasi akan datang akan berpusat di sekitar personalisasi, penalaran, dan interaksi multimodal masa nyata.