Google memperkenalkan Gemini 2.5: Bagaimana ia menumpuk terhadap model dari Openai, Xai, Anthropic dan DeepSeek

Google telah melancarkan Eksperimen Gemini 2.5, model AI terkini, membawa peningkatan yang ketara dalam penalaran berstruktur, keupayaan multimodal, dan pemahaman konteks panjang. Model yang kini tersedia untuk pengguna Gemini Advanced dan Google AI Studio, dijangka akan dilancarkan ke Vertex AI tidak lama lagi. 2.5 Meningkatkan penalaran AI

Salah satu peningkatan yang paling ketara dalam Gemini 2.5 adalah keupayaannya untuk memohon pengesahan logik pelbagai langkah sebelum menghasilkan respons, meningkatkan ketepatannya dalam penyelesaian masalah yang kompleks. Src=”Data: Image/Svg+Xml; Nitro-emphy-id=mty4ntoxodu5-1; base64, phn2zyb2awv3qm94psiwidagmtaynca2mj kiihdpzhropssixmdi0iibozwlnahq9ijyyosigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

Google menerangkan ini Menulis”[Gemini] 2.5 PRO Kapal hari ini dengan tetingkap konteks 1 juta token (2 juta akan datang tidak lama lagi), dengan prestasi yang kuat yang meningkatkan lebih dari generasi sebelumnya”

bagaimana Gemini 2.5 membandingkan? Termasuk Openai’s O3-Mini High dan GPT-4.5, Xai’s Grok 3 Beta, Anthropic’s Claude 3.7 Sonnet, dan Deepseek R1. Hasilnya menunjukkan model yang membawa di beberapa kawasan ketika menghadapi persaingan di orang lain.
Sumber: Google Pencapaian & Pengetahuan

Salah satu aspek yang paling kritikal dalam model AI moden adalah keupayaan mereka untuk membuat alasan melalui masalah kompleks dan tugas pengetahuan umum. Pada peperiksaan terakhir manusia, ujian multimodal yang meliputi matematik, kemanusiaan, dan sains semula jadi, Gemini 2.5 Pro menjaringkan 18.8%. Walaupun Gemini 2.5 mengatasi pesaing-pesaing ini, tiada perbandingan langsung terhadap GPT-4.5 yang lebih maju OpenAI disediakan, menjadikannya sukar untuk menentukan bagaimana model Google yang ditumpukan terhadap penentuan matematik. Gemini 2.5 Pro mencapai kadar ketepatan 92.0%pada dataset AIME 2024, penanda aras yang direka untuk menilai keupayaan model untuk menyelesaikan masalah algebra dan nombor teori yang maju. Walau bagaimanapun, apabila melihat model yang mampu membuat tindak balas pelbagai, Grok 3 Beta dan DeepSeek R1 dilakukan sedikit lebih baik, kedua-duanya menjaringkan 93.3%. Ini menunjukkan bahawa sementara Gemini 2.5 sangat mampu dalam satu tetapan yang dilaksanakan, model-model lain mungkin mempunyai sedikit kelebihan apabila dibenarkan untuk melangkah ke atas jawapan mereka.

[Kandungan tertanam] Pada LiveCodeBench, standard yang digunakan secara meluas untuk menilai keupayaan pengekodan AI-dibantu, Openai’s O3-mini yang tinggi memimpin dengan kadar ketepatan 74.1%, melampaui Gemini 2.5 Pro 70.4%. dari Claude 3.7 Sonnet dan Deepseek R1. Gemini 2.5, pada 63.8%, adalah kompetitif tetapi kurang daripada kecekapan Claude dalam pelaksanaan kod autonomi. Mengenai dataset SimpleQA, yang menguji keupayaan AI untuk memberikan jawapan yang ringkas dan tepat, GPT-4.5 OpenAI memimpin dengan 62.5%, diikuti oleh Gemini 2.5 pada 52.9%. Keputusan ini menunjukkan bahawa walaupun Gemini 2.5 berfungsi dengan baik dalam ketepatan faktual, model yang lebih maju OpenAI masih mempunyai kelebihan yang kuat dalam memastikan kebolehpercayaan maklumat.

[Kandungan tertanam] penalaran berasaskan penglihatan. Ia mencatatkan 81.7%pada penanda aras MMMU, ujian yang menilai pemahaman AI data visual, jauh lebih awal daripada GPT-4.5 (74.4%) dan Claude 3.7 sonnet (75.0%). Ia mencapai ketepatan 91.5% pada MRCR 128K, yang menilai pengekalan AI urutan teks yang besar, dan mengekalkan prestasi 83.1% pada skala 1 juta yang lebih tinggi daripada prestasi konteks yang terbaik yang tersedia sebanyak 36.3%. Src=”Data: Image/Svg+Xml; Nitro-empty-id=mtc2ndoxodk5-1; base64, phn2zyb2awv3qm94psiwidagnzcwidewmjqiih dpzhropsi3nzaiighlawdodd0imtayncigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> Sumber: Google

Evolusi Gemini Google: Dari Bard ke Integrasi AI-First

evolusi Gemini sedang membentuk semula ekosistem AI Google. Pada mulanya dilancarkan sebagai Bard, peralihan ke Gemini menandakan peralihan ke arah penalaran AI yang lebih maju dan integrasi yang mendalam di seluruh perkhidmatan Google. Peralihan ini hanya dipercepat dengan perkembangan terkini.

Salah satu perubahan terbesar ialah keputusan Google untuk menggantikan Google Assistant dengan Gemini AI, menandakan komitmennya untuk menjadikan Gemini pembantu AI perdana. Tidak seperti Google Assistant, yang bergantung kepada tindak balas yang telah ditetapkan, Gemini menawarkan keupayaan multimodal masa nyata, termasuk bantuan AI berasaskan skrin dan interaksi kamera hidup melalui Gemini Live.

Google juga membenamkan Gemini AI lebih mendalam ke dalam alat produktiviti. Kemas kini Google Drive terkini menggabungkan Gemini untuk cadangan fail pintar dan ringkasan AI yang dihasilkan, meningkatkan navigasi dokumen. Sementara itu, Gmail kini mempunyai carian berkuasa AI, membuat pengambilan e-mel lebih intuitif.

Pengembangan Google NotebookLM adalah satu lagi langkah ke arah pengurusan pengetahuan AI yang berkuasa. Ciri-ciri Peta Minda yang baru, yang diperkenalkan pada bulan Mac 2025, membolehkan pengguna untuk mengatur penyelidikan secara visual, melengkapkan nota AI yang dihasilkan. OpenAI kekal sebagai pemimpin dalam ketepatan faktual dan penalaran berstruktur, sementara Google bertaruh pada AI multimodal, pemperibadian, dan integrasi produktiviti. Sementara itu, Microsoft memanfaatkan Copilot AI untuk menyaingi Gemini dalam aplikasi perniagaan, dan Adobe menolak automasi berkuasa AI dalam alat kreatif. OpenAI dilaporkan bekerja pada pengalaman carian bertenaga ChatGPT, sementara kemas kini terbaru Google membolehkan Gemini menggunakan sejarah carian untuk respons peribadi. Langkah ini membawa kedua-dua keupayaan AI dan kebimbangan privasi baru, kerana Google bertujuan untuk memperbaiki interaksi AI sambil mengimbangi pengawasan pengawalseliaan. Walau bagaimanapun, cabaran kekal, terutamanya dalam konsistensi faktual dan AI AI, di mana pesaing seperti OpenAI dan Anthropic masih memegang kelebihan. Sebagai pembantu berkuasa AI, model carian, dan alat produktiviti terus berkembang, persaingan AI generasi akan datang akan berpusat di sekitar personalisasi, penalaran, dan interaksi multimodal masa nyata.

Google memperkenalkan Gemini 2.5: Bagaimana ia menumpuk terhadap model dari Openai, Xai, Anthropic dan DeepSeek

Published by All Things Windows on March 25, 2025

bagaimana Gemini 2.5 membandingkan? Termasuk Openai’s O3-Mini High dan GPT-4.5, Xai’s Grok 3 Beta, Anthropic’s Claude 3.7 Sonnet, dan Deepseek R1. Hasilnya menunjukkan model yang membawa di beberapa kawasan ketika menghadapi persaingan di orang lain.
Sumber: Google Pencapaian & Pengetahuan

Evolusi Gemini Google: Dari Bard ke Integrasi AI-First

IT Info

EU meluluskan dana teknologi € 1.3b, mengikat peraturan AI untuk digunakan

IT Info

Antropik memperkenalkan rangka kerja interpretasi untuk membuat penalaran AI Claude lebih telus

IT Info

Aktifkan atau lumpuhkan tindakan yang disyorkan dari aplikasi di Windows 11

Google memperkenalkan Gemini 2.5: Bagaimana ia menumpuk terhadap model dari Openai, Xai, Anthropic dan DeepSeek

Published by All Things Windows on March 25, 2025

bagaimana Gemini 2.5 membandingkan? Termasuk Openai’s O3-Mini High dan GPT-4.5, Xai’s Grok 3 Beta, Anthropic’s Claude 3.7 Sonnet, dan Deepseek R1. Hasilnya menunjukkan model yang membawa di beberapa kawasan ketika menghadapi persaingan di orang lain. Sumber: Google Pencapaian & Pengetahuan

Evolusi Gemini Google: Dari Bard ke Integrasi AI-First

Related Posts

IT Info

EU meluluskan dana teknologi € 1.3b, mengikat peraturan AI untuk digunakan

IT Info

Antropik memperkenalkan rangka kerja interpretasi untuk membuat penalaran AI Claude lebih telus

IT Info

Aktifkan atau lumpuhkan tindakan yang disyorkan dari aplikasi di Windows 11

bagaimana Gemini 2.5 membandingkan? Termasuk Openai’s O3-Mini High dan GPT-4.5, Xai’s Grok 3 Beta, Anthropic’s Claude 3.7 Sonnet, dan Deepseek R1. Hasilnya menunjukkan model yang membawa di beberapa kawasan ketika menghadapi persaingan di orang lain.
Sumber: Google Pencapaian & Pengetahuan