DeepSeek kembali menghancurkan cengkeraman eksklusif raksasa teknologi Barat dalam penalaran elit, merilis model AI open-weight yang menyamai kinerja OpenAI dan Google dalam matematika.

Diluncurkan pada hari Kamis, DeepSeekMath-V2 meraih standar Medali Emas di Olimpiade Matematika Internasional (IMO) 2025.

Pada Kompetisi Matematika William Lowell Putnam, kompetisi matematika terkemuka untuk mahasiswa sarjana di Amerika Serikat dan Di Kanada, model ini mendapatkan skor 118 dari 120, melampaui skor tertinggi manusia sebesar 90. Tidak seperti sistem pesaing yang tersembunyi di balik API, DeepSeek telah merilis bobot tersebut secara publik, sehingga peneliti dapat memeriksa logikanya secara langsung.

Diluncurkan di tengah penundaan model andalannya R2 karena kontrol ekspor AS, rilis ini menandakan ketahanan teknis. Hal ini membuktikan arsitektur khusus dapat memberikan hasil tercanggih bahkan ketika akses ke perangkat keras mutakhir dibatasi.

Standar Emas: Mematahkan Monopoli Kepemilikan

DeepSeekMath-V2 telah resmi menyamai standar “Medali Emas”di Olimpiade Matematika Internasional (IMO) 2025, dan berhasil menyelesaikan 5 dari 6 soal. Sesuai dengan tolok ukur kepemilikan yang ditetapkan oleh pencapaian serupa Google DeepMind dan kinerja medali emas OpenAI, kinerja ini menyamakan kedudukan dengan sistem yang sebelumnya tidak dapat disentuh.

Jauh dari pembaruan berulang yang sederhana, rilis ini mewakili perubahan mendasar dalam akses ke pemikiran AI elit. Meskipun laboratorium di Barat menyimpan model matematika mereka yang paling mumpuni di balik dinding “penguji tepercaya”atau API yang mahal, repositori model untuk DeepSeekMath-V2 tersedia untuk segera didownload.

Lembaga akademis dan peneliti perusahaan kini dapat menjalankan model secara lokal, memverifikasi kemampuannya tanpa bergantung pada infrastruktur cloud yang mungkin tunduk pada masalah privasi data atau batasan geopolitik.

Di luar IMO, model ini menunjukkan kemampuan yang belum pernah terjadi sebelumnya dalam Kompetisi Putnam, yang secara luas dianggap sebagai ujian matematika sarjana tersulit di Amerika Utara. Menyoroti pencapaian tersebut, Tim Peneliti DeepSeek menyatakan:

“Pada Putnam 2024, kompetisi matematika sarjana terkemuka, model kami menyelesaikan 11 dari 12 soal dengan tuntas dan sisa soal dengan kesalahan kecil, mendapat skor 118/120 dan melampaui skor manusia tertinggi sebesar 90.”

Melampaui batasan manusia pada ujian yang begitu ketat menunjukkan bahwa model ini tidak hanya mengambil bukti yang dihafal tetapi juga terlibat dalam novel pemecahan masalah. Pencapaian nilai 118 dari 120 merupakan hal yang luar biasa mengingat tingkat kesulitan permasalahan yang dihadapi sangat tinggi, dengan skor median yang secara historis rendah.

Analisis independen semakin memvalidasi metrik internal ini. Evaluasi pada subset “Dasar”dari IMO-ProofBench, sebuah tolok ukur yang dikembangkan oleh Google DeepMind, menunjukkan bahwa model tersebut mencapai tingkat keberhasilan 99,0%, yang mengonfirmasi konsistensi penalaran di berbagai domain matematika.

Verifikasi sangat penting dalam hal ini, karena bidang ini baru-baru ini diganggu oleh hasil yang terlalu dilebih-lebihkan, seperti pencabutan klaim terkait GPT-5 yang secara keliru menuduh model tersebut telah memecahkan masalah terkenal Masalah Erdős.

Dengan melepaskan bobot, DeepSeek telah secara efektif mengkomoditisasi kemampuan yang dianggap sebagai parit kompetitif utama bagi Silicon Valley beberapa bulan yang lalu. Clement Delangue, salah satu pendiri dan CEO Hugging Face, menekankan pentingnya perubahan ini dalam postingan di X:

Sejauh yang saya tahu, tidak ada chatbot atau API yang memberi Anda akses ke model peraih medali emas IMO 2025. Hal ini tidak hanya berubah saat ini, namun Anda juga dapat mengunduh bobot dengan rilis sumber terbuka Apache 2.0 dari @deepseek_ai Math-V2 di @huggingface!

Bayangkan memiliki… pic.twitter.com/FbTcg1GcnE

— clem 🤗 (@ClementDelangue) 27 November 2025

Di Balik Terpal: Terobosan’Meta-Verifikasi’

Secara historis, Tantangan utama dalam AI matematis adalah “halusinasi”, di mana model sampai pada jawaban yang benar menggunakan logika yang cacat, melingkar, atau tidak masuk akal. Dalam tolok ukur penalaran kuantitatif, model sering kali dapat menebak angka yang tepat tanpa memahami prinsip-prinsip yang mendasarinya. Tim Peneliti DeepSeek menjelaskan masalah inti dalam whitepaper teknis:

“Banyak tugas matematika seperti pembuktian teorema memerlukan derivasi langkah demi langkah yang teliti dibandingkan jawaban numerik, sehingga imbalan jawaban akhir tidak dapat diterapkan.”

Untuk mengatasi keterbatasan mendasar ini, makalah teknis merinci arsitektur baru yang berpusat pada “Meta-Verifikasi”. Tidak seperti metode verifikasi standar yang hanya memeriksa apakah suatu jawaban cocok dengan referensi, pendekatan DeepSeek mengevaluasi proses verifikasi itu sendiri.

DeepSeek melatih model sekunder untuk menilai kualitas analisis pemverifikasi, mencegah model utama “mempermainkan” sistem penghargaan dengan menghasilkan bukti yang terdengar meyakinkan namun secara logis tidak valid.

Menciptakan perlindungan terhadap peretasan hadiah, struktur rekursif ini memastikan bahwa model hanya diberi penghargaan untuk alasan yang asli. ketelitian. Dengan menilai apakah masalah yang teridentifikasi dalam suatu bukti membenarkan skor secara logis, sistem menerapkan konsistensi logis yang ketat.

Yang mendasari arsitektur ini adalah pipeline pelatihan “Cold Start”. Daripada mengandalkan kumpulan data eksternal yang sangat besar berupa bukti matematis formal, yang langka dan mahal untuk dikurasi, model ini secara berulang menghasilkan data pelatihannya sendiri. Menjelaskan metodologinya, para peneliti menyatakan:

“Kami percaya bahwa LLM dapat dilatih untuk mengidentifikasi masalah bukti tanpa solusi referensi. Verifikator seperti itu akan memungkinkan siklus peningkatan berulang: (1) menggunakan umpan balik verifikasi untuk mengoptimalkan pembuatan bukti, (2) menskalakan komputasi verifikasi untuk memberi label otomatis pada bukti baru yang sulit diverifikasi… dan (3) menggunakan verifikator yang disempurnakan ini untuk lebih mengoptimalkan pembuatan bukti.”

“Selain itu, verifikator bukti yang andal memungkinkan kami untuk mengajarkan pembuat bukti.”untuk mengevaluasi bukti seperti yang dilakukan oleh pemverifikasi. Hal ini memungkinkan pembuat bukti menyempurnakan buktinya secara berulang hingga tidak dapat lagi mengidentifikasi atau menyelesaikan masalah apa pun.”

Melalui siklus ini, model melakukan bootstrap pada kemampuannya sendiri. Saat pemverifikasi menjadi lebih akurat, ia dapat mengidentifikasi kesalahan yang lebih halus pada keluaran generator. Akibatnya, generator terpaksa menghasilkan bukti yang lebih teliti untuk memenuhi verifikasi yang ditingkatkan.

Dinamika seperti itu menciptakan putaran umpan balik positif yang meningkatkan kinerja tanpa memerlukan peningkatan proporsional pada data yang diberi label manusia. Pada waktu inferensi, model menggunakan “komputasi waktu pengujian berskala”. Alih-alih menghasilkan satu jawaban, sistem menghasilkan 64 kandidat bukti untuk masalah tertentu.

Kemudian menjalankan proses verifikasi pada 64 kandidat untuk memilih jalur yang paling logis. Dengan mengalihkan beban komputasi dari fase pelatihan (penskalaan parameter) ke fase inferensi (pencarian penalaran), pendekatan ini selaras dengan tren industri yang lebih luas menuju pemikiran “Sistem 2″di mana model “merenungkan” masalah sebelum menghasilkan solusi.

Ketahanan Strategis: Inovasi Meski Ada Sanksi

Berfungsi sebagai kontra-narasi penting terhadap perjuangan perusahaan baru-baru ini dalam hal ketersediaan perangkat keras, rilis ini menunjukkan teknis yang signifikan ketangkasan. Model R2 andalan DeepSeek menghadapi penundaan terkait perangkat keras karena kegagalan terus-menerus saat melakukan pelatihan pada chip Ascend domestik Huawei.

Kemunduran tersebut menyoroti kesulitan besar yang dihadapi perusahaan-perusahaan Tiongkok dalam membangun tumpukan perangkat lunak pada perangkat keras baru yang belum terbukti di bawah tekanan kontrol ekspor AS. Dengan beralih ke arsitektur yang berfokus pada efisiensi, laboratorium ini menunjukkan bahwa mereka masih dapat mengirimkan penelitian mutakhir.

DeepSeekMath-V2 dibangun di DeepSeek-V3.2-Exp-Base, membuktikan bahwa mekanisme perhatian jarang yang diperkenalkan dalam model tersebut mulai bulan September telah siap produksi.

Pada bulan Oktober, perusahaan meluncurkan alat pengenalan karakter optiknya, yang menggunakan teknik efisiensi serupa untuk mengompresi pemrosesan dokumen sebesar sepuluh kali lipat.

Ketersediaan open-weight memberikan tekanan yang signifikan pada laboratorium Barat untuk membenarkan pendekatan sumber tertutup mereka.

Ketika “parit” kemampuan penalaran tampaknya mulai menguap, argumen bahwa keselamatan memerlukan menjaga model-model ini tetap terkunci menjadi lebih sulit untuk dipertahankan ketika kemampuan serupa tersedia secara bebas di Hugging Face.

Untuk industri AI yang lebih luas, rilis ini menunjukkan bahwa model yang terspesialisasi dan sangat optimal dapat menawarkan jalur maju yang layak bahkan ketika akses ke cluster besar GPU Nvidia dibatasi.

Dengan berfokus pada inovasi algoritmik seperti Meta-Verifikasi dan sedikit perhatian, DeepSeek mengukir ceruk kompetitif yang tidak terlalu mengandalkan skala brute force dan lebih mengandalkan kecerdikan arsitektur.

Categories: IT Info