Laboratorium AI China Deepseek telah merilis Deepseek-Fover-V2-671B, model bahasa yang sangat besar yang ditujukan untuk pembuktian teorema matematika, membuatnya tersedia di

Deepseek-Transe-Enge-V2-671B muncul di depan rilis yang segera terjadi pada rilis yang akan segera terjadi di depan rilisnya. earlier-than-planned rollout as it battles tightening U.S. and European regulations and intensifying competition from OpenAI, Google, Anthropic, xAI, and Alibaba.

Efficiency Under Constraints

These hardware restrictions, limiting access to top-tier Nvidia GPUs like the A100 and H100, appear to have driven DeepSeek’s focus on efisiensi komputasi. Perusahaan memasukkan teknik seperti Multi-Head Latent Attention (MLA) —sebuah pendekatan yang dirancang untuk menangani urutan data yang panjang secara efisien (hingga 128.000 token dalam model dasar V3) —dan kuantisasi FP8, format numerik presisi rendah yang mengurangi kebutuhan memori, ke dalam arsitektur modelnya.

Fokus efisiensi ini sebelumnya disorot ketika for-for-sumber-forover-forover-forover-forover-forover-forover. Pada gugus substansial 2048 NVIDIA H800 GPU, menurut Laporan Teknis .

Ai Tackles Formal Matematika Formul

Deepseek-Fover-V2-671B bukanlah chatbot umum tetapi sistem yang sangat khusus menargetkan teorema formal yang membuktikan, khususnya menggunakan safetensorsorsorsors. Namun, arsitektur campuran-ekspert (MOE)-input routing desain hanya ke subset parameter-berarti hanya sebagian kecil yang aktif selama inferensi, skala penyeimbang dengan biaya komputasi.

Aplikasi potensial termasuk secara otomatis menghasilkan penelitian langkah-demi-langkah, mendeteksi kesalahan dalam bukti yang ada, pengajaran yang ada, dan pengajaran yang ada. Ini dibangun di atas karya Deepseek sebelumnya, termasuk parameter 7B Deepseek-two-twol dari evor-ev1. href=”https://arxiv.org/abs/2405.14333″target=”_ blank”> Pekerjaan pepatah (Mei 2024). 

Pendekatan ini berbeda dari sistem AI matematika profil tinggi baru-baru ini. Alphageometry2 dari Google Deepmind, yang baru-baru ini melampaui peraih medali emas manusia pada masalah geometri matematika internasional (IMO), menggunakan arsitektur hybrid yang menggabungkan model bahasa Gemini yang disesuaikan dengan mesin penalaran simbolik khusus (DDAR).

Alphageometry2 juga sangat bergantung pada menghasilkan sejumlah besar data pelatihan sintetis (lebih dari 300 juta teorema dan bukti) untuk mencapai kinerjanya pada masalah geometri gaya kompetisi. Model prover Deepseek sebelumnya ( v1.5 dan

Ketua Komite John Moolenaar menyatakan,”Laporan ini menjelaskan: Deepseek bukan hanya aplikasi AI lain-itu adalah senjata di Arsenal Partai Komunis Tiongkok, yang dirancang untuk memata-matai orang Amerika, mencuri teknologi kami, dan menumbangkan hukum AS.”Tuduhan serius terperinci, mengklaim deepseek corong data pengguna Amerika kembali ke Cina melalui infrastruktur yang terhubung ke target cina-corent-sovering-clocing-legrate

Komite juga dugaan Deepseek memperoleh”puluhan ribu”keripik canggih, berpotensi melanggar undang-undang ekspor AS, dan Microsoft security researchers suggesting DeepSeek personnel may have Teknik yang digunakan secara tidak tepat seperti distilasi model dengan menghindari perlindungan pada model AS.

Deepseek melanjutkan rilis sumber terbuka, termasuk prover v2, dan pesaingnya dengan saingan domestik seperti alibaba (yang merilis