Pengembang AI Cina Deepseek telah merilis Deepseek-V3.2-Exp, model eksperimental yang disebutnya”langkah menengah”menuju arsitektur generasi berikutnya. T
Perusahaan yang berbasis di Hangzhou mengumumkan model open-source pada hari Senin, mengungkapkan itu dirancang untuk menguji metode baru, pp. untuk perusahaan. Model R2 yang sangat dinanti ditunda tanpa batas waktu awal tahun ini di tengah kekurangan perangkat keras. Dalam langkah bersamaan yang mengintensifkan perang harga AI China, Deepseek juga mengumumkan bahwa , putting direct pressure on domestic rivals.
An Experimental Leap with DeepSeek Sparse Attention
The core innovation in V3.2-Exp is sebuah mekanisme yang perusahaan sebut Deepseek Jarang Perhatian (DSA).
Sebagai rilis eksperimental, model baru ini dibangun di atas pendahulunya, v3.1-terminus, dengan tujuan spesifik untuk mengeksplorasi dan memvalidasi optimisasi untuk pelatihan dan efisiensi inferensi dalam skenario yang diputar panjang.
menurut perusahaan, DS, DSA-LAYANE. Arsitektur baru ini direkayasa untuk memberikan peningkatan substansial dalam efisiensi komputasi ketika memproses urutan teks yang diperpanjang, sebuah hambatan utama untuk banyak aplikasi AI skala besar, sambil mempertahankan kualitas output model yang hampir sama, sebagai gantinya, sebaliknya. V3.2-exp dengan v3.1-terminus. Data Benchmark menunjukkan dua model yang berkinerja hampir identik pada tes penalaran dan pengkodean, mengisolasi keuntungan efisiensi sebagai variabel tunggal.