Firma IT Jerman TNG Technology Consulting telah mengeluarkan model AI sumber terbuka baru yang dilaporkan dua kali lebih cepat daripada varian DeepSeek R1-0528 dari Mei ia berdasarkan. Dikeluarkan minggu ini pada
Kaedah ini menggabungkan komponen dari tiga model induk yang berbeza, termasuk model DeepSeek R1 dan V3 asal. Hasilnya adalah model yang mengekalkan keupayaan penalaran peringkat tinggi sambil menghasilkan jawapan dengan token 60% yang lebih sedikit, kos kesimpulan secara drastik dan masa tindak balas untuk pemaju.
Komuniti pemaju AI telah memberi respons dengan semangat. ON X, memeluk pemimpin kanan Vaibhav Srivastav menulis,”Deepseek R1T2-200% lebih cepat daripada R1-0528 & 20% lebih cepat daripada R1,”. Model ini boleh didapati di bawah lesen MIT permisif, yang membolehkan penggunaan dan pengubahsuaian komersial yang luas.
Assembly-of-experts: Pendekatan novel untuk penciptaan model
kaedah”Assembly-of-Experts”TNG mewakili pemergian yang signifikan dari penciptaan model konvensional. Daripada penalaan halus atau latihan semula, AOE membina model baru dengan selektif menggabungkan tensor berat dari pelbagai ibu bapa yang terlatih, satu proses yang terperinci dalam A Tensor-bahagian-bahagian model yang paling bertanggungjawab untuk pengetahuan khusus-sambil mengekalkan lapisan bersama yang lebih cekap dari ibu bapa yang lebih cepat. Chimera”tri-mind”ini menggabungkan penalaran R1-0528, pemikiran berstruktur R1, dan kesimpulan V3-0324.
Walaupun MOE adalah seni bina runtime yang mengaktifkan sebahagian kecil daripada”pakar”model untuk apa-apa tugas yang diberikan, AOE adalah teknik pembinaan yang membakar kepakaran gabungan ke dalam satu model akhir yang lebih cekap. Menurut tanda aras yang diterbitkan oleh TNG, R1T2 chimera mencapai antara 90% dan 92% daripada prestasi penalaran ibu bapa yang paling berkuasa, R1-0528, pada ujian menuntut seperti AIME dan GPQA. Walau bagaimanapun, kelebihan utama model adalah kesimpulan. Ia menghasilkan jawapan yang betul menggunakan kira-kira 40% daripada token yang diperlukan oleh R1-0528, pengurangan panjang 60% dalam output.
Kecekapan ini merupakan ciri utama ibu bapa V3nya. Selepas pembebasannya, pemaju Awni Hannun berkata mengenai peningkatan menjalankannya di komputer riba . R1T2 Chimera berjaya menggabungkan kecekapan ini ke teras penalaran yang lebih kuat. Momentum firma Cina telah terhenti, dengan model R2 yang dijangkakan sekarang tidak lama lagi ditangguhkan. Ini disebabkan oleh ketidakpuasan prestasi dalaman dan kesan kawalan eksport AS pada cip AI yang penting.
Pada masa yang sama, DeepSeek menghadapi tekanan pengawalseliaan di Barat. Di Jerman, Pihak Berkuasa Perlindungan Data Berlin telah meminta Apple dan Google mengeluarkan aplikasi DeepSeek dari kedai-kedai, melabelkannya”kandungan yang menyalahi undang-undang”kerana risiko pemindahan data haram ke China. Pengerusi Jawatankuasa John Moolenaar menyatakan,”Laporan ini menjelaskan: DeepSeek bukan hanya satu lagi aplikasi AI-ia adalah senjata dalam senjata Parti Komunis China…,”mendakwa aplikasi itu adalah alat untuk pengintipan dan penuaian data. Tekanan luaran ini mewujudkan latar belakang yang kompleks untuk mana-mana teknologi yang diperolehi daripada kerja DeepSeek. Lesen MITnya menawarkan fleksibiliti maksimum untuk hosting, penyesuaian, dan penggunaan peribadi dalam aplikasi komersil tanpa yuran pelesenan. Pengurangan ketara dalam kos kesimpulan menjadikannya sesuai untuk persekitaran tinggi atau masa nyata.
Penjimatan kos amat relevan untuk aplikasi seperti chatbots sokongan pelanggan masa nyata, ringkasan dokumen berskala besar, atau pertanyaan asas pengetahuan dalaman, di mana kedua-dua kelajuan dan belanjawan adalah kritikal. Ia meletakkan model dalam kuadran yang diingini pada lengkung prestasi-versus-kos.
Walau bagaimanapun, TNG mencatatkan beberapa batasan semasa. Model ini belum disyorkan untuk kes penggunaan yang memerlukan penggunaan fungsi atau penggunaan alat, yang bermaksud ia tidak boleh berinteraksi dengan API luaran. Ini mengehadkan penggunaannya dalam aliran kerja yang kompleks dan automatik, walaupun kemas kini masa depan boleh menangani jurang ini. Walaupun kaveat ini, pembebasan R1T2 chimera oleh TNG menandakan langkah yang ketara dalam pembangunan AI modular, yang menawarkan gambaran ke masa depan di mana model dipasang, bukan hanya terlatih.