Firma TI Jerman TNG Technology Consulting telah merilis model AI open-source baru yang dilaporkan dua kali lebih cepat dari varian Deepseek R1-0528 dari Mei yang didasarkan pada. Dirilis minggu ini di
Metode ini menggabungkan komponen dari tiga model induk yang berbeda, termasuk model Deepseek R1 dan V3 asli. Hasilnya adalah model yang mempertahankan kemampuan penalaran tingkat tinggi sambil menghasilkan jawaban dengan 60% lebih sedikit token, secara drastis memotong biaya inferensi dan waktu respons untuk pengembang. Komunitas pengembang AI telah merespons dengan antusias. Pada x, Pemimpin Senior Hugging Face Vaibhav Srivastav menulis,”Sialan! Deepseek R1T2-200% lebih cepat dari R1-0528 & 20% lebih cepat dari R1,”. Model ini tersedia di bawah lisensi MIT permisif, memungkinkan untuk penggunaan komersial dan modifikasi yang luas. Metode”Assembly-of-Experts”TNG (AOE) mewakili keberangkatan yang signifikan dari penciptaan model konvensional. Alih-alih menyempurnakan atau melatih kembali, AOE membangun model baru dengan secara selektif menggabungkan tensor berat dari beberapa orang tua pra-terlatih, sebuah proses yang dirinci dalam kertas penelitian terbaru Pendekatan ini berbeda dari arsitektur campuran-ekspert (MOE) yang digunakan dalam model induknya. Sementara MOE adalah arsitektur runtime yang mengaktifkan sebagian kecil dari”para ahli”model untuk tugas apa pun, AoE adalah teknik konstruksi yang memanggang keahlian gabungan menjadi satu model akhir yang lebih efisien. THE PRAKTIS THE PRAKTIS IS EFEKIENSI EKSTRAIENSI
THE PRAKTIS THE THE PRAKTIS IS EFEFIENSI ADALAH
THE PRAKTIS THE THE PRAKTIS IS EFEKIENSI EXTRUMENSI
THE THE PRAKTIS THE PRAKSICE. Menurut tolok ukur yang diterbitkan oleh TNG, R1T2 Chimera mencapai antara 90% dan 92% dari penalaran kinerja orangtua yang paling kuat, R1-0528, tentang tes yang menuntut seperti AIME dan GPQA. Benchmark ini dirancang untuk menguji pengamatan yang canggih, multi-langkah yang melampaui jauhnya. Namun, keuntungan utama model adalah keringkasan. Ini menghasilkan jawaban yang benar menggunakan sekitar 40% dari token yang dibutuhkan oleh R1-0528, pengurangan 60% panjang output. Ini secara langsung diterjemahkan ke waktu respons yang lebih cepat dan biaya komputasi yang lebih rendah, membuatnya lebih dari dua kali lebih cepat dalam hal praktis. Efisiensi ini adalah ciri khas orangtua V3-nya. Setelah rilis Maretnya, pengembang Awni Hannun mengatakan tentang Assembly-of-Experts: Suatu Pendekatan Baru untuk Penciptaan Model
tolok ukur: menyeimbangkan intelijen mentah dengan efisiensi ekstrim
Categories: IT Info