Deepseek R1-0528: Firma Jerman merilis versi model AI Deepseek yang berjalan dua kali lebih cepat

Firma TI Jerman TNG Technology Consulting telah merilis model AI open-source baru yang dilaporkan dua kali lebih cepat dari varian Deepseek R1-0528 dari Mei yang didasarkan pada. Dirilis minggu ini di

Metode ini menggabungkan komponen dari tiga model induk yang berbeda, termasuk model Deepseek R1 dan V3 asli. Hasilnya adalah model yang mempertahankan kemampuan penalaran tingkat tinggi sambil menghasilkan jawaban dengan 60% lebih sedikit token, secara drastis memotong biaya inferensi dan waktu respons untuk pengembang.

Komunitas pengembang AI telah merespons dengan antusias. Pada x, Pemimpin Senior Hugging Face Vaibhav Srivastav menulis,”Sialan! Deepseek R1T2-200% lebih cepat dari R1-0528 & 20% lebih cepat dari R1,”. Model ini tersedia di bawah lisensi MIT permisif, memungkinkan untuk penggunaan komersial dan modifikasi yang luas.

Assembly-of-Experts: Suatu Pendekatan Baru untuk Penciptaan Model

Metode”Assembly-of-Experts”TNG (AOE) mewakili keberangkatan yang signifikan dari penciptaan model konvensional. Alih-alih menyempurnakan atau melatih kembali, AOE membangun model baru dengan secara selektif menggabungkan tensor berat dari beberapa orang tua pra-terlatih, sebuah proses yang dirinci dalam kertas penelitian terbaru

Pendekatan ini berbeda dari arsitektur campuran-ekspert (MOE) yang digunakan dalam model induknya. Sementara MOE adalah arsitektur runtime yang mengaktifkan sebagian kecil dari”para ahli”model untuk tugas apa pun, AoE adalah teknik konstruksi yang memanggang keahlian gabungan menjadi satu model akhir yang lebih efisien.

tolok ukur: menyeimbangkan intelijen mentah dengan efisiensi ekstrim

THE PRAKTIS THE PRAKTIS IS EFEKIENSI EKSTRAIENSI

THE PRAKTIS THE THE PRAKTIS IS EFEFIENSI ADALAH

THE PRAKTIS THE THE PRAKTIS IS EFEKIENSI EXTRUMENSI

THE THE PRAKTIS THE PRAKSICE. Menurut tolok ukur yang diterbitkan oleh TNG, R1T2 Chimera mencapai antara 90% dan 92% dari penalaran kinerja orangtua yang paling kuat, R1-0528, tentang tes yang menuntut seperti AIME dan GPQA.

Benchmark ini dirancang untuk menguji pengamatan yang canggih, multi-langkah yang melampaui jauhnya. Namun, keuntungan utama model adalah keringkasan. Ini menghasilkan jawaban yang benar menggunakan sekitar 40% dari token yang dibutuhkan oleh R1-0528, pengurangan 60% panjang output.

Ini secara langsung diterjemahkan ke waktu respons yang lebih cepat dan biaya komputasi yang lebih rendah, membuatnya lebih dari dua kali lebih cepat dalam hal praktis. Efisiensi ini adalah ciri khas orangtua V3-nya. Setelah rilis Maretnya, pengembang Awni Hannun mengatakan tentang

Deepseek R1-0528: Firma Jerman merilis versi model AI Deepseek yang berjalan dua kali lebih cepat

Published by All Things Windows on July 5, 2025

Assembly-of-Experts: Suatu Pendekatan Baru untuk Penciptaan Model

tolok ukur: menyeimbangkan intelijen mentah dengan efisiensi ekstrim

IT Info

Pasangan Daya $ 4 Triliun: Mengapa Masa Depan AI Microsoft Jauh lebih berisiko daripada NVIDIA

IT Info

Microsoft Open-Source Github Copilot Chat untuk Membangun Editor AI Transparan

IT Info

Cara defragment hard disk di windows 11 & 10

Deepseek R1-0528: Firma Jerman merilis versi model AI Deepseek yang berjalan dua kali lebih cepat

Published by All Things Windows on July 5, 2025

Assembly-of-Experts: Suatu Pendekatan Baru untuk Penciptaan Model

tolok ukur: menyeimbangkan intelijen mentah dengan efisiensi ekstrim

Related Posts

IT Info

Pasangan Daya $ 4 Triliun: Mengapa Masa Depan AI Microsoft Jauh lebih berisiko daripada NVIDIA

IT Info

Microsoft Open-Source Github Copilot Chat untuk Membangun Editor AI Transparan

IT Info

Cara defragment hard disk di windows 11 & 10