Makmal kecerdasan buatan China DeepSeek telah memperkenalkan DeepSeek V3, model bahasa sumber genopen seterusnya. Menampilkan 671 bilion parameter, model itu menggunakan seni bina Campuran Pakar (MoE) yang dipanggil untuk menggabungkan kecekapan pengiraan dengan prestasi tinggi.
DeepSeek V3kemajuan teknikal meletakkannya antara sistem AI yang paling berkuasa untuk, menyaingi kedua-dua pesaing sumber terbuka seperti Meta’s Llama 3.1 dan model proprietari seperti OpenAI’s GPT-4o.
Keluaran ini menyerlahkan detik penting dalam AI, menunjukkan bahawa sistem sumber terbuka boleh bersaing dengan—dan dalam sesetengah kes mengatasi prestasi—alternatif tertutup yang lebih mahal.
Berkaitan:
DeepSeek Cina Model R1-Lite-Preview Sasar Peneraju OpenAI dalam Penaakulan Automatik
Alibaba Qwen Keluarkan Model AI Penaakulan Multimodal QVQ-72B-Preview
Seni Bina Cekap dan Inovatif
Seni bina DeepSeek V3 menggabungkan dua konsep lanjutan untuk mencapai kecekapan dan prestasi yang luar biasa: Perhatian Terpendam Berbilang Kepala (MLA) dan Campuran Pakar (KPM).
MLA meningkatkan keupayaan model untuk memproses input yang kompleks dengan menggunakan kepala perhatian berbilang untuk memfokus pada aspek data yang berbeza, mengekstrak maklumat kontekstual yang kaya dan pelbagai.
MoE, sebaliknya, hanya mengaktifkan subset daripada jumlah 671 bilion parameter model—kira-kira 37 bilion setiap tugas—memastikan sumber pengiraan digunakan dengan berkesan tanpa menjejaskan ketepatan. Bersama-sama, mekanisme ini membolehkan DeepSeek V3 menyampaikan output berkualiti tinggi sambil mengurangkan permintaan infrastruktur.
Menangani cabaran biasa dalam sistem KPM, seperti pengagihan beban kerja yang tidak sekata di kalangan pakar, DeepSeek memperkenalkan beban tanpa kerugian tambahan-strategi mengimbangi. Kaedah dinamik ini memperuntukkan tugas merentasi rangkaian pakar, mengekalkan konsistensi dan memaksimumkan ketepatan tugas.
Ilustrasi seni bina asas DeepSeek-V3 (Imej: DeepSeek)
Untuk meningkatkan lagi kecekapan, DeepSeek V3 menggunakan Ramalan Berbilang Token (MTP), ciri yang membolehkan model menjana berbilang token secara serentak, mempercepatkan penjanaan teks dengan ketara.
Ciri ini bukan sahaja meningkatkan kecekapan latihan tetapi juga meletakkan model untuk aplikasi dunia nyata yang lebih pantas , mengukuhkan kedudukannya sebagai peneraju dalam inovasi AI sumber terbuka.
Prestasi Penanda Aras: Peneraju dalam Matematik dan Pengekodan
Hasil penanda aras DeepSeek V3 mempamerkan keupayaan luar biasanya merentas spektrum tugas yang luas, mengukuhkan kedudukannya sebagai peneraju dalam kalangan model AI sumber terbuka.
Memanfaatkan seni bina termaju dan set data latihan yang meluas, model ini telah mencapai prestasi peringkat teratas dalam matematik, pengekodan dan penanda aras berbilang bahasa, sambil turut mempersembahkan hasil yang kompetitif dalam bidang yang secara tradisinya didominasi oleh model sumber tertutup seperti GPT OpenAI-4o dan Sonnet Claude 3.5 Anthropic.
🚀 Memperkenalkan DeepSeek-V3!
Lonjakan terbesar ke hadapan:
⚡ 60 token/saat (3x lebih pantas daripada V2!)
💪 Keupayaan dipertingkatkan
🛠 Keserasian API utuh
🌍 Buka sepenuhnya-sumber model & kertas🐋 1/n pic.twitter.com/p1dV9gJ2Sd
— DeepSeek (@deepseek_ai) 26 Disember, 2024
Penaakulan Matematik
Pada Math-Ujian 500, penanda aras yang direka untuk menilai kemahiran menyelesaikan masalah matematik, DeepSeek V3 mencapai skor yang mengagumkan iaitu 90.2. Skor ini meletakkannya di hadapan semua pesaing sumber terbuka, dengan Qwen 2.5 mendapat markah 80 dan Llama 3.1 mengekori 73.8. Malah GPT-4o, model sumber tertutup yang terkenal dengan keupayaan amnya, menjaringkan sedikit lebih rendah pada 74.6. Prestasi ini menggariskan kebolehan penaakulan lanjutan DeepSeek V3, terutamanya dalam tugas intensif pengiraan di mana ketepatan dan logik adalah kritikal.
Selain itu, DeepSeek V3 cemerlang dalam ujian khusus matematik lain, seperti:
MGSM (Math Grade School Math): Mendapat markah 79.8, mengatasi Llama 3.1 (69.9) dan Qwen 2.5 (76.2). CMath (Matematik Cina): Mendapat markah 90.7, mengatasi kedua-dua Llama 3.1 (77.3) dan GPT-4o (84.5).
Keputusan ini menyerlahkan kekuatannya bukan sahaja dalam penaakulan matematik berasaskan bahasa Inggeris tetapi juga dalam tugasan yang memerlukan penyelesaian masalah berangka khusus bahasa.
Berkaitan: DeepSeek AI Open Sources VL2 Siri Model Bahasa Visi
Pengaturcaraan dan Pengekodan
DeepSeek V3 menunjukkan yang luar biasa kehebatan dalam pengekodan dan penanda aras penyelesaian masalah. Pada Codeforces, platform pengaturcaraan yang kompetitif, model itu mencapai kedudukan 51.6 persentil, mencerminkan keupayaannya untuk mengendalikan tugas algoritma yang kompleks. Prestasi ini dengan ketara mengatasi pesaing sumber terbuka seperti Llama 3.1, yang hanya mendapat 25.3, malah mencabar Claude 3.5 Sonnet, yang mencatatkan peratusan yang lebih rendah. Kejayaan model itu disahkan lagi oleh skor tingginya dalam penanda aras khusus pengekodan:
HumanEval-Mul: Mendapat markah 82.6, mengatasi Qwen 2.5 (77.3) dan sepadan dengan GPT-4o (80.5). LiveCodeBench (Pass@1): Mendapat markah 37.6, mendahului Llama 3.1 (30.1) dan Claude 3.5 Sonnet (32.8). CRUXEval-I: Mendapat markah 67.3, jauh lebih baik daripada Qwen 2.5 (59.1) dan Llama 3.1 (58.5).
Keputusan ini menyerlahkan kesesuaian model untuk aplikasi dalam pembangunan perisian dan persekitaran pengekodan dunia sebenar, di mana penyelesaian masalah dan penjanaan kod yang cekap adalah penting.
Tugas Berbilang Bahasa dan Bukan Bahasa Inggeris
strong>
DeepSeek V3 juga menonjol dalam penanda aras berbilang bahasa, mempamerkan keupayaannya untuk memproses dan memahami pelbagai bahasa. Pada ujian CMMLU (Pemahaman Bahasa Berbilang Bahasa Cina), model itu mencapai skor luar biasa 88.8, mengatasi Qwen 2.5 (89.5) dan mendominasi Llama 3.1, yang ketinggalan pada 73.7. Begitu juga, pada C-Eval, penanda aras penilaian Cina, DeepSeek V3 mendapat markah 90.1, jauh mendahului Llama 3.1 (72.5).
Dalam tugasan berbilang bahasa bukan bahasa Inggeris:
Tanda Aras Khusus Bahasa Inggeris
Semasa DeepSeek V3 cemerlang dalam matematik, pengekodan dan prestasi berbilang bahasa, keputusannya dalam penanda aras khusus bahasa Inggeris tertentu mencerminkan ruang untuk penambahbaikan. Sebagai contoh, pada penanda aras SimpleQA, yang menilai keupayaan model untuk menjawab soalan fakta yang jelas dalam bahasa Inggeris, DeepSeek V3 mendapat markah 24.9 , ketinggalan di belakang GPT-4o, yang mencapai 38.2. Begitu juga, pada FRAMES, penanda aras untuk memahami struktur naratif yang kompleks, GPT-4o mendapat markah 80.5, berbanding DeepSeek 73.3.
Walaupun terdapat jurang ini, prestasi model kekal berdaya saing tinggi, terutamanya memandangkan sifat sumber terbuka dan kecekapan kosnya. Prestasi rendah yang sedikit dalam tugasan khusus bahasa Inggeris diimbangi oleh penguasaannya dalam penanda aras matematik dan berbilang bahasa, kawasan di mana ia mencabar secara konsisten dan sering mengatasi pesaing sumber tertutup.
Hasil penanda aras DeepSeek V3 bukan sahaja menunjukkan kecanggihan teknikalnya tetapi juga meletakkannya sebagai model serba boleh, berprestasi tinggi untuk pelbagai tugas. Keunggulannya dalam matematik, pengekodan dan penanda aras berbilang bahasa menyerlahkan kekuatannya, manakala keputusan kompetitifnya dalam tugasan Bahasa Inggeris menunjukkan keupayaannya untuk bersaing dengan pemimpin industri seperti GPT-4o dan Claude 3.5 Sonnet.
Dengan menyampaikan hasil ini pada sebahagian kecil daripada kos yang berkaitan dengan sistem proprietari, DeepSeek V3 menggambarkan potensi AI sumber terbuka untuk menyaingi—dan dalam beberapa kes mengatasi prestasi—alternatif sumber tertutup.
Berkaitan: Apple Merancang Pelancaran AI di China Melalui Tencent dan ByteDance
Latihan Kos Efektif di Skala
Salah satu pencapaian menonjol DeepSeek V3 ialah proses latihannya yang menjimatkan kos. Model ini dilatih pada set data 14.8 trilion token menggunakan GPU Nvidia H800, dengan jumlah masa latihan 2.788 juta jam GPU. Kos keseluruhan berjumlah $5.576 juta, sebahagian kecil daripada anggaran $500 juta yang diperlukan untuk melatih Meta Llama 3.1.
GPU NVIDIA H800 ialah versi diubah suai bagi GPU H100 yang direka untuk pasaran China untuk mematuhi eksport peraturan. Kedua-dua GPU adalah berdasarkan seni bina Hopper NVIDIA dan digunakan terutamanya untuk AI dan aplikasi pengkomputeran berprestasi tinggi. Kadar pemindahan data cip-ke-cip H800 dikurangkan kepada kira-kira separuh daripada H100
Proses latihan menggunakan metodologi lanjutan, termasuk latihan ketepatan campuran FP8. Pendekatan ini mengurangkan penggunaan memori dengan mengekod data dalam format titik terapung 8-bit tanpa mengorbankan ketepatan. Selain itu, algoritma DualPipe mengoptimumkan paralelisme saluran paip, memastikan penyelarasan yang lancar merentas kluster GPU.
DeepSeek mengatakan bahawa pra-latihan DeepSeek-V3 hanya memerlukan 180,000 jam GPU H800 bagi setiap trilion token, menggunakan sekumpulan 2,048 GPU.
Kebolehaksesan dan Penggunaan
DeepSeek telah menjadikan V3 tersedia di bawah lesen MIT, memberikan pembangun akses kepada model untuk kedua-dua penyelidikan dan komersial aplikasi. Perusahaan boleh menyepadukan model melalui platform Sembang DeepSeek atau API, yang berharga kompetitif pada $0.27 setiap juta token input dan $1.10 setiap juta token keluaran.
Kepelbagaian model meliputi keserasiannya dengan pelbagai platform perkakasan, termasuk GPU AMD dan Huawei Ascend NPU. Ini memastikan kebolehcapaian yang luas untuk penyelidik dan organisasi yang mempunyai keperluan infrastruktur yang pelbagai.
DeepSeek menyerlahkan fokusnya pada kebolehpercayaan dan prestasi, dengan menyatakan, “Untuk memastikan pematuhan SLO dan daya pemprosesan yang tinggi, kami menggunakan strategi redundansi dinamik untuk pakar semasa peringkat prapengisian, di mana pakar beban tinggi diduplikasi dan disusun semula secara berkala untuk prestasi optimum.”
Implikasi Lebih Luas untuk Ekosistem AI
DeepSeek Keluaran V3 menggariskan trend yang lebih luas ke arah pendemokrasian AI Dengan menyampaikan model berprestasi tinggi pada sebahagian kecil daripada kos yang berkaitan dengan sistem proprietari, DeepSeek mencabar penguasaan pemain sumber tertutup seperti OpenAI dan Anthropic alatan membolehkan percubaan dan inovasi yang lebih luas merentas industri.
Saluran paip DeepSeek menggabungkan corak pengesahan dan refleksi daripadanya Model R1 ke dalam DeepSeek-V3, meningkatkan keupayaan penaakulan sambil mengekalkan kawalan ke atas gaya dan panjang output.
Kejayaan DeepSeek V3 menimbulkan persoalan tentang keseimbangan kuasa masa depan dalam industri AI. Memandangkan model sumber terbuka terus merapatkan jurang dengan sistem proprietari, mereka menyediakan organisasi dengan alternatif berdaya saing yang mengutamakan kebolehaksesan dan kecekapan kos.