Ipinakilala ng Chinese artificial intelligence lab na DeepSeek ang DeepSeek V3, ang susunod nitong modelo ng wikang genopen-source. Nagtatampok ng 671 bilyong parameter, ang modelo ay gumagamit ng tinatawag na Mixture-of-Experts (MoE) na arkitektura upang pagsamahin ang computational efficiency na may mataas na performance.

Ang mga teknikal na pagsulong ng DeepSeek V3 ay naglalagay nito sa pinakamakapangyarihang mga AI system upang, kaagaw parehong open-source na kakumpitensya tulad ng Meta’s Llama 3.1 at proprietary models tulad ng OpenAI’s GPT-4o.

Ang release ay nagha-highlight ng isang mahalagang sandali sa AI, na nagpapakita na Ang mga open-source system ay maaaring makipagkumpitensya sa—at sa ilang mga kaso ay mas mataas ang pagganap—mas mahal, saradong mga alternatibo.

Kaugnay:
Chinese DeepSeek Tina-target ng Modelo ng R1-Lite-Preview ang Pangunahin ng OpenAI sa Automated Reasoning
Inilabas ng Alibaba Qwen ang QVQ-72B-Preview Multimodal Reasoning AI Model

Mahusay at Makabagong Arkitektura

Ang arkitektura ng DeepSeek V3 ay pinagsasama ang dalawang advanced na konsepto upang makamit ang pambihirang kahusayan at pagganap: Multi-Head Latent Attention (MLA) at Mixture-of-Experts (MoE).

Pinapaganda ng MLA ang kakayahan ng modelo na magproseso ng mga kumplikadong input sa pamamagitan ng paggamit ng maraming attention head para tumuon sa iba’t ibang aspeto ng data, pagkuha ng mayaman at magkakaibang impormasyon sa konteksto.

Ang MoE, sa kabilang banda, ay nag-a-activate lamang ng isang subset ng kabuuang 671 bilyong parameter ng modelo—humigit-kumulang 37 bilyon bawat gawain—na tinitiyak na epektibong ginagamit ang mga mapagkukunan ng computational nang hindi nakompromiso. katumpakan. Sama-sama, binibigyang-daan ng mga mekanismong ito ang DeepSeek V3 na makapaghatid ng mga de-kalidad na output habang binabawasan ang mga pangangailangan sa imprastraktura.

Pagtugon sa mga karaniwang hamon sa mga system ng MoE, tulad ng hindi pantay na pamamahagi ng workload sa mga eksperto, ipinakilala ng DeepSeek ang isang auxiliary-loss-free load-diskarte sa pagbabalanse. Ang dynamic na paraan na ito ay naglalaan ng mga gawain sa buong network ng mga eksperto, pinapanatili ang pagkakapare-pareho at pag-maximize ng katumpakan ng gawain.

Ilustrasyon ng pangunahing arkitektura ng DeepSeek-V3 (Larawan: DeepSeek)

Upang higit pang mapahusay ang kahusayan, gumagamit ang DeepSeek V3 Multi-Token Prediction (MTP), isang feature na nagbibigay-daan sa modelo na makabuo ng maraming token nang sabay-sabay, na makabuluhang nagpapabilis sa pagbuo ng text.

Ang feature na ito ay hindi lamang nagpapabuti sa kahusayan sa pagsasanay ngunit nagpoposisyon din sa modelo para sa mas mabilis na mga real-world na application , na nagpapatibay sa katayuan nito bilang pinuno sa open-source AI innovation.

Benchmark Performance: A Leader in Math and Coding

Ipinapakita ng mga benchmark na resulta ng DeepSeek V3 ang mga pambihirang kakayahan nito sa isang malawak na spectrum ng mga gawain, na nagpapatibay sa posisyon nito bilang nangunguna sa mga open-source na modelo ng AI.

Sa paggamit ng advanced na arkitektura at malawak na dataset ng pagsasanay, nakamit ng modelo ang top-tier na performance sa math, coding, at multilingual na mga benchmark, habang nagpapakita rin ng mga mapagkumpitensyang resulta sa mga lugar na tradisyonal na pinangungunahan ng mga closed-source na modelo tulad ng GPT ng OpenAI-4o and Anthropic’s Claude 3.5 Sonnet.

🚀 Introducing DeepSeek-V3!

Pinakamalaking hakbang pasulong:
⚡ 60 token/segundo (3x mas mabilis kaysa sa V2!)
💪 Mga pinahusay na kakayahan
🛠 Buo ang pagiging tugma ng API
🌍 Ganap na bukas-pinagmulan ng mga modelo at papel

🐋 1/n pic.twitter.com/p1dV9gJ2Sd

— DeepSeek (@deepseek_ai) Disyembre 26, 2024

Mathematical Reasoning

Sa Math-500 test, isang benchmark na idinisenyo upang suriin ang mga kasanayan sa paglutas ng problema sa matematika, nakamit ng DeepSeek V3 ang isang kahanga-hangang marka na 90.2. Inilalagay ito ng markang ito sa unahan ng lahat ng open-source na kakumpitensya, kung saan ang Qwen 2.5 ay nakakuha ng 80 at ang Llama 3.1 ay sumusunod sa 73.8. Kahit na ang GPT-4o, isang closed-source na modelo na kilala sa mga pangkalahatang kakayahan nito, ay nakakuha ng bahagyang mas mababa sa 74.6. Binibigyang-diin ng pagganap na ito ang mga advanced na kakayahan sa pangangatwiran ng DeepSeek V3, lalo na sa mga computationally intensive na gawain kung saan ang katumpakan at lohika ay kritikal.

Bukod pa rito, ang DeepSeek V3 ay napakahusay sa iba pang mga pagsusulit na partikular sa matematika, tulad ng:

MGSM (Math Grade School Math): Naka-iskor 79.8, na nalampasan ang Llama 3.1 (69.9) at Qwen 2.5 (76.2). CMath (Chinese Math): Nakapuntos ng 90.7, na higit na mahusay sa Llama 3.1 (77.3) at GPT-4o (84.5).
Ang mga resultang ito ay nagha-highlight sa lakas nito hindi lamang sa English-based na mathematical reasoning ngunit gayundin sa mga gawaing nangangailangan ng paglutas ng problema sa numerical na partikular sa wika.

Kaugnay: DeepSeek AI Open Sources VL2 Series of Vision Language Models

Programming and Coding

DeepSeek V3 ay nagpakita ng kahanga-hangang kahusayan sa coding at mga benchmark sa paglutas ng problema. Sa Codeforces, isang mapagkumpitensyang programming platform, nakamit ng modelo ang 51.6 percentile ranking, na nagpapakita ng kakayahan nitong pangasiwaan ang mga kumplikadong algorithmic na gawain. Ang pagganap na ito ay higit na nahihigitan ang mga open-source na karibal tulad ng Llama 3.1, na nakakuha lamang ng 25.3, at hinamon pa ang Claude 3.5 Sonnet, na nagrehistro ng mas mababang percentile. Ang tagumpay ng modelo ay higit pang napatunayan ng matataas na marka nito sa mga benchmark na partikular sa coding:

HumanEval-Mul: Nakamarka ng 82.6, mas mataas ang pagganap sa Qwen 2.5 (77.3) at tumutugma sa GPT-4o (80.5). LiveCodeBench (Pass@1): Nakamarka ng 37.6, nangunguna sa Llama 3.1 (30.1) at Claude 3.5 Sonnet (32.8). CRUXEval-I: Nakamarka ng 67.3, mas mahusay kaysa sa parehong Qwen 2.5 (59.1) at Llama 3.1 (58.5).

Ang mga resultang ito ay nagha-highlight sa pagiging angkop ng modelo para sa mga application sa software development at real-world coding environment, kung saan ang mahusay na paglutas ng problema at pagbuo ng code ay pinakamahalaga.

Multilingual at Non-English na Mga Gawain

strong>

Namumukod-tangi din ang DeepSeek V3 sa mga multilinggwal na benchmark, na nagpapakita ng kakayahang magproseso at umunawa ng malawak na hanay ng mga wika. Sa pagsusulit na CMMLU (Chinese Multilingual Language Understanding), nakamit ng modelo ang pambihirang marka na 88.8, na lumampas sa Qwen 2.5 (89.5) at nangibabaw Llama 3.1, na nahuli sa 73.7. Katulad nito, sa C-Eval, isang Chinese evaluation benchmark, ang DeepSeek V3 ay nakakuha ng 90.1, na mas nauna sa Llama 3.1 (72.5).

Sa mga gawaing multilinggwal na hindi Ingles:

Mga Benchmark na Partikular sa English

Habang ang DeepSeek V3 mahusay sa matematika, coding, at multilinggwal na pagganap, ang mga resulta nito sa ilang partikular na English na benchmark ay nagpapakita ng lugar para sa pagpapabuti. Halimbawa, sa SimpleQA benchmark, na tinatasa ang kakayahan ng isang modelo na sagutin ang mga diretsong factual na tanong sa English, ang DeepSeek V3 ay nakakuha ng 24.9 , nahuhulog sa likod ng GPT-4o, na nakamit ang 38.2. Katulad nito, sa FRAMES, isang benchmark para sa pag-unawa sa mga kumplikadong istruktura ng pagsasalaysay, nakakuha ng 80.5 ang GPT-4o, kumpara sa 73.3 ng DeepSeek.

Sa kabila ng mga puwang na ito, nananatiling lubos na mapagkumpitensya ang pagganap ng modelo, lalo na dahil sa likas na open-source nito at kahusayan sa gastos. Ang bahagyang hindi magandang pagganap sa mga gawaing partikular sa English ay binabayaran ng dominasyon nito sa mga benchmark sa matematika at multilinggwal, mga lugar kung saan ito ay patuloy na humahamon at madalas na nahihigitan ang mga closed-source na karibal.

Ang mga resulta ng benchmark ng DeepSeek V3 ay hindi lamang nagpapakita ng teknikal nitong pagiging sopistikado ngunit iposisyon din ito bilang isang versatile, high-performing na modelo para sa malawak na hanay ng mga gawain. Itinatampok ng superyoridad nito sa matematika, coding, at multilingual na mga benchmark ang mga kalakasan nito, habang ang mapagkumpitensyang resulta nito sa mga gawain sa English ay nagpapakita ng kakayahang makipaglaban sa mga lider ng industriya tulad ng GPT-4o at Claude 3.5 Sonnet.

Sa pamamagitan ng paghahatid ng mga resultang ito sa maliit na bahagi ng gastos na nauugnay sa mga pinagmamay-ariang system, inilalarawan ng DeepSeek V3 ang potensyal ng open-source AI na katunggali—at sa ilang mga kaso ay mas mataas ang pagganap—mga alternatibong closed-source.

Kaugnay: Apple Plano AI Rollout sa China Sa pamamagitan ng Tencent at ByteDance

Cost-Effective na Pagsasanay sa Scale

Ang isa sa mga natatanging tagumpay ng DeepSeek V3 ay ang cost-efficient na proseso ng pagsasanay nito. Ang modelo ay sinanay sa isang dataset ng 14.8 trilyong token gamit ang Nvidia H800 GPUs, na may kabuuang oras ng pagsasanay na 2.788 milyong oras ng GPU. Ang kabuuang gastos ay umabot sa $5.576 milyon, isang bahagi ng tinatayang $500 milyon na kinakailangan para sanayin ang Meta’s Llama 3.1.

Ang NVIDIA H800 GPU ay isang binagong bersyon ng H100 GPU na idinisenyo para sa Chinese market na sumunod sa pag-export mga regulasyon. Ang parehong mga GPU ay nakabatay sa arkitektura ng Hopper ng NVIDIA at pangunahing ginagamit para sa AI at mga application ng computing na may mataas na pagganap. Ang rate ng paglilipat ng data ng chip-to-chip ng H800 ay nababawasan sa humigit-kumulang kalahati ng mga H100

Ang proseso ng pagsasanay ay gumamit ng mga advanced na pamamaraan, kabilang ang FP8 mixed precision training. Binabawasan ng diskarteng ito ang paggamit ng memorya sa pamamagitan ng pag-encode ng data sa isang 8-bit na floating-point na format nang hindi sinasakripisyo ang katumpakan. Bukod pa rito, na-optimize ng DualPipe algorithm ang pipeline parallelism, na tinitiyak ang maayos na koordinasyon sa mga kumpol ng GPU.

Sinasabi ng DeepSeek na ang pre-training DeepSeek-V3 ay nangangailangan lamang ng 180,000 H800 GPU na oras bawat trilyong token, gamit ang isang cluster ng 2,048 GPU.

Accessibility at Deployment

Ginawang available ng DeepSeek ang V3 sa ilalim ng lisensya ng MIT, na nagbibigay sa mga developer ng access sa modelo para sa parehong pananaliksik at komersyal mga aplikasyon. Maaaring isama ng mga negosyo ang modelo sa pamamagitan ng DeepSeek Chat platform o API, na may mapagkumpitensyang presyo sa $0.27 bawat milyong input token at $1.10 bawat milyong output token.

Ang versatility ng modelo ay umaabot sa compatibility nito sa iba’t ibang hardware platform, kabilang ang Mga AMD GPU at Huawei Ascend NPU. Tinitiyak nito ang malawak na accessibility para sa mga mananaliksik at organisasyong may magkakaibang pangangailangan sa imprastraktura.

Binigyang-diin ng DeepSeek ang pagtutok nito sa pagiging maaasahan at pagganap, na nagsasaad,”Upang matiyak ang pagsunod sa SLO at mataas na throughput, gumagamit kami ng isang dinamikong diskarte sa redundancy para sa mga eksperto sa yugto ng prefilling, kung saan ang mga dalubhasa na may mataas na karga ay pana-panahong nadodoble at muling inaayos. para sa pinakamainam na pagganap.”

Mas malawak na Implikasyon para sa AI Ecosystem

DeepSeek Ang paglabas ng V3 ay binibigyang-diin ang isang mas malawak na trend patungo sa demokratisasyon ng AI Sa pamamagitan ng paghahatid ng isang mataas na pagganap na modelo sa isang maliit na bahagi ng gastos na nauugnay sa mga proprietary system, hinahamon ng DeepSeek ang dominasyon ng mga closed-source na manlalaro tulad ng OpenAI at Anthropic Ang mga tool ay nagbibigay-daan sa mas malawak na pag-eeksperimento at pagbabago sa mga industriya.

Ang pipeline ng DeepSeek ay nagsasama ng mga pattern ng pag-verify at pagmuni-muni mula sa R1 na modelo sa DeepSeek-V3, na pinapahusay ang mga kakayahan sa pangangatwiran habang pinapanatili ang kontrol sa istilo at haba ng output.

Ang tagumpay ng DeepSeek V3 ay naglalabas ng mga tanong tungkol sa hinaharap na balanse ng kapangyarihan sa industriya ng AI. Habang ang mga open-source na modelo ay patuloy na nagsasara ng gap sa mga proprietary system, nagbibigay sila sa mga organisasyon ng mga mapagkumpitensyang alternatibo na inuuna ang accessibility at cost-efficiency.

Categories: IT Info