Het Chinese kunstmatige-intelligentielaboratorium DeepSeek heeft DeepSeek V3 geïntroduceerd, het volgende genopen-source taalmodel. Het model beschikt over 671 miljard parameters en maakt gebruik van een zogenaamde Mixture-of-Experts (MoE)-architectuur om rekenefficiëntie te combineren met hoge prestaties.
De technische vooruitgang van DeepSeek V3 plaatst het onder de krachtigste AI-systemen om te concurreren zowel open-source concurrenten zoals Meta’s Llama 3.1 als propriëtaire modellen zoals OpenAI’s GPT-4o.
De release belicht een belangrijk moment in AI en laat zien dat open-source systemen kunnen concurreren met (en in sommige gevallen beter presterende) duurdere, gesloten alternatieven.
Gerelateerd:
Het Chinese DeepSeek R1-Lite-Preview-model richt zich op de voorsprong van OpenAI in geautomatiseerd redeneren
Alibaba Qwen brengt QVQ-72B-Preview multimodaal redeneren AI-model uit
Efficiënte en innovatieve architectuur
De architectuur van DeepSeek V3 combineert twee geavanceerde concepten om uitzonderlijke efficiëntie en prestaties te bereiken: Multi-Head Latent Attention (MLA) en Mixture-of-Experts (MoE).
MLA verbetert de mogelijkheden van het model om complexe invoer te verwerken door meerdere aandachtskoppen te gebruiken om zich te concentreren op verschillende aspecten van de gegevens, waardoor rijke en diverse contextuele informatie wordt geëxtraheerd.
MoE daarentegen activeert slechts een subset van de totale 671 miljard parameters van het model – ongeveer 37 miljard per taak – waardoor wordt gegarandeerd dat computerbronnen effectief worden gebruikt zonder dat dit ten koste gaat van de nauwkeurigheid. Samen zorgen deze mechanismen ervoor dat DeepSeek V3 uitvoer van hoge kwaliteit kan leveren en tegelijkertijd de eisen aan de infrastructuur kan verminderen.
Om veelvoorkomende uitdagingen in MoE-systemen aan te pakken, zoals een ongelijke verdeling van de werklast onder experts, introduceerde DeepSeek een hulp-verliesvrije belastings-balancerende strategie. Deze dynamische methode verdeelt taken over het netwerk van experts, waardoor de consistentie behouden blijft en de taaknauwkeurigheid wordt gemaximaliseerd.
Illustratie van de basisarchitectuur van DeepSeek-V3 (Afbeelding: DeepSeek)
Om de efficiëntie verder te verbeteren, maakt DeepSeek V3 gebruik van Multi-Token Prediction (MTP), een functie waarmee het model meerdere tokens tegelijk kan genereren, waardoor het genereren van tekst aanzienlijk wordt versneld.
Deze functie verbetert niet alleen de trainingsefficiëntie, maar positioneert het model ook voor snellere toepassingen in de echte wereld, waardoor de functionaliteit ervan wordt versterkt staat als leider op het gebied van open-source AI-innovatie.
Benchmarkprestaties: een leider op het gebied van wiskunde en coderen
De benchmarkresultaten van DeepSeek V3 tonen de uitzonderlijke mogelijkheden ervan een breed spectrum van taken, waardoor zijn positie als leider onder open-source AI-modellen wordt verstevigd.
Door gebruik te maken van de geavanceerde architectuur en uitgebreide trainingsdataset heeft het model topprestaties behaald op het gebied van wiskunde, coderen en meertalige benchmarks, terwijl het ook concurrerende resultaten presenteert op gebieden die traditioneel worden gedomineerd door closed-sourcemodellen zoals OpenAI’s GPT-4o en Claude 3.5 Sonnet van Anthropic.
🚀 Introductie van DeepSeek-V3!
Grootste sprong voorwaarts tot nu toe:
⚡ 60 tokens/seconde (3x sneller dan V2!)
💪 Verbeterde mogelijkheden
🛠 API-compatibiliteit intact
🌍 Volledig open-source modellen en papieren🐋 1/n pic.twitter.com/p1dV9gJ2Sd
— DeepSeek (@deepseek_ai) 26 december 2024
Wiskundig redeneren
Op de Math-500-test, een benchmark ontworpen om wiskundige probleemoplossende vaardigheden te evalueren, behaalde DeepSeek V3 een indrukwekkende score van 90,2. Deze score plaatst het voor op alle open-source concurrenten, waarbij Qwen 2.5 een score van 80 scoort en Llama 3.1 achterblijft op 73,8. Zelfs GPT-4o, een closed-sourcemodel dat bekend staat om zijn algemene mogelijkheden, scoorde iets lager: 74,6. Deze prestatie onderstreept het geavanceerde redeneervermogen van DeepSeek V3, vooral bij rekenintensieve taken waarbij precisie en logica van cruciaal belang zijn.
Bovendien blonk DeepSeek V3 uit in andere wiskundespecifieke tests, zoals:
MGSM (Wiskunde op de middelbare school): scoorde 79,8 en overtreft Llama 3,1 (69,9) en Qwen 2,5 (76,2). CMath (Chinese wiskunde): scoorde 90,7 en presteerde beter dan zowel Llama 3.1 (77,3) als GPT-4o (84,5).
Deze resultaten benadrukken niet alleen de kracht ervan in op het Engels gebaseerd wiskundig redeneren, maar ook in taken die taalspecifieke numerieke probleemoplossing vereisen.
Gerelateerd: DeepSeek AI Open Sources VL2-serie Vision Language-modellen
Programmeren en coderen
DeepSeek V3 is opmerkelijk gebleken vaardigheid in coderen en probleemoplossende benchmarks. Op Codeforces, een concurrerend programmeerplatform, behaalde het model een score van 51,6 percentiel, wat het vermogen weerspiegelt om complexe algoritmische taken uit te voeren. Deze prestatie overtreft aanzienlijk open-source rivalen zoals Llama 3.1, die slechts 25,3 scoorden, en daagt zelfs Claude 3.5 Sonnet uit, die een lager percentiel registreerde. Het succes van het model werd verder gevalideerd door de hoge scores in coderingsspecifieke benchmarks:
HumanEval-Mul: Scoorde 82,6, beter dan Qwen 2,5 (77,3) en overeenkomend met GPT-4o (80,5). LiveCodeBench (Pass@1): scoorde 37,6, vóór Llama 3.1 (30,1) en Claude 3.5 Sonnet (32,8). CRUXEval-I: scoorde 67,3, aanzienlijk beter dan zowel Qwen 2,5 (59,1) als Llama 3,1 (58,5).
Deze resultaten benadrukken de geschiktheid van het model voor toepassingen in softwareontwikkeling en echte codeeromgevingen, waar efficiënte probleemoplossing en codegeneratie van het grootste belang zijn.
Meertalige en niet-Engelse taken
strong>
DeepSeek V3 onderscheidt zich ook in meertalige benchmarks en laat zien dat het een breed scala aan talen kan verwerken en begrijpen. Op deCMMLU (Chinese Multilingual Language Understanding)-test behaalde het model een uitzonderlijke score van 88,8, waarmee het Qwen 2,5 (89,5) overtreft en domineert Lama 3.1, die met 73,7 achterbleef. Op dezelfde manier scoorde DeepSeek V3 op C-Eval, een Chinese evaluatiebenchmark een score van 90,1, ruim vóór Llama 3,1 (72,5).
In niet-Engelse meertalige taken:
Engels-specifieke benchmarks
Terwijl DeepSeek V3 uitblinkt in wiskunde, coderen en meertalige prestaties weerspiegelen de resultaten in bepaalde Engels-specifieke benchmarks ruimte voor verbetering. Op de SimpleQA benchmark, die het vermogen van een model beoordeelt om eenvoudige feitelijke vragen in het Engels te beantwoorden, scoorde DeepSeek V3 bijvoorbeeld een 24,9 , achterop GPT-4o, dat 38,2 behaalde. Op dezelfde manier scoorde GPT-4o op FRAMES, een benchmark voor het begrijpen van complexe narratieve structuren, een score van 80,5, vergeleken met DeepSeek’s 73,3.
Ondanks deze hiaten blijven de prestaties van het model zeer concurrerend, vooral gezien het open-source karakter en de kostenefficiëntie. De lichte onderprestatie bij Engelsspecifieke taken wordt gecompenseerd door de dominantie in wiskunde en meertalige benchmarks, gebieden waar het consequent gesloten-source rivalen uitdaagt en vaak overtreft.
De benchmarkresultaten van DeepSeek V3 demonstreren niet alleen zijn technische verfijning, maar positioneer hem ook als een veelzijdig, goed presterend model voor een breed scala aan taken. De superioriteit op het gebied van wiskunde, coderen en meertalige benchmarks benadrukt de sterke punten, terwijl de competitieve resultaten bij Engelse taken aantonen dat het in staat is om te concurreren met marktleiders als GPT-4o en Claude 3.5 Sonnet.
Door deze resultaten te leveren tegen een fractie van de kosten die gepaard gaan met propriëtaire systemen, illustreert DeepSeek V3 het potentieel van open-source AI om te concurreren met (en in sommige gevallen beter te presteren) gesloten-source-alternatieven.
Gerelateerd: Apple plant de uitrol van AI in China via Tencent en ByteDance
Kosteneffectieve training op schaal
Eén van de De opvallende prestatie van DeepSeek V3 is het kostenefficiënte trainingsproces. Het model werd getraind op een dataset van 14,8 biljoen tokens met behulp van Nvidia H800 GPU’s, met een totale trainingstijd van 2,788 miljoen GPU-uren. De totale kosten bedroegen $5,576 miljoen, een fractie van de geschatte $500 miljoen die nodig was om Meta’s Llama 3.1 te trainen.
De NVIDIA H800 GPU is een aangepaste versie van de H100 GPU, ontworpen voor de Chinese markt om te voldoen aan de exportvereisten. regelgeving. Beide GPU’s zijn gebaseerd op NVIDIA’s Hopper-architectuur en worden voornamelijk gebruikt voor AI en krachtige computertoepassingen. De chip-naar-chip gegevensoverdrachtsnelheid van de H800 is teruggebracht tot ongeveer de helft van die van de H100
Het trainingsproces maakte gebruik van geavanceerde methodologieën, waaronder FP8 gemengde precisietraining. Deze aanpak vermindert het geheugengebruik door gegevens te coderen in een 8-bit drijvende-komma-indeling zonder dat dit ten koste gaat van de nauwkeurigheid. Bovendien optimaliseerde het DualPipe-algoritme de parallelliteit van de pijplijn, waardoor een soepele coördinatie tussen GPU-clusters werd gegarandeerd.
DeepSeek zegt dat de pre-training van DeepSeek-V3 slechts 180.000 H800 GPU-uren per biljoen tokens vereiste, met behulp van een cluster van 2.048 GPU’s.
Toegankelijkheid en implementatie
DeepSeek heeft V3 beschikbaar gemaakt onder een MIT-licentie, waardoor ontwikkelaars toegang hebben tot het model voor zowel onderzoeks-als commerciële toepassingen. Bedrijven kunnen het model integreren via het DeepSeek Chat-platform of API, dat concurrerend geprijsd is op $0,27 per miljoen inputtokens en $1,10 per miljoen outputtokens.
De veelzijdigheid van het model strekt zich uit tot de compatibiliteit met verschillende hardwareplatforms, waaronder AMD GPU’s en Huawei Ascend NPU’s. Dit zorgt voor een brede toegankelijkheid voor onderzoekers en organisaties met uiteenlopende infrastructuurbehoeften.
DeepSeek benadrukte zijn focus op betrouwbaarheid en prestaties door te stellen: “Om SLO-compliance en hoge doorvoer te garanderen, gebruiken we een dynamische redundantiestrategie voor experts tijdens de prefilling-fase, waarbij experts met een hoge belasting periodiek worden gedupliceerd en opnieuw worden ingedeeld voor optimale prestaties.”
Bredere implicaties voor het AI-ecosysteem
De release van DeepSeek V3 onderstreept een bredere trend in de richting van de democratisering van Door een krachtig model te leveren tegen een fractie van de kosten die gepaard gaan met propriëtaire systemen, daagt DeepSeek de dominantie uit van closed-sourcespelers als OpenAI en Anthropic. De beschikbaarheid van dergelijke geavanceerde tools maakt bredere experimenten en innovatie in alle sectoren mogelijk/p>
De pijplijn van DeepSeek integreert verificatie-en reflectiepatronen van het R1-model in DeepSeek-V3, waardoor het redeneervermogen wordt verbeterd terwijl de controle over de uitvoerstijl en-lengte behouden blijft.
Het succes van DeepSeek V3 roept vragen op over het toekomstige machtsevenwicht in de AI-industrie. Terwijl open-sourcemodellen de kloof met propriëtaire systemen blijven dichten, bieden ze organisaties concurrerende alternatieven die prioriteit geven aan toegankelijkheid en kostenefficiëntie.