Mitt i intensifiering av global konkurrens-och hårdvaruförsörjningskedjepress, särskilt när det gäller tillgång till högpresterande GPU: er, har AI-effektiviteten blivit ett centralt fokus för många teknikföretag.

Kinas Deepseek AI är positionering inom denna berättelse, och betonar arkitektonisk optimering över Sheer-modellskalan, en strategi som nyligen giltigs av Tech-gigant. During its Q4 2024 earnings call in March 2025, Tencent reported reducing its GPU requirements by integrating DeepSeek’s models.

A company executive noted, “Chinese companies are generally prioritizing efficiency and utilization — efficient utilization of the GPU servers. And that doesn’t necessarily impair the ultimate effectiveness of the technology that’s being developed. And I think DeepSeek’s success really sort of symbolize and solidify — demonstrated that-den verkligheten.”Medan Tencent fortfarande skaffar hårdvara, som Nvidias H20-chips för Deepseek-integration i appar som WeChat, belyser uttalandet en strategisk beroende av Deepseeks effektiva mönster.

#OPENPOURCEMEMEMEMEMEMEMEMEMEMEMEMEMEMEMEMEMEKEL!

Vi är ett litet team @deepseek_ai utforska agi. Från och med nästa vecka kommer vi att öppna 5 repor och dela våra små men uppriktiga framsteg med full transparens.

Dessa ödmjuka byggstenar i vår onlinetjänst har dokumenterats,…

-Deepseek (@deepseek_ai) 21 februari 2025

Kärnan, en variation på transformatorns uppmärksamhetsmekanismer utformade för förbättrad effektivitet, speciellt inställd för Nvidias Hopper GPU-arkitektur. Tillgänglig på github under en mit-licens , Kernel beskrivs av Deepseek som att vara”konstruerade för variabla sekvenser”i serveringsscenarier och”det redan driver våra produktionssystem. Använder Paged KVCache-en minneshanteringsteknik som optimerar lagring för nyckelvärdet i transformatormodeller-med en 64-blockstorlek. Detta tillvägagångssätt möjliggör en mer flexibel minnesallokering jämfört med sammanhängande cachning, vilket kan förbättra genomströmningen för samtidiga förfrågningar med olika sekvenslängder.

Prestandans fordringar och teknisk grund

Deepseek-anspråk på betydande prestanda för flashmla som kör på H800 SXM5 GPUS, citeringsminnet, CITUT-MEMINERING UPP PRESPRESTERING/S PRESTANDA PRESTANDA PRESTANDA PRESTANDA PRESTANDA FÖR FLASHMLA RUND på H800 SXM5 GPUS, CITION-MEMINERING UPP TO TO TO TO TO TO TO TO TO TO TO TO TO TO TO TO TO TO TO TO TO TO TO TO PUTAGE PRESTERING 580 TFLOPS, även om dessa siffror kräver oberoende, verklig validering över olika arbetsbelastningar.

Optimal prestanda kräver enligt uppgift CUDA 12.8 eller nyare, även om kompatibilitet börjar vid CUDA 12.3, tillsammans med Pytorch 2.0+. Företaget krediterar inspiration från etablerade projekt som flashattention 2 & 3 och nvidia’s own Metax ( metax-maca/flashmla ), moore threads ( moorethreads/mt-flashmla ), hygon dcu ( OpenDas/Mlattention ), Intellifusion ( intellifusion/tyllm ), iluvatar corex ( Deep-Park/flashmla ) och amd instinkt ( aiter/mla ), vilket tyder på bredare ekosystemintresse i de underliggande teknikerna.

navigating en konkurrens och komplexa miljö

This haste islinked to pressures from global AI leaders like OpenAI, Google, and Anthropic, as well as domestic competition from Alibaba’s rapidly evolving Qwen models (like QwQ-Max-Preview). Att förvärra denna marknadsdynamik är reglerande utmaningar, inklusive amerikanska begränsningar och utredningar i Europa när det gäller datapraxis. Furthermore, DeepSeek’s reliance on NVIDIA hardware remains a factor, given ongoing US export controls impacting chip availability in China.

Efficiency as a Strategic Imperative

The FlashMLA release, focusing on a core component for efficient inference, aligns with DeepSeek’s strategy to compete through architectural cleverness rather than solely by pursuing massive parameter counts, a path exemplified by OpenAI’s resource-intensive models like the giant, expensive GPT-4.5.

This direction was further evidenced by the quiet, open-weight release of the large DeepSeek-V3-0324 checkpoint on March 24, which also utilizes MLA, and the April 2025 publication of research on Self-Principled Critique Tuning (SPCT) ( Papper tillgängligt på arxiv ), en inferens-tidsinriktningsteknik som syftar till att reducera beroendet av mänsklig feedback. Arkitekturer, som potentiellt kan bygga en konkurrensfördel i en resursbegränsad miljö.

Categories: IT Info