în mijlocul intensificării presiunilor de concurență globală și a lanțului de aprovizionare hardware, în special în ceea ce privește accesul la GPU-uri de înaltă performanță, eficiența AI a devenit un obiectiv central pentru multe firme tehnologice.
AI-ul profundului din China se poziționează în această narațiune, accentuând optimizarea arhitecturală pe scara modelului, o strategie validată recent prin tensiunea de gigant. Tech. În timpul apelului său de venituri din Q4 2024 în martie 2025, Tencent a raportat că și-a redus cerințele GPU prin integrarea modelelor Deepseek.
Un executiv al companiei a menționat: „Companiile chineze sunt în general prioritizând eficiența și utilizarea-utilizarea eficientă a serverelor GPU. Și asta nu cred în mod necesar succesul cu adevărat eficiența tehnologiei și a solidării. a demonstrat asta-acea realitate”. While Tencent still procures hardware, like NVIDIA’s H20 chips for DeepSeek integration in apps such as WeChat, the statement highlights a strategic reliance on DeepSeek’s efficient designs.
DeepSeek’s Open Source Push Commences
Reinforcing this efficiency-first approach, DeepSeek announced a new open-source initiative via X. Describing the plan as sharing “Small but sincere progress,”the company stated its intent to release five code repositories over the following week to spur community development, adding there would be “No ivory towers – just pure garage-energy and community-driven inovație.”Prima componentă dezvăluită în cadrul acestui program, este Flashmla.
🚀 Ziua 0: Încălzirea pentru #OpensourceWek !
Suntem o echipă minusculă @deepseek_ai Explorarea AGI. Începând de săptămâna viitoare, vom fi open-sourcing 5 repos, împărtășind progresele noastre mici, dar sincere, cu transparență completă.
Aceste umile blocuri de construcții din serviciul nostru online au fost documentate,…
-Deepseek (@DeepSeek_AI) 21 februarie 2025
flashmla este prezentat ca un multi-heant atenție latentului>
flashmla, ca un multiplu heant latent latent (mlA) Decoding, ca o atenție latentală multi-head ( Kernel, o variație a mecanismelor de atenție ale transformatorului concepute pentru o eficiență îmbunătățită, în special ajustată pentru arhitectura GPU Hopper din Nvidia. Disponibil pe github sub o licență MIT , kernelul este descris de Deepseek ca fiind „conceput pentru secvențe cu lungime variabilă” în servește scenarii și „care alimentează deja sistemele noastre de producție. Utilizează KVCache Paged-o tehnică de gestionare a memoriei optimizând stocarea pentru stările cu valoare cheie în modelele de transformare-cu o dimensiune de 64 de blocuri. Această abordare permite o alocare mai flexibilă a memoriei în comparație cu memoria în cache contiguă, îmbunătățind potențial debitul pentru solicitări concomitente cu lungimi de secvență variate.
revendicări de performanță și fundație tehnică
Deepseek revendicări de performanță substanțială pentru metrici de performanță substanțială pentru Flashmla care rulează pe H800 SXM5 GPUS, care citează memoria până la 3000 GPUS SXM5 GPUS, care se referă la 3000 GPUS de performanță SXM5 GPUS. 580 TFLOPS, deși aceste cifre necesită o validare independentă, din lumea reală, în diverse sarcini de lucru.
Performanța optimă necesită CUDA 12.8 sau mai nouă, deși compatibilitatea începe de la CUDA 12.3, alături de Pytorch 2.0+. Compania credite inspirație din proiecte consacrate precum metax ( Metax-MACA/Flashmla ), Moore Threads ( MooreThreads/mt-flashmla ), hygon dcu ( Opendas/mlattenție ), intellifusion ( intellifusion/tyllm ), iluvatar corex ( Deep-spark/Flashmla ), și AMD Instinct ( aiter/mla ), sugerând un interes mai larg ecosistem pentru tehnicile de bază. as DeepSeek reportedly accelerated the development timeline for its next major model, R2, shifting from a planned May 2025 debut to a potentially earlier launch, as reported in late February.
This haste islinked to pressures from global AI leaders like OpenAI, Google, and Anthropic, as well as domestic competition from Alibaba’s rapidly evolving Qwen models (like QWQ-Max-Preview). Compunerea acestor dinamici ale pieței sunt provocări de reglementare, inclusiv restricții americane și investigații în Europa cu privire la practicile de date. Mai mult, dependența Deepseek pe hardware-ul NVIDIA rămâne un factor, având în vedere controalele de export din SUA în curs de desfășurare a disponibilității cipurilor în China.
eficiența ca imperativ strategic
The Flashmla, concentrându-se pe o componentă de bază pentru o inferență eficientă, în mod special, prin faptul că, printr-o strategie a lui Deepseek, pentru a face o strategie de la Deepseek Parametr Număr, o cale exemplificată de modelele cu intensitate de resurse ale lui Openai, precum Giant, scump GPT-4.5.
Această direcție a fost evidențiată în continuare de punctul de control liniștit, în mod deschis, a marilor Deepseek-V3-0324, de pe 24 martie, care utilizează și MLA și publicarea în 2025 din aprilie. href=”https://arxiv.org/abs/2504.02495″target=”_ blank”> Hârtie disponibilă pe arxiv ), o tehnică de aliniere în timp de inferență care vizează reducerea dependenței de feedback-ul uman. Arhitecturi, potențial construind un avantaj competitiv într-un mediu constrâns de resurse.