Temidden van de intensiverende wereldwijde concurrentie en hardware-supply chain-druk, met name met betrekking tot toegang tot hoogwaardige GPU’s, is AI-efficiëntie een centrale focus geworden voor veel technologiebedrijven.
China’s Deepseek AI positioneert zichzelf binnen dit verhaal, de nadruk op architecturale optimalisatie over een pure modelschaal, een strategie die recent wordt gevalideerd door technische gigantische tentcenta. Tijdens de Q4 2024-winstoproep in maart 2025 meldde Tencent te worden verkleind door de GPU-vereisten door de modellen van DeepSeek te integreren. heeft dat aangetoond-die realiteit.”Terwijl Tencent nog steeds hardware verkrijgt, zoals de H20-chips van NVIDIA voor deepseek-integratie in apps zoals WeChat, benadrukt de verklaring een strategische afhankelijkheid van Deepseek’s efficiënte ontwerpen.
#OPENSOURCE”>#OPENSourceWeeke”>#OpenSourceWeeke”>#OpenSourceWeeke”>#OpenSourceWeeke?
We zijn een klein team @deepseek_ai verkenning van agi. Vanaf volgende week zullen we open-sourcing 5 repo’s zijn en onze kleine maar oprechte vooruitgang delen met volledige transparantie.
Deze bescheiden bouwstenen in onze online service zijn gedocumenteerd,…
-Deepseek (@deepseek_ai) February 21, 2025
FlashMLA is presented as a Multi-Head Latent Attention (MLA) decoding Kernel, een variatie op de aandachtsmechanismen van transformator die is ontworpen voor verbeterde efficiëntie, specifiek afgestemd op Nvidia’s Hopper GPU-architectuur. Beschikbaar op github onder een MIT-licentie , wordt de kernel beschreven door Deepseek als”Engineered voor variabele lengte-sequenties”in serveerscenario’s en”het is al aangedreven met onze productiesystemen.”Gebruikt Paged KVCache-een geheugenbeheertechniek die opslag optimaliseert voor de sleutelwaardestaten in transformatormodellen-met een grootte van 64 blokken. Deze aanpak zorgt voor een meer flexibele geheugenallocatie in vergelijking met aangrenzende caching, waardoor de doorvoer mogelijk wordt verbeterd voor gelijktijdige aanvragen met verschillende reekslengtes.
Prestatieclaims en technische basis
Deepseek claims substantiële prestatiemeters voor flashmla running op h800 sxm5 gpus, citen memory delimaat 580 Tflops, hoewel deze cijfers onafhankelijke, real-world validatie vereisen over verschillende werklast.
Optimale prestaties vereist naar verluidt CUDA 12.8 of nieuwere, hoewel compatibiliteit begint bij CUDA 12.3, naast Pytorch 2.0+. Het bedrijf crediteert inspiratie van gevestigde projecten zoals flashattention 2 & 3 en nvidia’s eigen
De GitHub-repository wijst ook op community-inspanningen die de technologie aanpassen voor andere hardwareplatforms, waaronder die van metax ( metax-maca/flashmla ), moore threads ( moorethreads/mt-flashmla ), hygon dcu (OpenDAS/MLAttention), Intellifusion ( intellifusion/tyllm ), iluvatar corex ( Deepspark/flashmla ), en amd instinct ( aiter/mla ), suggereren een bredere ecosysteem interesse in de onderliggende technieken. Deepseek versnelde naar verluidt de ontwikkelingstijdlijn voor het volgende grote model, R2, verschoven van een geplande debuut van mei 2025 naar een potentieel eerdere lancering, zoals gemeld eind februari. Deze Haste islinked naar druk van Global AI-leiders zoals Openai, Google en ANTHROPIC, en ANTHROPISCHE, ANTROPISCHE, ANDIME COMPUNTIES VAN ALIBABA’S FABLIEKE EVOLVEND QWEN MODS (zoals QWQ-MASE-MASE-MOSE-MODES (zoals QWQ-Max-Max-Max-Max-modellen (zoals QWQ-Max-Max-Max-modellen (zoals QWQ-Max-Max-Max-modellen (zoals QWQ-Max-Preview). Het verergeren van deze marktdynamiek zijn regelgevende uitdagingen, waaronder Amerikaanse beperkingen en onderzoeken in Europa met betrekking tot gegevenspraktijken. Bovendien blijft de afhankelijkheid van Deepseek van NVIDIA-hardware een factor, gegeven aan de lopende Amerikaanse exportcontroles die van invloed zijn op de beschikbaarheid van chip in China. De flashmla release, de release van een kern voor efficiënte conclusie, schakel de diepte van de diepte door Massive Parameter Counts, een pad dat is geïllustreerd door de resource-intensieve modellen van Openai, zoals de gigantische, dure GPT-4.5. Deze richting werd verder bewezen door de stille, open-weight release van de grote Deepseek-V3-0324 checkpoint op 24 maart, die ook MLA gebruikt, en de MLA, en de april 2025 Publication of Self-Principled To Self Principled (Spct) (SPCT) (SPCT) (SPCT) (SPCT) (SPCT) (SPCT) (SPCT) (SPCT). href=”https://arxiv.org/abs/2504.02495″target=”_ blanco”> papier beschikbaar op arxiv efficiëntie als een strategische imperative