In mezzo a intensificare la concorrenza globale e le pressioni della catena di approvvigionamento hardware, in particolare per quanto riguarda l’accesso alle GPU ad alte prestazioni, l’efficienza dell’IA è diventata un focus centrale per molte aziende tecnologiche.

La Cina DeepSeek AI si sta posizionando all’interno di questa narrazione, enfatizzando l’ottimizzazione architettura. Durante la sua chiamata degli utili del 4 ° trimestre del 2024 nel marzo 2025, Tencent ha riferito di ridurre i requisiti della GPU integrando i modelli di DeepSeek.

Un dirigente dell’azienda ha osservato:”Le aziende cinesi stanno generalmente dando la priorità all’efficienza e all’utilizzo-efficiente utilizzo dei server di Symbolify. Quella-quella realtà.”While Tencent still procures hardware, like NVIDIA’s H20 chips for DeepSeek integration in apps such as WeChat, the statement highlights a strategic reliance on DeepSeek’s efficient designs.

La spinta open source di DeepSeek inizia

rafforzando questo approccio di efficienza, Deepseek ha annunciato una nuova iniziativa open source tramite X. Descrivere il piano come condividere”piccoli ma sinceri progressi”, la compagnia ha dichiarato la comunità e pura. innovazione.”Il primo componente svelato in questo programma, è FlashMla.

🚀 Day 0: riscaldamento per #openssource #a #a #a #a Opensource;

Siamo una piccola squadra @deepseek_ai Explouring AGI. A partire dalla prossima settimana, saremo documentati in 5 Repos Open-Sourcing, condividendo i nostri piccoli ma sinceri progressi con la piena trasparenza.

Questi umili blocchi di costruzione nel nostro servizio online sono stati documentati,…

-DeepSeek (@deepseek_ai) 21 febbraio 2025

FlashMla è presentato da Multi-HATENT ATSICTH (ml-HATT. Kernel, una variazione sui meccanismi di attenzione del trasformatore progettati per una migliore efficienza, specificamente sintonizzato per l’architettura GPU Hopper di Nvidia. Disponibile su github sotto una licenza MIT Tipi e utilizza KVCache pagato-una tecnica di gestione della memoria ottimizzando l’archiviazione per gli stati del valore chiave nei modelli di trasformatore-con una dimensione di 64 blocchi. Questo approccio consente un’allocazione di memoria più flessibile rispetto alla memorizzazione nella cache contigua, potenzialmente migliorando la velocità di trasmissione per richieste simultanee con lunghezze di sequenza variabili.

Richieste di prestazioni e basi tecniche

DEEPSEEK CONCRESSI DEEPEEK METRICI PER ERAZIONE COMPUTI Raggiungere 580 TFLOP, sebbene queste cifre richiedano una validazione indipendente e del mondo reale attraverso diversi carichi di lavoro.

Secondo quanto riferito, le prestazioni ottimali richiedono CUDA 12.8 o più recenti, sebbene la compatibilità inizi a CUDA 12.3, insieme a Pytorch 2.0+. L’azienda attribuisce ispirazione da progetti affermati come flastattenzione 2 e 3 e nvidia’s own metax ( metax-maca/flashmla ), more threads ( moorethreads/mt-flashmla ), hygon dcu ( Opendas/mLattentent ), Intellifusion ( Intellifusion/tyllm ), iluvatar corex ( deep-spark/flashmla ) e amd istinct ( aiter/mla ), suggerendo un interesse ecosistema più ampio

questa fretta è stata le pressioni di leader AI globali come Openiai, Google e Antropic, nonché come competizione domestica di Aliibab e a Alibabase-Mess. La combinazione di queste dinamiche di mercato sono sfide normative, tra cui restrizioni e indagini statunitensi in Europa in merito alle pratiche di dati. Inoltre, la dipendenza di DeepSeek dall’hardware Nvidia rimane un fattore, dati i controlli di esportazione statunitensi in corso che incidono sulla disponibilità di chip in Cina.

Efficienza come imperativo strategico

Il rilascio di flashmla, concentrandosi su una componente e efficiente per la strategia di inseguimento per la pulizia, con il flashing, con il flashing, con il flashing, il flashing, il consapevolezza del flashmla, concentrandosi con la componente core per la consapevolezza di inseguimento per la pulizia per la ricerca di un teatro per la pulizia. conteggi, un percorso esemplificato dai modelli ad alta intensità di risorse di Openi come il gigante e costoso GPT-4.5.

Questa direzione è stata ulteriormente evidenziata dalla tranquilla e aperta peso di benzina del grande checkpoint Deep-V3-0324 il 24 marzo, che utilizza anche MLA e la pubblicazione di aprile 2025 sulla ricerca autonoma di SPCT (SPCT) href=”https://arxiv.org/abs/2504.02495″Target=”_ blank”> carta disponibile su arxiv ), una tecnica di allineamento del tempo di inferenza volto a ridurre la dipendenza e lo sviluppo di un feedback umano. architetture, potenzialmente costruendo un vantaggio competitivo in un ambiente limitato alle risorse.

Categories: IT Info