W związku z intensyfikowaniem globalnej presji łańcucha dostaw i sprzętu, szczególnie w odniesieniu do dostępu do GPU o wysokiej wydajności, wydajność sztucznej inteligencji stała się centralnym celem wielu firm technologicznych.

Chińskie Deepeek AI pozycjonuje się w tej narracji, podkreślając optymalizację architektoniczną w stosunku do makeła, strategia niedawno zweryfikowana przez giganta technologiczną. Podczas połączenia z zarobkami w kwartale 2024 r. W marcu 2025 r. Tencent zgłosił zmniejszenie wymagań GPU poprzez integrację modeli Deepseek.

Kierownictwo firmy zauważyło: „Chińskie firmy ogólnie priorytetują wydajność i wykorzystanie-skuteczne wykorzystanie serwerów GPU. I niekoniecznie nie jest upośledzona o ostatecznej skuteczności technologii, która jest rozwinięta. ta rzeczywistość.”Podczas gdy Tencent nadal pozwala na sprzęt, podobnie jak układy H20 NVIDIA do integracji Deepseek w aplikacjach takich jak WeChat, stwierdzenie podkreśla strategiczne poleganie na wydajnych projektach.

Push open source Deepseek rozpoczyna

Wzmacniając to podejście dla wydajności, Deepseek ogłosił nową inicjatywę typu open source za pośrednictwem X. Opisanie planu jako „niewielkie, ale szczere postępy”, stwierdziła zamiar wydania pięciu repozytoriów kodowych w ciągu następnego tygodnia do rozwoju społeczności, dodając, że nie ma bycia howerami i czysto-po prostu energy i społeczność-energia społeczna i społeczność-a innowacja “.”Pierwszym komponentem zaprezentowanym w ramach tego programu jest Flashmla.

🚀 Dzień 0: rozgrzewa się dla #openSource is.

Jesteśmy małym zespołem

Te skromne elementy składowe w naszej usłudze online zostały udokumentowane,…

-Deepseek (@Deepseek_ai) 21 lutego 2025

lampleMla jest prezentowana jako uwaga Multi-headent (mla). Kernel, zmienność mechanizmów uwagi transformatora zaprojektowana w celu poprawy wydajności, specjalnie dostrojona do architektury GPU Hopper GPU NVIDIA. Dostępne na github na licencji MIT , jądro jest opisywane przez Deepseek jako „zaprojektowane dla sekwencji o zmiennej długości” w serwowaniu scenariuszy i „To już zasila nasze systemy produkcyjne.”

popiera BF16 i FP16. Rodzaj i wykorzystuje paged KVCACHE-technika zarządzania pamięcią optymalizując pamięć dla stanów wartości kluczowej w modelach transformatorów-z 64-blokowym rozmiarem. Takie podejście pozwala na bardziej elastyczne alokacja pamięci w porównaniu do ciągłego buforowania, potencjalnie poprawiając przepustowość dla jednoczesnych żądań o różnych długościach sekwencji.

Roszczenia o wydajność i fundament techniczny

Deepseek twierdzi, że mierniki wydajności istotnej dla flashmla działającej na H800 SXM5, cytując pamięć, cytującą pamięć przez 3000 GB do 3000 GB do 3000 GB, a curpction w metryce wydajności komputerowej i komputerowej. Osiągnięcie 580 TFLOP, chociaż liczby te wymagają niezależnej walidacji w świecie rzeczywistym w różnych obciążeniach.

Optymalna wydajność podobno wymaga CUDA 12.8 lub nowszej, chociaż kompatybilność zaczyna się w CUDA 12.3, wraz z Pytorch 2.0+. Firma przypisuje inspirację z ustalonych projektów, takich jak flashattion 2 & 3 i skojaźnia nvidia Repozytorium GitHub wskazuje również na wysiłki społeczności dostosowujące technologię innych platform sprzętowych, w tym z Metax ( METAX-MACA/FLASHMLA ), wątki moore ( moorethreads/mt-flashmla ), hygon dcU ( opendas/mlattention ), Intellifusion ( Intellifusion/tyllm ), iLuvatar Corex ( głębokie spark/flashmla ) i aiter/mla ), sugerując szersze zainteresowanie ekosystemem technikami podstawowymi. Jak podobno Deepseek przyspieszył harmonogram rozwoju swojego następnego głównego modelu, R2, przechodząc z planowanego debiutu w maju 2025 r. Do potencjalnie wcześniejszego premiery, jak podano pod koniec lutego.

Ta Haste toczyła się na presję globalnych liderów AI, takich jak Openai, Google i Anthropic, podobnie jak konkurencja krajowa z Alibaba szybko ewoluującego modele (podobne do modeli podobnych do globalnych AI. QWQ-Max-Preview). Połączenie tych dynamiki rynku są wyzwania regulacyjne, w tym ograniczenia i badania w USA w Europie dotyczące praktyk danych. Ponadto poleganie Deepseeka na sprzęcie NVIDIA pozostaje czynnikiem, biorąc pod uwagę ciągłe kontrole eksportu w USA wpływające na dostępność Chip w Chinach.

Wydajność jako strategiczna imperatyw

Uwolnienie flashmla, koncentrując się na komponencie podstawowym dla skutecznego dopasowania, dostosowuje się do strategii deepeekcji, a nie rozstrzygnąć roztworu przez Massywne. liczy, ścieżka zilustrowana przez modele wymagające zasobów Openai, takie jak gigantyczny, drogi GPT-4.5.

Ten kierunek został dodatkowo dowodzony przez ciche, otwarte wydanie badań nad dużym przekształconym przez Deepseek-V3-0324, który wykorzystuje również MLA, a także publikacja badań nad samozadowoleniami (SPCT) ( papier dostępny na arxiv ), technika wyrównania czasu, mając na celu zmniejszenie zależności od ludzkiej informacji zwrotnej.

przez komponenty open sourcing, takie jak open sourcing komponenty, takie jak opóźnienie źródła sourcingu. Architektury, potencjalnie budując przewagę konkurencyjną w środowisku ograniczonym zasobem.

Categories: IT Info