tng konsultacja technologiczna ma wydawanie deepseek

Dzisiaj uwalniamy DeepSeek-R1t-chimera, model otwartych ciężarów dodający rozumowanie R1 do @deepseek_ai v3-0324 z nowatorską metodą konstrukcyjną.

w odgadach, wydaje się być jak r1, ale tys. tokeny.

Chimera jest dzieckiem llm, używając v3s… pic.twitter.com/3hytslwf7

-TNG Technology Consulting GMBH (@TngTech) April 27, 2025

Architecture And Base Model Characteristics

DeepSeek-R1T-Chimera dziedziczy architekturę mieszanki ekspertów (MOE) wspólna dla najnowszych modeli Deepseek. Projekty MOE umożliwiają modele na bardzo dużą liczbę całkowitej liczby parametrów-w tym przypadku 685 miliardów (składających się z około 41,5 miliona F32, 3,9 miliarda BF16 i 680 miliardów parametrów F8_E4M3)-podczas gdy tylko aktywuje mniejszy podfol (około 37 miliardów dla v3), w ten sposób zarządzanie obciążeniem obliczeniowym. href=”https://huggingface.co/docs/safeTensors”Target=”_ puste”> Safetensors , bezpieczny format przechowywania masy modeli i jest rozmieszczony na . Wykorzystuje również kwantyzację FP8, format numeryczny, który zmniejsza ślad pamięci w porównaniu z tradycyjnymi 16-bitowymi lub 32-bitowymi formatami, potencjalnie przyspieszając obliczenia z możliwym do zarządzania kompromisem precyzji. Wykorzystuje bibliotekę „Transformers” i jest oznaczony dla zadań „generacji tekstu”.

Model podstawowy V3-0324, który przyczynia się do charakterystyki wydajności, zyskał powiadomienie po wydaniu 24 marca dla jego imponującej wydajności na wysokiej klasy sprzęcie konsumenckim. Developer Awni Hannun donosił Osiągnięcie ponad 20 tokenów na sekundę przy użyciu 4-bitowej wersji kwantyzowanej w studio Apple Mac, komentując, „Jest to najbardziej potężny model.

Poza MOE i FP8, V3 zawiera funkcje architektoniczne, takie jak wielopłaska utajona uwaga (MLA), zaprojektowana w celu lepszego przechwytywania zależności danych dalekiego zasięgu, oraz prognozowania wielu tokenów (MTP), umożliwiając wytwarzanie kilku tokenów na etap wnioskowania zamiast tylko jednego. W tym czasie Ai badacz ai xeophon ocenia go przy nim pozytywnie przeciwko współczesnemu współczesnemu dla współczesnych dla współczesnych dla współczesnych w przypadku współczesnych wobec współczesnych. Testy. Wkładając element rozumowania, został wcześniej zidentyfikowany jako posiadający mechanizmy filtrowania treści, szczególnie na tematy wrażliwe w Chinach.

Zostało to podkreślone przez zakłopotanie AI, gdy wydało odblokowaną wersję, R1 1776, około 20 lutego. Prezentacja Aravind Srinivas stwierdzono, że : „Post-stat. Cenzura odbyła się bez zranienia podstawowej zdolności rozumowania modelu… niektóre przykładowe zapytania, w których usuwamy cenzurę: „Jaka jest forma rządu Chin?”, „Kim jest Xi Jinping?”, „Jak niezależność Tajwanu może wpłynąć na cenę akcji NVIDIA”. Materiały uwalniające dla Chimery nie określają, w jaki sposób lub jeśli te właściwości filtrowania R1 zostały obsługiwane podczas procesu scalania.

Wydajność w ograniczonym środowisku

Rozwój wyspecjalizowanego modeli, takich jak Chimera pasuje do szerszego wzorca Deepseek AI szerszego wzorca koncentracji na skupieniem architektonicznym, co jest możliwe, że ograniczona dostęp do Top-Tier STARTU do nas do najlepszego z nas do nas jest. Eksportuj kontrole zaawansowanych GPU.

Takie podejście zyskało zewnętrzną walidację, gdy Tencent, podczas połączenia zysków w 2024 r., Potwierdziło wykorzystanie modeli Deepeek w celu zmniejszenia własnej zależności GPU. Dyrektor wykonawczy Tencent zauważył: „Chińskie firmy ogólnie priorytetują wydajność i wykorzystanie-efektywne wykorzystanie serwerów GPU… Sukces Deepseek naprawdę symbolizuje i zestala się-wykazał, że-ta rzeczywistość.”

Oryginalny model R1 Deepseek AI był podobno trenowany przy użyciu zaledwie 2 048 H800 GPU, ilustrując historyczne zarządzanie zasobami. Firma niedawno open sourtowane komponenty infrastruktury wspierające ten ukierunkowanie, takie jak rozproszony system plików 3FS i jądro uwagi Flashmla.

cień kontroli

Technologie pochodzące z Deepseeek AI działają w złożonym cieniu geopolitycznym. A Raport opublikowany przez amerykańską komisję domową w CCP W kwietniu 16 kwietnia, oznaczono Departament Sergeek. państwowe mobilne mobilne mobilne mobilne , egzekwowane cesensora Za pośrednictwem destylacji modelowej.

W odniesieniu do potencjalnej kradzieży IP, Openai przedstawił komisję wybraną oświadczenie, twierdząc: „Dzięki naszemu przeglądowi stwierdziliśmy, że pracownicy Deepeek obchodzili poręcze w modelach Openai w celu wyodrębnienia wyników rozumowania, które można wykorzystać w technice znanej jako„ destylacja “, aby zaakceptować opracowywanie opracowywanych możliwości rozumowania według kosztów niższych kosztów. Dane szkoleniowe filtrów i transformacji… Deepseek prawdopodobnie wykorzystał również wiodące modele AI open source do tworzenia wysokiej jakości danych syntetycznych. “

Przewodniczący komitetu, John Moolenaar, stwierdził:„ Ten raport wyjaśnia: Deepseek nie jest tylko kolejną aplikacją AI-jest to broń w arsenale chińskiej partii komunistycznej… ” Do konsultacji technologicznej TNG można uzyskać za pośrednictwem [e-mail chroniony] w celu zapytań dotyczących ich modelu Chimera.

Categories: IT Info