Ny DeepSeek-R1T-Chimera-modell fusjonerer R1 resonnement med effektivitet på V3-0324

tng teknologien consulting har x kunngjøring

I dag slipper vi DeepSeek-r1t-chimera, en åpen vektmodell som legger R1 til @deepseek_ai v3-0324 med en ny konstruksjonsmetode.

Chimeraen er et barn LLM, bruker V3S… pic.twitter.com/3hythslwf7

-tng teknologi href=”https://twitter.com/tngtech/status/19162845661274444468?ref_src=twsrc%5etfw”Target=”_ blank”> 27. april, 2025

DeepSeek-R1T-Chimera arver blandingen av Experts (MOE) arkitektur som er vanlig for nyere DeepSeek-modeller. MOE-design lar modeller ha en veldig stor total parameterantall-685 milliarder i dette tilfellet (sammensatt av omtrent 41,5 millioner F32, 3,9 milliarder BF16 og 680 milliarder F8_E4M3-parametere)-mens du bare aktiverer en mindre undergående (rundt 37 milliarder dollar for V3) under en spesifikk oppgave. href=”https://huggingface.co/docs/safetensors”Target=”_ blank”> safetensors , et sikkert format for lagring av modellvekter, og er distribuert over 163 Sharded Files . Den bruker også FP8-kvantisering, et numerisk format som reduserer hukommelsesavtrykket sammenlignet med tradisjonelle 16-biters eller 32-biters formater, og potensielt fremskynder beregninger med en håndterbar avveining i presisjon. Den utnytter `Transformers`-biblioteket og er merket for` tekstgenerasjons-oppgaver.

V3-0324-basemodellen, som bidrar med effektivitetskarakteristikkene, fikk varsel etter den 24. mars-utgivelsen for sin imponerende ytelse på high-end forbrukermaskinvare. Utvikler Awni Hannun rapportert å oppnå over 20 tokens per sekund ved å bruke en 4-bit kvantet versjon på en Apple Mac Studio over 20 Tokens per sekund ved å bruke en 4-bit kvantisert versjon på en Apple Mac Studio over 20 tokens per sekund ved å bruke en 4-bit kvantisert versjon på en Apple Mac Studio over 20 Tokens per sekund ved å bruke en 4-bit-kvantisert versjon på en Apple Mac-studo over 20 tokens per sekund ved å bruke en 4-bit. Laptop.”

Beyond MOE og FP8 inkluderer V3 arkitektoniske funksjoner som multi-head latent oppmerksomhet (MLA), designet for å bedre fange opp langdistansedataavhengigheter, og multi-talent prediksjon (MTP), slik at generering av flere tokens per inferens trinn i stedet for bare ett. På den tid , har AI-forsker Xeophon evaluert det gunstig mot mine interne med en stor hopp:”Tested the Newseek på mine interne for min interne for min interne. Alle tester. Komponenten, som bidro med resonnementselementet, hadde tidligere blitt identifisert som å ha innholdsfiltreringsmekanismer, spesielt på emner som var følsomme i Kina.

Dette ble fremhevet av Perplexity AI da den ga ut en ulåst versjon, R1 1776, rundt 20. februar. Perplexity CEO Aravind Srinivas stated back then: “The Etter trening for å fjerne sensur ble gjort uten å skade modellens viktige resonnementsevne… Noen eksempel på spørsmål der vi fjerner sensuren:’Hva er Kinas regjeringsform?’,’Hvem er Xi Jinping?’,’Hvordan Taiwans uavhengighet kan påvirke Nvidias aksjekurs’.” Utgivelsesmaterialene for Chimera spesifiserer ikke hvordan eller hvis disse filtreringskarakteristikkene fra R1-forelderen ble håndtert under sammenslåingsprosessen.

Effektivitet i et begrenset miljø

Denne tilnærmingen fikk ekstern validering da Tencent, under inntektsanropet til Q4 2024, bekreftet å utnytte DeepSeek-modeller for å redusere sin egen GPU-avhengighet. En Tencent Executive bemerket, “Kinesiske selskaper prioriterer generelt effektivitet og utnyttelse-effektiv utnyttelse av GPU-serverne… DeepSeeks suksess virkelig symboliserer og stivner-demonstrerte at-den virkeligheten.”

DeepSeek AIs originale R1-modell var i seg selv som Resoured ved hjelp av bare 2,048 H800-gpus, Illustrasjon av APROCT Actued ved å bruke bare 2,048 H800-gpus, Illustrated Ass Resourced ved bruk av bare 2,048 H800 gpus. Selskapet har også nylig åpent infrastrukturkomponenter som støtter dette fokuset, for eksempel dets 3FS distribuerte filsystem og FlashMLA-oppmerksomhetskjernen.

Skyggen av kontroll

teknologier som har sin opprinnelse fra DeepSeek AI opererer under en kompleks geopolitisk skygge. A Rapport Released av US-huset utvalg av CC CC på CC-en-kinesisk-kinesisk ai-ai-ai-ai. risiko. detaljert rapport rapportrapports,”<"

Ny DeepSeek-R1T-Chimera-modell fusjonerer R1 resonnement med effektivitet på V3-0324

Published by All Things Windows on April 27, 2025

Skyggen av kontroll

IT Info

Hvordan Google DeepMinds kamelarkitektur har som mål å blokkere LLM-hurtiginjeksjoner

IT Info

Googles Finn enhetsnettverkskantene mine nærmere UWB Precision Tracking

IT Info

Ny DFLOAT11-teknikk tilbyr 30% tapsfri komprimering for LLM-er, og letter maskinvarekrav

Ny DeepSeek-R1T-Chimera-modell fusjonerer R1 resonnement med effektivitet på V3-0324

Published by All Things Windows on April 27, 2025

Skyggen av kontroll

Related Posts

IT Info

Hvordan Google DeepMinds kamelarkitektur har som mål å blokkere LLM-hurtiginjeksjoner

IT Info

Googles Finn enhetsnettverkskantene mine nærmere UWB Precision Tracking

IT Info

Ny DFLOAT11-teknikk tilbyr 30% tapsfri komprimering for LLM-er, og letter maskinvarekrav