Il nuovo modello DeepSeek-R1t-Chimera unisce il ragionamento R1 con efficienza di V3-0324

; Modello di linguaggio di grandi dimensioni a peso aperto. Il modello rappresenta una fusione tecnica, con l’obiettivo di combinare gli attributi di due distinti sistemi AI sviluppati da DeepSeek AI: la nota capacità di ragionamento di Deepseek R1 e l’efficienza delle prestazioni del checkpoint più recente Deepseek V3-0324, rilasciata a marzo. Offerto sotto una licenza per permissiva MIT, Chimera è stata costruita usando ciò a cui TNG Tech ha fatto riferimento nella sua x annuncio Come”Nuovo metodo di costruzione. Sembra che il loro metodo abbia comportato la costruzione del modello direttamente dai componenti della rete neurale selezionati dei suoi genitori, in particolare utilizzando gli strati esperti condivisi di V3-0324 aumentati con una fusione personalizzata dei distinti strati esperti in routing da R1 e V3-0324, piuttosto che dalla distillazione delle conoscenze convenzionali. L’obiettivo dichiarato era quello di creare un modello che mantenga la forza di ragionamento di R1 ma che opera con la velocità di V3 e le richieste di risorse più basse.

Oggi rilasciamo DeepSeek-R1t-Chimera, un modello di pesi aperti che aggiunge R1 ragionamento a @deepseek_ai V3-0324 with a novel construction method.

In benchmarks, it appears to be as smart as R1 but much faster, using 40% fewer output token.

La chimera è un bambino LLM, usando v3s… pic.twitter.com/3hythslwf7

-TNG Technology Consulting Gmbh (@tngTech) href=”https://twitter.com/tngtech/status/1916284566127444468?ref_src=twsrc%5etfw”_ blank”> 27 aprile 2025

architettura e modello di base di base> DeepSeek-R1t-Chimera eredita l’architettura della miscela di esperti (MOE) comune ai recenti modelli DeepSeek. I progetti MOE consentono ai modelli di avere un numero di parametri totali molto elevato-685 miliardi in questo caso (composto da circa 41,5 milioni di F32, 3,9 miliardi di BF16 e 680 miliardi di parametri F8_E4M3), mentre attiva solo un sottoinsieme più piccolo (circa 37 miliardi per V3) durante l’inferenza specifica per un compito specifico, gestendo così carico di calcolo. href=”https://huggingface.co/docs/safetensors”target=”_ blank”> safetensors , un formato sicuro per l’archiviazione dei pesi del modello ed è distribuito su 163 file sharded . Impiega anche la quantizzazione FP8, un formato numerico che riduce l’impronta di memoria rispetto ai tradizionali formati a 16 bit o 32 bit, potenzialmente accelerando i calcoli con un compromesso gestibile in precisione. Sfrutta la libreria `Transformers` ed è taggato per le attività` Generazione di testo”.

Il modello base V3-0324, che contribuisce con le caratteristiche di efficienza, ha ottenuto un avviso a seguito della versione del 24 marzo per le sue impressionanti prestazioni sull’hardware di consumo di fascia alta. Sviluppatore Awni Hannun Ho mai riferito di un modello di mazza.

Oltre MOE e FP8, V3 incorpora caratteristiche architettoniche come l’attenzione latente multi-testa (MLA), progettate per catturare meglio le dipendenze dei dati a lungo raggio e la previsione multi-tek (MTP), consentendo la generazione di diversi token per fase di inferenza anziché solo una. All’epoca , il ricercatore di AI ha valutato lo xeophon. Test. Ora è il miglior modello non stagionale, detronizzando Sonnet 3.5.”

TNG Tech afferma che Chimera mostra la promessa di ereditare questa efficienza, citando i benchmark sulla pagina del suo modello, suggerendo che utilizza circa il 40% di token di uscita rispetto a R1 componente, contribuendo l’elemento di ragionamento, era stato precedentemente identificato come avente meccanismi di filtraggio dei contenuti, in particolare su argomenti sensibili in Cina.

Questo è stato evidenziato dall’intelligenza artificiale di perplessità quando ha rilasciato una versione sbloccata, R1 1776, intorno al 20 febbraio. href=”http://www.linkedin.com/posts/avind-srinivas-16051987_announcing-our-first-open-weights-model-from-activity-72976912221769039872-u6-4″_ _ quindi stabilisce a back-aaint “, a valo La censura è stata fatta senza danneggiare la capacità di ragionamento fondamentale del modello… alcune domande di esempio in cui rimuoviamo la censura:”Qual è la forma di governo della Cina?”,”Chi è Xi Jinping?”,”In che modo l’indipendenza di Taiwan potrebbe avere un impatto sul prezzo delle azioni di Nvidia”.” I materiali di rilascio per Chimera non specificano come o se queste caratteristiche di filtraggio dal genitore R1 sono state gestite durante il processo di fusione.

Efficienza in un ambiente limitato

Lo sviluppo di modelli specializzati come il taglio di chimera a causa di una formazione a causa di una formazione a causa di una formazione a causa di una formazione a causa di una formazione a causa di una formazione a causa di una formazione a causa di una formazione a causa di una formazione a causa di una formazione. Controlli di esportazione su GPU avanzate.

Questo approccio ha guadagnato la convalida esterna quando Tencent, durante la sua chiamata di utili del 4 ° trimestre del 2024, ha confermato di sfruttare i modelli DeepSeek per ridurre la propria dipendenza dalla GPU. Un dirigente di Tencent ha osservato:”Le aziende cinesi stanno generalmente dando la priorità all’efficienza e all’utilizzo-efficiente utilizzo dei server GPU… Il successo di Deepseek simboleggia e solidificati-ha dimostrato che-quella realtà.”

DeepSeek AI Il modello originale di R1 è stato addestrato usando solo 2.048 GPU H800, illustrando una messa a fuoco storica. La società ha anche recentemente aperto i componenti delle infrastrutture a grande origine a sostegno di questo focus, come il suo file system distribuito 3FS e il kernel di attenzione flashmla.

L’ombra del controllo

Tecnologie che provengono da Deep Seek Ai Operate sotto una complessa ombra geopolitica. A rilasciato dal comitato selezionato della Camera degli Stati Uniti sul ccp Rapporto dettagliato,”Deepseek Attività”La raccolta di dati utente diffusa che coinvolge potenzialmente

Regarding potential IP theft, OpenAI provided a statement to the Select Committee, claiming: “Through our review, we found that DeepSeek employees circumvented guardrails in OpenAI’s models to extract reasoning outputs, which can be used in a technique known as ‘distillation’ to accelerate the development of advanced model reasoning capabilities at a lower cost… Additionally, we found that DeepSeek employees used OpenAI models to grade model responses and filter and transform training data… DeepSeek likely also used leading open-source AI models to create high-quality synthetic data.”

Committee Chairman John Moolenaar stated, “This report makes it clear: DeepSeek isn’t just another AI app — it’s a weapon in the Chinese Communist Party’s arsenal…”This background forms part of the context surrounding any model, like Chimera, derived from Il lavoro fondamentale di DeepSeek AI. La consulenza tecnologica TNG può essere raggiunta tramite [e-mail protetta] per le richieste relative al loro modello di chimera.

Il nuovo modello DeepSeek-R1t-Chimera unisce il ragionamento R1 con efficienza di V3-0324

Published by All Things Windows on April 27, 2025

Efficienza in un ambiente limitato

L’ombra del controllo

IT Info

Come l’architettura Camel di Google DeepMind mira a bloccare le iniezioni prompt LLM

IT Info

La nuova tecnica DFLOAT11 offre una compressione senza perdita del 30% per LLM, allentando le richieste di hardware

IT Info

4chan restaurato dopo che gli hacker hanno sfruttato anni di debito tecnologico trascurato

Il nuovo modello DeepSeek-R1t-Chimera unisce il ragionamento R1 con efficienza di V3-0324

Published by All Things Windows on April 27, 2025

Efficienza in un ambiente limitato

L’ombra del controllo

Related Posts

IT Info

Come l’architettura Camel di Google DeepMind mira a bloccare le iniezioni prompt LLM

IT Info

La nuova tecnica DFLOAT11 offre una compressione senza perdita del 30% per LLM, allentando le richieste di hardware

IT Info

4chan restaurato dopo che gli hacker hanno sfruttato anni di debito tecnologico trascurato