TNG Technology Consulting has released DeepSeek-R1T-Chimera, an Open-weight malaking modelo ng wika. Ang modelo ay kumakatawan sa isang teknikal na pagsasanib, na naglalayong pagsamahin ang mga katangian mula sa dalawang natatanging mga sistema ng AI na binuo ng Deepseek AI: ang nabanggit na kakayahan ng pangangatuwiran ng Deepseek R1 at ang kahusayan ng pagganap ng mas kamakailang Deepseek V3-0324 checkpoint, na inilabas noong Marso. Inaalok sa ilalim ng isang pinahihintulutang lisensya sa MIT, ang chimera ay itinayo gamit ang tinukoy ng TNG Tech sa @deepseek_ai v3-0324 na may paraan ng konstruksyon ng nobela. Mga token. href=”https://twitter.com/tngtech/status/1916284566127444468?ref_src=twsrc%5etfw”target=”_ blangko”> Abril 27, 2025
Deepseek-R1T-Chimera ay nagmamana ng arkitektura ng halo-ng-eksperto (MOE) na karaniwang sa mga kamakailang mga modelo ng Deepseek. Pinapayagan ng mga disenyo ng MOE ang mga modelo na magkaroon ng isang napakalaking kabuuang bilang ng parameter-685 bilyon sa kasong ito (binubuo ng humigit-kumulang na 41.5 milyong F32, 3.9 bilyong bf16, at 680 bilyong F8_E4M3 na mga parameter)-kung ang pag-activate lamang ng isang mas maliit na subset (sa paligid ng 37 bilyon para sa v3) sa panahon ng pag-iintindi para sa isang tiyak na gawain, sa gayon pinamamahalaan ang computational load. href=”https://huggingface.co/docs/safetensors”target=”_ blangko”> safetensors , isang ligtas na format para sa pag-iimbak ng mga timbang ng modelo, at ipinamamahagi sa buong 163 sharded file . Gumagamit din ito ng dami ng FP8, isang format na numero na binabawasan ang bakas ng memorya kumpara sa tradisyonal na 16-bit o 32-bit na mga format, na potensyal na nagpapabilis ng mga kalkulasyon na may isang pinamamahalaang trade-off sa katumpakan. Ginagamit nito ang library ng’Transformers` at na-tag para sa mga gawain ng’text-generation`. Developer awni hannun iniulat Pagkamit ng higit sa 20 token bawat segundo gamit ang isang 4-bit na bersyon sa isang Apple Mac Studio, na nagkomento,”Ito ang pinaka-makapangyarihang modelo na tumakbo ako sa aking Lapop.
Higit pa sa MOE at FP8, isinasama ng V3 ang mga tampok ng arkitektura tulad ng multi-head latent attention (MLA), na idinisenyo upang mas mahusay na makuha ang mga dependencies ng data, at multi-token prediction (MTP), na nagpapahintulot sa henerasyon ng maraming mga token bawat hakbang na hakbang sa halip na isa lamang. ulat na pinakawalan ng komite ng US na piling tao sa ccp Panganib. Ang detalyadong ulat,”Deepseek unmasked,”laganap na koleksyon ng data ng gumagamit na potensyal na kinasasangkutan ng Ang pag-aari ng china mobile , ipinatupad ang censorship ng CCP, na potensyal na ginamit na pinigilan na nvidia chips Ang pagnanakaw sa pamamagitan ng pag-distill ng modelo. Mga Tugon sa Model at Filter at Pagbabago ng Data ng Pagsasanay… Ang Deepseek ay malamang na gumamit din ng nangungunang open-source na mga modelo ng AI upang lumikha ng de-kalidad na data ng synthetic. Ang gawaing gawa ni AI. Maaaring maabot ang TNG Technology Consulting sa pamamagitan ng [protektado ng email] para sa mga katanungan tungkol sa kanilang modelo ng chimera.