German IT firm TNG Technology Consulting ay naglabas ng isang bagong open-source na modelo ng AI na naiulat na dalawang beses nang mas mabilis hangga’t ang variant ng Deepseek R1-0528 mula Mayo ay batay sa. Inilabas ang linggong ito sa niyakap ang platform ng mukha Teknik. Ang resulta ay isang modelo na nagpapanatili ng mga kakayahan sa pangangatuwiran na may mataas na antas habang bumubuo ng mga sagot na may 60% mas kaunting mga token, drastically pagputol ng mga gastos sa pagkilala at mga oras ng pagtugon para sa mga nag-develop.

Ang komunidad ng developer ng AI ay tumugon nang may sigasig. Noong X, ang yakap na pinuno ng pinuno ng pinuno na si Vaibhav Srivastav ay sumulat,”Damn! Deepseek R1T2-200% mas mabilis kaysa sa R1-0528 & 20% nang mas mabilis kaysa sa R1,”. Ang modelo ay magagamit sa ilalim ng isang pinahihintulutang lisensya ng MIT, na nagpapahintulot sa malawak na komersyal na paggamit at pagbabago.

Assembly-of-Exper: Isang Diskarte sa Nobela sa Paglikha ng Model

Sa halip na fine-tuning o retraining, ang AOE ay nagtatayo ng isang bagong modelo sa pamamagitan ng selectively na pinagsama ang mga tensor ng timbang mula sa maramihang mga pre-trained na magulang, isang proseso na detalyado sa isang kamakailang pananaliksik na papel mula sa Hunyo. ng isang modelo na may pananagutan para sa dalubhasang kaalaman-habang pinapanatili ang mas mahusay na ibinahaging mga layer mula sa mas mabilis na mga magulang. Ang”tri-mind”chimera ay pinagsasama ang pangangatuwiran ng R1-0528, nakabalangkas na pag-iisip ng R1, at pagkakakilanlan ng V3-0324. Habang ang Moe ay isang arkitektura ng runtime na nagpapa-aktibo ng isang bahagi ng mga”eksperto”ng isang modelo para sa anumang naibigay na gawain, ang AOE ay isang pamamaraan ng konstruksyon na nagluluto ng pinagsamang kadalubhasaan sa isang solong, mas mahusay na pangwakas na modelo. Ayon sa mga benchmark na inilathala ng TNG, nakamit ng R1T2 chimera sa pagitan ng 90% at 92% ng pangangatuwiran na pagganap ng pinakamalakas na magulang, R1-0528, sa hinihingi na mga pagsubok tulad ng AIME at GPQA. Gayunpaman, ang pangunahing bentahe ng modelo ay conciseness. Bumubuo ito ng mga tamang sagot gamit ang humigit-kumulang 40% ng mga token na hinihiling ng R1-0528, isang 60% na pagbawas sa haba ng output. Ang kahusayan na ito ay isang tanda ng magulang nitong V3. Matapos ang paglabas ng martsa nito, sinabi ng developer na si Awni Hannun tungkol sa pinabuting Marso 2025 variant ng v3 ,”Ito ang pinaka-makapangyarihang modelo na tumakbo ako sa aking laptop,”pagkatapos ng pinapatakbo ito sa kanyang laptop . Ang R1T2 chimera ay matagumpay na naghahagupit ng kahusayan na ito sa isang mas malakas na pangangatuwiran na pangunahing. Ang momentum ng firm ng Tsino ay tumitig, kasama ang inaasahang modelo ng R2 na ngayon ay walang hanggan na naantala. Ito ay dahil sa parehong panloob na hindi kasiya-siyang pagganap at ang epekto ng mga kontrol sa pag-export ng US sa mga mahahalagang AI chips. Sa Alemanya, hiniling ng Data Protection Authority ng Berlin ang Apple at Google na alisin ang deepseek app mula sa mga tindahan, na may label na”labag sa batas na nilalaman”dahil sa iligal na mga panganib sa paglilipat ng data sa China. Sinabi ng chairman ng komite na si John Moolenenaar,”Nilinaw ng ulat na ito: Ang Deepseek ay hindi lamang isa pang AI app-ito ay isang sandata sa arsenal ng Partido Komunista ng Tsina…,”na sinasabing ang app ay isang tool para sa espionage at pag-aani ng data. Ang mga panlabas na panggigipit na ito ay lumikha ng isang kumplikadong backdrop para sa anumang teknolohiya na nagmula sa trabaho ng Deepseek. Nag-aalok ang lisensya ng MIT nito ng maximum na kakayahang umangkop para sa pribadong pagho-host, pagpapasadya, at paglawak sa mga komersyal na aplikasyon nang walang mga bayad sa paglilisensya. Ang makabuluhang pagbawas sa gastos sa pag-iintindi ay ginagawang perpekto para sa high-throughput o real-time na mga kapaligiran. Inilalagay nito ang modelo sa isang kanais-nais na quadrant sa curve ng pagganap-versus-cost.

Gayunpaman, ang tala ng TNG ilang kasalukuyang mga limitasyon. Ang modelo ay hindi pa inirerekomenda para sa paggamit ng mga kaso na nangangailangan ng pagtawag sa function o paggamit ng tool, nangangahulugang hindi ito maaasahan na makihalubilo sa mga panlabas na API. Nililimitahan nito ang paggamit nito sa kumplikado, awtomatikong mga daloy ng trabaho, kahit na ang mga pag-update sa hinaharap ay maaaring matugunan ang puwang na ito. Sa kabila ng mga caveats na ito, ang paglabas ng R1T2 chimera ng TNG ay nagmamarka ng isang kilalang hakbang sa pag-unlad ng modular AI, na nag-aalok ng isang sulyap sa isang hinaharap kung saan ang mga modelo ay tipunin, hindi lamang sinanay.

Categories: IT Info