A

Német IT cég TNG Technology Consulting kiadott egy új nyílt forráskódú AI modellt, amely állítólag kétszer olyan gyors, mint a MeepSeek R1-0528 változat, amelyen alapul. Megjelent ezen a héten a ölelés platformon átölelve , a DeepSeek-TNG R1T2 chimeraeves számára, az”_ üres, a”_ blank platformon átölelve. Technika.

Ez a módszer három különböző szülői modellből egyesíti az alkatrészeket, beleértve az eredeti DeepSeek R1 és V3 modelleket. Az eredmény egy olyan modell, amely megtartja a magas szintű érvelési képességeket, miközben 60%-kal kevesebb tokenekkel válaszokat generál, drasztikusan csökkenti a következtetési költségeket és a fejlesztők válaszidejét.

Az AI fejlesztői közösség lelkesedéssel reagált. Az X-en, a Face Face vezető vezetője, Vaibhav Srivastav írta: „A fenébe! DeepSeek R1T2-200%-kal gyorsabb, mint az R1-0528 és 20%-kal, mint az R1,” kiemelés”> kiemelés”> kiemelés”> kiemelés. nyereség . A modell megengedő MIT-licenc alapján érhető el, lehetővé téve a széles körű kereskedelmi felhasználást és a módosítást. src=”adatok: image/svg+xml; nitro-üres-id=mtyzodoxnzy0-1; base64, phn2zyb2awv3qm94psiwidagmtmzya5ot KiihdpzhropsixmzMzm3iibozwlnahq9ijk5Osigeg1sbnm9Imh0dha6Ly93d3cudzmub3Jnlziwmdavc3znij48l3n2zz4=”>”>”>”>”>”>”>”>”>”>”>”>”>”>”>”>”>

Személyes összeszerelés: A modell létrehozásának új megközelítése

TNG „A szakértők összeszerelése” (AOE) módszer jelentős eltérést jelent a hagyományos modell létrehozásától. A finomhangolás vagy átképzés helyett az AOE új modellt készít a többszörös előzetesen kiképzett szülők súlyátvitelének szelektív összevonásával, ezt a folyamatot a V3 március változatát : „Ez a legerősebb modell, amelyet a legerõsebb modell, amit valaha is futtattam, a Laptop-on” href=”https://twitter.com/awnihannun/status/1904177084609827054″Target=”_ blank”> futtatja a laptopján . Az R1T2 Chimera sikeresen oltja be ezt a hatékonyságot egy erősebb érvelési magra. A kínai cég lendülete elakadt, a várható R2 modelljével határozatlan ideig késik. Ennek oka mind a belső teljesítmény elégedetlensége, mind az USA exportvezérlésének a létfontosságú AI chipekre gyakorolt ​​hatása. Németországban a berlini adatvédelmi hatóság az Apple-t és a Google-t kérte, hogy távolítsa el a DeepSeek alkalmazást a boltokból, és „jogellenes tartalom” címkézve az illegális adatátviteli kockázatok miatt Kínába. John Moolenaar, a bizottság elnöke kijelentette: „Ez a jelentés világossá teszi: a DeepSeek nem csupán egy újabb AI alkalmazás-ez egy fegyver a Kínai Kommunista Párt Arsenaljában…”-állítólag az alkalmazás a kémkedés és az adatgyűjtés eszköze. Ezek a külső nyomások összetett hátteret teremtenek a DeepSeek munkájából származó technológiákhoz. MIT licencje maximális rugalmasságot kínál a magán tárhelyhez, a testreszabáshoz és a kereskedelmi alkalmazásokban történő telepítéshez engedélyezési díjak nélkül. A következtetési költségek jelentős csökkenése ideálissá teszi a nagy teljesítményű vagy valós idejű környezetekhez. A modellt egy kívánatos kvadránsba helyezi a teljesítmény-versus-költség görbére. A modell még nem ajánlott olyan esetekhez, amelyek funkcióhívást vagy szerszámhasználatot igényelnek, vagyis nem képesek megbízhatóan kölcsönhatásba lépni a külső API-kkal. Ez korlátozza annak használatát a komplex, automatizált munkafolyamatokban, bár a jövőbeli frissítések kezelhetik ezt a rést. E figyelmeztetések ellenére az R1T2 Chimera TNG általi felszabadulása figyelemre méltó lépést jelez a moduláris AI fejlődésben, bepillantást nyújtva egy olyan jövőbe, ahol a modelleket összeszerelik, nem csak képzettek.

Categories: IT Info