DeepSeek R1-0528: Saksalainen yritys julkaisee version Deepseekin AI-mallista, joka toimii kaksi kertaa nopeammin

Saksan IT-yritys TNG Technology Consulting on julkaissut uuden avoimen lähdekoodin AI-mallin, jonka on ilmoitettu olevan kaksi kertaa nopeampi kuin Deepseek R1-0528-variantti toukokuusta lähtien. Julkaistu tällä viikolla halaus kasvojen alustat , Deepek-tng-experts-kimeerät saavuttavat huomattavan tehokkuuden romaanin’Assembly-of-Experts’-tapahtumansa läpi romaanin’Assembly-of-Experts’Tekniikka.

Tämä menetelmä yhdistää komponentit kolmesta eri vanhemmasta mallista, mukaan lukien alkuperäiset Deepseek R1-ja V3-mallit. Tuloksena on malli, joka säilyttää korkean tason päättelyominaisuudet ja tuottaa vastauksia 60%: lla vähemmän merkkejä, leikkaamalla dramaattisesti päätelmäkustannuksia ja vasteaikoja kehittäjille.

AI-kehittäjäyhteisö on vastannut innolla. X: llä, halaaminen kasvojen vanhempi johtaja Vaibhav Srivastav kirjoitti: “Hitto! Deepseek R1T2-200% nopeampi kuin R1-0528 & 20% nopeampi kuin R1,”

Kokoonpanokokoonpano: Uusi lähestymistapa mallin luomiseen

TNG: n “Expert-kokoonpano”(AOE)-menetelmä edustaa merkittävää poikkeamaa tavanomaisesta mallin luomisesta. Hienotoiminnan tai uudelleenkoulutuksen sijasta AOE rakentaa uuden mallin yhdistämällä valikoivasti paino-tenorit useista esikatseltuista vanhemmista, prosessista, joka on yksityiskohtainen a äskettäinen tutkimuspaperi kesäkuusta. Malli, joka on vastuussa erikoistuneesta tiedosta-säilyttäen samalla tehokkaammat jaetut kerrokset nopeammilta vanhemmilta. Tämä “kolmi-mind”-kimera yhdistää R1-0528: n, R1: n jäsennellyn ajatuksen ja V3-0324: n tiivisteen perusteet.

Tämä lähestymistapa eroaa vanhemmassa malleissa käytetystä eksperttien seoksen (MOE) arkkitehtuurista. Vaikka Moe on ajonaikainen arkkitehtuuri, joka aktivoi murto-osan mallin”asiantuntijoista”tietylle tehtävälle, AOE on rakennustekniikka, joka leipoo yhdistetyn asiantuntemuksen yhdeksi, tehokkaammaksi lopullisemmaksi malliksi.

-vertailuarvot: RAW-älykkyyden tasapainotus äärimmäisen tehokkuuden ja tämän tekniikan käytännön hyötyllä on tehokas tasapaino. TNG: n julkaisemien vertailuarvojen mukaan R1T2 Chimera saavuttaa 90–92% sen tehokkaimman vanhemman, R1-0528: n päättelyn suorituskyvystä. Mallin keskeinen etu on kuitenkin yhteenveto. Se tuottaa oikeita vastauksia käyttämällä noin 40% R1-0528: n edellyttämistä rahakkeista, mikä on 60%: n vähenemistä lähtöpituudessa.

Tämä tarkoittaa suoraan nopeampia vasteaikoja ja pienemmät laskentakustannukset, mikä tekee siitä yli kaksi kertaa nopeamman käytännön. Tämä tehokkuus oli V3-vanhemman tunnusmerkki. Maaliskuun julkaisunsa jälkeen kehittäjä Awni Hannun kertoi parantuneesta maaliskuu 2025 V3: n -sovelluksen variantti. href=”https://twitter.com/awnihannun/status/1904177084609827054″Target=”_ tyhjä”> sen käyttäminen kannettavassa tietokoneessaan . R1T2 Chimera siirtää tämän tehokkuuden onnistuneesti vahvempaan päättelyydinän. Kiinan yrityksen vauhti on pysähtynyt, ja sen odotettavissa oleva R2-malli on nyt loputtomiin viivästynyt. Tämä johtuu sekä sisäisestä suorituskyvyn tyytymättömyydestä että Yhdysvaltain vientivalvontaten vaikutuksista elintärkeisiin AI-siruihin. Saksassa Berliinin tietosuojaviranomainen on pyytänyt Applea ja Googlea poistamaan Deepseek-sovelluksen myymälöistä, merkitsemällä sen “laittoman sisällön”laittomien tiedonsiirtoriskien vuoksi Kiinaan.

Tämä seuraa Yhdysvaltain talon valintakomitean kirottavaa huhtikuun raporttia CCP: n mukaan. Komitean puheenjohtaja John Moolenaar totesi: “Tämä raportti tekee selväksi: Deepseek ei ole vain yksi AI-sovellus-se on ase Kiinan kommunistisen puolueen arsenaalissa…”,”Sovelluksen väittäminen on vakoilun ja tiedonkorjuun työkalu. Nämä ulkoiset paineet luovat monimutkaisen taustan jokaiselle Deepseekin työstä johdettuille tekniikoille. Sen MIT-lisenssi tarjoaa maksimaalisen joustavuuden yksityiselle isännöinnille, räätälöinnille ja käyttöönotolle kaupallisissa sovelluksissa ilman lisensointimaksuja. Päätelmäkustannusten merkittävä väheneminen tekee siitä ihanteellisen korkean suorituskyvyn tai reaaliaikaisen ympäristöön. Se asettaa mallin toivotulle kvadrantille suorituskyvyn verrattuna-kustannuksella.

TNG kuitenkin huomauttaa joitain nykyisiä rajoituksia. Mallia ei ole vielä suositeltavaa käyttötapauksissa, jotka vaativat toimintojen kutsumista tai työkalujen käyttöä, mikä tarkoittaa, että se ei voi luotettavasti olla vuorovaikutuksessa ulkoisten sovellusliittymien kanssa. Tämä rajoittaa sen käyttöä monimutkaisissa, automatisoiduissa työnkulkuissa, vaikka tulevat päivitykset voivat puuttua tähän aukkoon.

Lisäksi yritys kehottaa eurooppalaisia käyttäjiä arvioimaan noudattamista EU AI-lakiin, jolla on ulkopuolinen tavoite. Näistä huomautuksista huolimatta R1T2-kimeeran julkaisu TNG: llä merkitsee merkittävää askeleen modulaarisessa AI-kehityksessä, joka tarjoaa välähdyksen tulevaisuuteen, jossa mallit kootaan, ei vain koulutettu.

DeepSeek R1-0528: Saksalainen yritys julkaisee version Deepseekin AI-mallista, joka toimii kaksi kertaa nopeammin

Published by All Things Windows on July 5, 2025

Kokoonpanokokoonpano: Uusi lähestymistapa mallin luomiseen

IT Info

Microsoft Open-Sources Github Copilot Chat Curtralt-sovelluksen AI-editorin rakentamiseksi

IT Info

Kuinka tyhjentää kiintolevy Windows 11 & 10: ssä

IT Info

Fairphone 6 ansaitsee täydellisen 10/10 korjattavuuspisteen, laskeutuu meihin saaliin

DeepSeek R1-0528: Saksalainen yritys julkaisee version Deepseekin AI-mallista, joka toimii kaksi kertaa nopeammin

Published by All Things Windows on July 5, 2025

Kokoonpanokokoonpano: Uusi lähestymistapa mallin luomiseen

Related Posts

IT Info

Microsoft Open-Sources Github Copilot Chat Curtralt-sovelluksen AI-editorin rakentamiseksi

IT Info

Kuinka tyhjentää kiintolevy Windows 11 & 10: ssä

IT Info

Fairphone 6 ansaitsee täydellisen 10/10 korjattavuuspisteen, laskeutuu meihin saaliin