Një model i ri i gjuhës së madhe nga Deepseek është shfaqur në heshtje në internet-dhe tashmë është duke tërhequr interes për një arsye të papritur: ajo shkon shpejt në vend në një studio Apple Mac. href=”https://huggingface.co/deepseek-ai/deepseek-v3-0324″target=”_ bosh”> Përqafimi i fytyrës Sot nën një licencë MIT, duke u dhënë zhvilluesve lirinë për ta modifikuar dhe vendosur atë në mënyrë komerciale. Sidoqoftë, ajo që e bën atë të qëndrojë e qëndrueshme është aftësia e saj për të operuar në mënyrë efikase në pajisjet e shkallës së konsumatorit. Zhvilluesi Awni Hannun së pari e shënoi lëshimin pasi e provoi atë në vend.
pic.twitter.com/wfvrfcxgs6
-awni hannun (@Awnihannun) 24 Mars. Ai raportoi shpejtësinë e konkluzionit mbi 20 shenja për sekondë.”Modelshtë modeli më i fuqishëm që kam drejtuar ndonjëherë në laptopin tim,”shkroi ai. Alsoshtë gjithashtu në dispozicion për qasje demo përmes Deepseek-V3-0324 nuk është një model i ri, por kontrolli i parë me peshë të hapur të arkitekturës më të gjerë Deepseek V3 të prezantuar në fund të vitit 2024. Arkitekturë e përzierjes së ekspertëve (MOE). Ndërsa modeli arrin në 685 miliardë parametra, vetëm rreth 37 miliardë janë aktivë në çdo kohë gjatë konkluzionit, gjë që zvogëlon ndjeshëm kërkesat e harduerit. një. Versioni i modelit të mëparshëm shënoi 90.2 në testin MATH-500, duke tejkaluar 74.6 të GPT-4O. Ajo gjithashtu arriti në 79.8 në MGSM dhe përputhej GPT-4O në Humaneval-Mul, një pikë referimi programimi. Ndërsa këto rezultate nuk pasqyrojnë performancën e V3-0324 në mënyrë specifike, ato ofrojnë një dritare në potencialin e arkitekturës. Tencent konfirmuar gjatë