Modeli i ri i arsyetimit të Deepseek të quajtur R1 sfidon performancën e Chatgpt O1 të Openai-edhe pse mbështetet në GPU-të e hedhura dhe një buxhet relativisht të vogël.

Në një mjedis të formuar nga kontrollet e eksportit amerikan që kufizojnë çipat e përparuar, fillimi i inteligjencës artificiale kineze e themeluar nga menaxheri i fondit mbrojtës Liang Wenfeng, ka tregon se si efikasiteti dhe ndarja e burimeve mund të shtyjë zhvillimin e AI përpara.

Rritja e kompanisë ka tërhequr vëmendjen e qarqeve të teknologjisë si në Kinë ashtu edhe në Shtetet e Bashkuara. BASE64, R0LGODLHAQABAAAAAAACH5BAEKAAAAAAAAAAAAAAICTAEAOW==”>

e lidhur : Pse sanksionet e Sh.B.A mund të luftojnë për të frenuar rritjen e teknologjisë së Kinës

​​Deepseek filloi në vitin 2021, kur Liang, i njohur më së miri për Fondi i tregtimit të kuantit , filloi të blinte mijëra GPU të Nvidia.

Në atë kohë, kjo veprim dukej e pazakontë. Si një nga partnerët e biznesit të Liang i tha Times Financiare,”Kur e takuam për herë të parë, Ai ishte ky djalë shumë nerdy me një hairstyle të tmerrshme që fliste për ndërtimin e një grupi 10,000-chip për të trajnuar modelet e tij. Ne nuk e morëm seriozisht.”Kjo ishte e mundur vetëm nga gjigantët si Bytedance dhe Alibaba”.

Pavarësisht skepticizmit fillestar, Liang mbeti i përqendruar në përgatitjen për kontrollet e mundshme të eksportit në Sh.B.A. Kjo parashikim i mundësoi Deepseek të sigurojë një furnizim të madh të pajisjeve NVIDIA, duke përfshirë GPU-të A100 dhe H800, përpara se të hynin në fuqi kufizimet e gjithëpërfshirjes. Modelet

Deepseek bëri tituj duke zbuluar se kishte trajnuar modelin e tij 671-miliardë parametër R1 për vetëm 5.6 milion dollarë duke përdorur 2,048 NVIDIA H800 GPU. Tregu kinez, inxhinierët e Deepseek optimizuan procedurën e trajnimit për të arritur rezultate të nivelit të lartë në një pjesë të kostos së lidhur zakonisht me modele të gjuhës në shkallë të gjerë. > > Botuar nga MIT Technology Review, Zihan Wang, një ish-studiues i Deepseek, përshkruan se si ekipi arriti të zvogëlojë përdorimin e kujtesës dhe sipërme llogaritëse ndërsa ruan saktësinë.

Ai tha se kufizimet teknike i shtynë ata të eksplorojnë strategji të reja inxhinierike, në fund të fundit duke i ndihmuar ata të qëndrojnë konkurrues kundër laboratorëve të teknologjisë amerikane të financuara më mirë. Modeli i arsyetimit DeepSeek R1 dhe pretendenti i Openai O1 është i censuruar shumë

rezultate të jashtëzakonshme në standardet e matematikës dhe kodimit

R1 demonstrojnë aftësi të shkëlqyera në të gjitha standardet e ndryshme të matematikës dhe kodimit. Deepseek zbuloi se R1 shënoi 97.3% (Pass@1) në Math-500 dhe 79.8% në AIME 2024. > Papailiopoulos, një studiues kryesor në Laboratorin AI Frontiers të Microsoft, i tha MIT Technology Review,”Deepseek synonte përgjigje të sakta në vend se të detajonte çdo hap logjik, duke zvogëluar ndjeshëm kohën e llogaritjes duke ruajtur një nivel të lartë të efektivitetit.”

Përtej Modeli kryesor, Deepseek ka lëshuar versione më të vogla të R1 që mund të funksionojnë në harduerin e shkallës së konsumatorit.

DeepSeek ka përsëritur kryesisht O1-Mini dhe e ka buruar atë. pic.twitter.com/2tbq5p5l2c

-Aravind Srinivas (@aravsrinivas) 20 janar 2025

zinxhir-i-mendimit të arsyetimit dhe R1-Zero

Përveç trajnimit standard të R1, Deepseek u fut në mësim të pastër përforcimi me një variant të quajtur R1-Zero. Kjo qasje, e detajuar në dokumentacionin e hulumtimit të kompanisë, hedh poshtë rregullimin e mbikëqyrur në favor të optimizmit të politikës relative të grupit (GRPO).

Duke hequr një model të veçantë kritik dhe duke u mbështetur në rezultatet fillestare të grupuara, R1-zero shfaqi sjellje të arsyetimit të mendimit të arsyetimit dhe vetë-reflektimit. Sidoqoftë, ekipi pranoi që R1-zero prodhoi rezultate të përsëritura ose të gjuhës së përzier, duke treguar një nevojë për mbikëqyrje të pjesshme para se të mund të përdoret në aplikimet e përditshme. shumë laboratorë të pronarit. Ndërsa kompanitë amerikane si Openai, Meta dhe Google Deepmind shpesh mbajnë të fshehura metodat e tyre të trajnimit, Deepseek bën kodin e tij, peshat e modelit dhe recetat e trajnimit në dispozicion të publikut.

i lidhur transparenca dhe përparimi kolektiv. Në një Intervistë Me mediat kineze 36KR, ai shpjegoi se shumë sipërmarrje kineze AI luftojnë me efikasitet në krahasim me bashkëmoshatarët e tyre perëndimorë, Dhe ajo urë e asaj hendeku kërkon bashkëpunim në të dy strategjitë e harduerit dhe trajnimit.

Pikëpamja e tij përputhet me të tjerët në skenën e AI të Kinës, ku lëshimet me burim të hapur janë në rritje. Alibaba Cloud ka prezantuar mbi 100 modele me burim të hapur, dhe 01.AI, e themeluar nga Kai-Fu Lee, kohët e fundit ka partnerizuar me Alibaba Cloud për të krijuar një laborator industrial AI.

Komuniteti global i teknologjisë është përgjigjur me një Përzierje e frikës dhe kujdesit. Në X, Marc Andreessen, bashkë-shpikës i shfletuesit të Uebit të Mozaikut dhe tani një investitor kryesor në Andreessen Horowitz, shkroi,”Deepseek R1 është një nga përparimet më të mahnitshme dhe mbresëlënëse që kam parë ndonjëherë-dhe si burim i hapur, një i thellë Dhurata për botën.”

Deepseek R1 është një nga përparimet më të mahnitshme dhe mbresëlënëse që kam parë ndonjëherë-dhe si burim i hapur, një dhuratë e thellë për botën. >-Marc Andreessen 🇺🇸 (@pmarca) 24 janar 2025

Yann Lecun, Shefi i Shkencëtarëve të AI në Meta, vuri në dukje në LinkedIn se ndërsa arritja e Deepseek mund të duket se tregon Kina duke i tejkaluar Shtetet e Bashkuara, do të ishte më e saktë të thuash që modelet me burim të hapur kolektivisht po kapin alternativat e pronarit.

“Deepseek ka përfituar nga kërkime të hapura dhe burim i hapur (p.sh. Pytorch dhe Llama nga Meta)”, shpjegoi ai.”Ata dolën me ide të reja dhe i ndërtuan në krye të punës së njerëzve të tjerë. Për shkak se puna e tyre është botuar dhe burim i hapur, të gjithë mund të përfitojnë prej saj. Kjo është fuqia e hulumtimit të hapur dhe burimit të hapur.”

Shikoni në temat

Edhe Mark Zuckerberg, Themeluesi dhe CEO i Meta, i la të kuptohet në një rrugë të ndryshme duke njoftuar investime masive në qendrat e të dhënave dhe infrastrukturën GPU. > Në Facebook, ai shkroi,”Ky do të jetë një vit përcaktues për AI.’do të ndërtosh një inxhinier të AI që do të fillojë të kontribuojë sasi në rritje të përpjekjeve tona R&D.’do të sillni online 1gw të llogaritjes në’25 dhe ne do ta përfundojmë vitin me më shumë se 1.3 milion GPU. Kapitali për të vazhduar investimin në vitet në vazhdim. Kjo është një përpjekje masive, dhe gjatë viteve të ardhshme ajo do të drejtojë produktet dhe biznesin tonë thelbësor, do të zhbllokojë inovacionin historik dhe do të zgjasë udhëheqjen e teknologjisë amerikane. Le të shkojmë të ndërtojmë!”

Vërejtjet e Zuckerberg sugjerojnë që strategjitë me intensitet të burimeve mbeten një forcë kryesore në formimin e sektorit të AI.-çfarë meta nuk po ju tregon për modelet”me burim të hapur”

Zgjerimi i ndikimit dhe perspektivat e ardhshme

për Deepseek, kombinimi i talentit lokal, herët Stokimi i GPU-së, dhe një theks në metodat e burimit të hapur e ka shtyrë atë në një qendër të vëmendjes, të rezervuar zakonisht për gjigantët e teknologjisë së madhe. Në korrik 2024, Liang deklaroi se ekipi i tij synonte të adresonte atë që ai e quajti një hendek efikasiteti në AI kineze.

Ai përshkroi shumë kompani lokale të AI që kërkojnë dyfish fuqinë llogaritëse për të përputhur rezultatet e huaja, duke e komplikuar atë më tej kur përdorimi i të dhënave faktorizohet. duke lejuar Liang dhe inxhinierët e tij të përqëndrohen në përparësitë e kërkimit. Liang tha:

“Ne vlerësojmë se modelet më të mira shtëpiake dhe të huaja mund të kenë një hendek të një personi të fortë në strukturën e modelit dhe dinamikën e trajnimit. Vetëm për këtë arsye, ne duhet të konsumojmë dy herë më shumë fuqi informatike për të arritur të njëjtin efekt.

Përveç kësaj, mund të ketë gjithashtu një hendek të një fish në efikasitetin e të dhënave, domethënë, ne duhet të konsumojmë dy herë më shumë të dhëna trajnimi dhe fuqi informatike për të arritur të njëjtin efekt. Së bashku, duhet të konsumojmë katër herë më shumë fuqi informatike. Ajo që duhet të bëjmë është që të ngushtojmë vazhdimisht këto boshllëqe.”Zyrtari më i fuqishëm, ku ai u nxit të përqëndrohej në ndërtimin e teknologjive thelbësore.

Ndërsa e ardhmja mbetet e pasigurt-veçanërisht pasi kufizimet e Sh.B.A-së mund të forcohen më tej-Deepseek qëndron për trajtimin e sfidave në mënyra që shndërrojnë kufizimet në rrugë për zgjidhjen e shpejtë të problemeve.-Këna teknikat e trajnimit, fillimi ka motivuar diskutime më të gjera nëse efikasiteti Arritjet e këtij modeli mund të hapin një rrugë të qëndrueshme për përparimin e AI në një epokë të kufizimeve evolucionare.

Categories: IT Info