Nakuha ng DeepSeek, isang Chinese artificial intelligence startup, ang nangungunang puwesto sa U.S. App Store ng Apple noong nakaraang weekend, na nalampasan ang ChatGPT ng OpenAI sa mga pag-download.

Ang milestone ay dumating pagkatapos ng Enero 20 na paglabas ng pangunahing modelo ng pangangatwiran ng DeepSeek, ang R1, na mabilis na nakakuha ng pagkilala sa kakayahan nitong makipaglaban sa mga advanced na AI system habang tumatakbo sa isang bahagi ng mga mapagkukunang karaniwang kinakailangan.

Pinagmulan: Sensor Tower

Ang DeepSeek R1 ay nagbibigay ng mahusay na pagganap, habang kasabay na sini-censor ayon sa mga panuntunan ng CCP.

Ang mabilis na pagtaas ng app na pinapagana ng R1 ay sumasalamin sa makabagong engineering at madiskarteng paggamit ng DeepSeek ng mga Nvidia H800 GPU, na pinaghihigpitan para sa pag-export sa U.S. China.

Nauugnay: Bakit Maaaring Makipagpunyagi ang Mga Sanction ng U.S. na Pigilan ang Tech Growth ng China

Sa pamamagitan ng pagbuo ng mahusay na mga pamamaraan ng pagsasanay, ipinakita ng kumpanyang nakabase sa Hangzhou na ang pagsulong ng AI ay posible kahit sa ilalim ng geopolitical na mga hadlang. Hinahamon ng pag-unlad na ito ang pang-unawa sa pangingibabaw ng U.S. sa artificial intelligence at itinataas ang mga tanong tungkol sa pagiging epektibo ng mga paghihigpit sa pag-export na naglalayong pigilan ang mga teknolohikal na kakayahan ng China.

Building AI Under Restriction: A Resourceful Approach

Ang modelong R1 ng DeepSeek ay sinanay gamit lamang ang 2,048 Nvidia H800 GPU sa kabuuang halaga na mas mababa $6 milyon, ayon sa isang research paper na inilabas ng kumpanya noong Disyembre 2024.

Ang mga GPU na ito ay sadyang naka-throttle na mga bersyon ng H100 chips na ginagamit ng mga kumpanya sa U.S. tulad ng OpenAI at Meta. Sa kabila ng mga limitasyon sa hardware, ang mga inhinyero ng DeepSeek ay bumuo ng mga bagong diskarte sa pag-optimize na nagpapahintulot sa R1 na makamit ang mga resulta na maihahambing sa mga modelong sinanay sa mas makapangyarihang imprastraktura.

Ang Tagapagtatag na si Liang Wenfeng, isang dating hedge fund manager, ay ipinaliwanag ang diskarte ng kumpanya sa panahon ng isang panayam kay 36Kr. “Kailangan nating gumamit ng apat na beses na mas maraming computing power para makamit ang parehong epekto,”

Kaugnay: DeepSeek AI Open Sources VL2 Series of Vision Language Models

Sinabi ni Liang.”Ang kailangan nating gawin ay patuloy na paliitin ang mga puwang na ito.”Ang pag-iintindi ni Liang sa pag-iimbak ng mga Nvidia GPU bago magkabisa ang mga paghihigpit sa U.S. ay isang kritikal na salik sa kakayahan ng kumpanya na mag-innovate sa ilalim ng mapaghamong mga pangyayari.

Ang mga inhinyero ng DeepSeek ay tumutuon din sa pagbabawas ng paggamit ng memorya at computational overhead, na nagbibigay-daan sa mataas na katumpakan sa kabila ng mga hadlang sa hardware.. Itinampok ni Dimitris Papailiopoulos, isang punong mananaliksik sa AI Frontiers lab ng Microsoft, ang kahusayan ng disenyo ng R1.

“Layunin nila ang mga tumpak na sagot sa halip na idedetalye ang bawat lohikal na hakbang, makabuluhang binabawasan ang oras ng pag-compute habang pinapanatili ang mataas na antas ng pagiging epektibo,”sinabi niya sa MIT Technology Review.

Performance Mga Benchmark at Pagkilala sa Industriya

Ang pagganap ng R1 ay partikular na malakas sa mga teknikal na benchmark, na nakakuha ng mga marka ng 97.3% sa MATH-500 at 79.8% sa AIME 2024. Ang mga resultang ito ay naglalagay ng R1 sa tabi ng o1 series ng OpenAI, na nagpapakita na ang modelong mahusay sa mapagkukunan ng DeepSeek ay maaaring makipagkumpitensya sa mga lider ng industriya.

Higit pa sa pangunahing modelo nito, ang DeepSeek ay naglabas din ng mas maliliit na bersyon ng R1 na may kakayahang ng pagpapatakbo sa consumer-grade hardware na ito ay nagpalawak ng apela ng modelo sa mga developer, educator, at mga hobbyist media, ang mga user ay nagbahagi ng mga halimbawa ng R1 sa paghawak ng mga kumplikadong gawain gaya ng web development, coding, at advanced na paglutas ng problema sa matematika.

Kaugnay: Mistral AI Debuts Pixtral 12B para sa Teksto at Larawan Pagproseso

Ang mga nagawa ng DeepSeek ay umani ng papuri mula sa mga kilalang tao sa larangan ng AI. Binigyang-diin ni Yann LeCun, ang Chief AI Scientist ng Meta, ang papel ng open-source na pakikipagtulungan sa tagumpay ng DeepSeek.””Nakinabang ang DeepSeek mula sa open research at open source (hal., PyTorch at Llama mula sa Meta). Nakaisip sila ng mga bagong ideya at itinayo ang mga ito sa ibabaw ng trabaho ng ibang tao.”Sumulat si LeCun sa LinkedIn. Dahil ang kanilang trabaho ay na-publish at open source, lahat ay maaaring kumita mula dito. Iyan ang kapangyarihan ng open research at open source.”

Katulad nito, inilarawan ni Marc Andreessen, co-founder ng Andreessen Horowitz, ang R1 bilang”isa sa mga pinakakahanga-hangang tagumpay na nakita ko.”Itinatampok ng mga pag-endorso na ito ang pandaigdigang epekto ng DeepSeek’s maparaan na diskarte sa pagbuo ng AI.

Affordability at Open-Source Ethos

Hindi tulad ng mga proprietary platform gaya ng OpenAI’s ChatGPT, tinanggap ng DeepSeek ang isang open-source na pilosopiya. Ginawa ng kumpanya na available sa publiko ang mga timbang ng modelo ng R1, mga recipe ng pagsasanay, at dokumentasyon, na nagpapahintulot sa mga developer sa buong mundo na kopyahin o buuin ang gawain nito Magkahiwalay ang DeepSeek sa isang industriya na kadalasang nailalarawan sa pamamagitan ng pagiging lihim.

Ang pagiging abot-kaya ay naging pangunahing salik din sa katanyagan ng R1. Libre ang paggamit ng app, at ang pag-access sa API ay mas mababa ang presyo kaysa sa mga alok ng mga kakumpitensya. Ang mga diskarte sa pagpepresyo na ito, na sinamahan ng matatag na kakayahan ng modelo, ay ginawa ang DeepSeek na isang kaakit-akit na opsyon para sa mga indibidwal at negosyo.

Kaugnay: LLaMA AI Under Fire – What Meta Isn’t Telling Ikaw Tungkol sa Mga Modelong “Open Source”

Mga Heopolitical na Implikasyon ng Tagumpay ng DeepSeek

Ang pag-angat ng DeepSeek ay dumating sa panahon ng mas mataas na geopolitical na tensyon sa pagitan ng United States at China, partikular sa larangan ng artificial intelligence

Mula noong 2021, pinalawak ng administrasyong Biden ang mga paghihigpit sa pag-export ng mga advanced na chips. sa China, na naglalayong limitahan ang kakayahan ng bansa na bumuo ng mga mapagkumpitensyang teknolohiya ng AI Gayunpaman, ang mga tagumpay ng DeepSeek ay nagmumungkahi na ang mga naturang hakbang ay maaaring hindi ganap na maiwasan pagbabago.

Ang tagumpay ng kumpanya ay nag-udyok ng mga debate sa loob ng mga lupon ng teknolohiya ng U.S. tungkol sa hindi sinasadyang mga kahihinatnan ng mga kontrol sa pag-export. Nagtatalo ang ilang mga executive na ang mga paghihigpit na ito ay maaaring nagtutulak ng mapamaraang pagbabago sa mga kumpanyang Tsino. Ang diskarte ni Liang sa pag-iimbak ng mga GPU at pagtutok sa kahusayan ay napatunayan na ang mga hadlang ay maaaring mag-udyok sa malikhaing paglutas ng problema sa halip na ganap itong pigilan.

Kaugnay: Bagong US AI Chip Export Rules Face Industry Backlash ni Nvidia at Iba pa

Isang Mas Malawak na Kilusan sa Chinese AI

Nakaayon ang open-source na diskarte ng DeepSeek na may mas malawak na kalakaran sa sektor ng AI ng China. Ang iba pang mga kumpanya, kabilang ang Alibaba Cloud at Kai-Fu Lee’s 01.AI, ay nagbigay-priyoridad din sa mga open-source na inisyatiba sa mga nakaraang taon. Inilarawan ni Liang ang pangangailangang tugunan ang tinatawag niyang”efficiency gap”sa pagitan ng Chinese at Western AI ventures, na ipinapaliwanag na ang mga lokal na kumpanya ay madalas na nangangailangan ng dobleng mga mapagkukunan upang makamit ang maihahambing na mga resulta.

Kaugnay: Alibaba Qwen Releases QVQ-72B-Preview Multimodal Reasoning AI Model

Noong Hulyo 2024, sinabi ni Liang, “Tinatantya namin na ang pinakamahusay na domestic at foreign models maaaring magkaroon ng isang puwang sa istraktura ng modelo at dynamics ng pagsasanay Para sa kadahilanang ito lamang, kailangan nating kumonsumo ng dalawang beses na mas maraming kapangyarihan sa pag-compute upang makamit ang parehong epekto ang kahusayan, ibig sabihin, kailangan nating kumonsumo ng dalawang beses na mas maraming data ng pagsasanay at kapangyarihan sa pag-compute upang makamit ang parehong epekto, kailangan nating kumonsumo ng apat na beses na mas maraming kapangyarihan sa pag-compute.

Ang kanyang pamumuno ay nakakuha ng DeepSeek na pagkilala sa loob ng China at sa buong mundo. Noong 2024, inimbitahan siya sa mga high-level na pagpupulong kasama ang mga opisyal ng China para talakayin ang mga estratehiya para sa pagsulong ng mga kakayahan ng AI ng bansa.

Mga Hinaharap na Hamon at Oportunidad

Bilang Patuloy na pinipino ng DeepSeek ang mga modelo nito, nahaharap ang kumpanya sa parehong mga pagkakataon at hamon. Bagama’t napatunayan ng mga nakamit nito ang posibilidad na mabuhay ng AI na mahusay sa mapagkukunan, nananatili ang mga tanong tungkol sa kung ang mga naturang diskarte ay maaaring lumaki upang makipagkumpitensya sa napakalaking pamumuhunan ng mga higanteng teknolohiya tulad ng OpenAI at Meta.

Sa isang post pagkatapos ng paglabas ng DeepSeek R1 Binigyang-diin ni Mark Zuckerberg, CEO ng Meta, ang kahalagahan ng malakihang pamumuhunan sa imprastraktura ng AI, na nagsasabing “Ito ay magiging isang tiyak na taon para sa AI. Sa 2025, inaasahan kong ang Meta AI ang magiging nangungunang assistant na naglilingkod sa higit sa 1 bilyong tao, ang Llama 4 ang magiging nangungunang makabagong modelo, at bubuo kami ng AI engineer na magsisimulang mag-ambag ng dumaraming code. sa aming mga pagsisikap sa R&D. Para mapagana ito, ang Meta ay nagtatayo ng 2GW+ datacenter na napakalaki nito na sasakupin ang malaking bahagi ng Manhattan.

Magdadala kami online ng ~1GW ng compute sa’25 at tatapos namin ang taon na may higit sa 1.3 milyong GPU. Nagpaplano kaming mag-invest ng $60-65B sa capex ngayong taon habang malaki rin ang pagpapalaki ng aming mga AI team, at may puhunan kaming ipagpatuloy ang pamumuhunan sa mga susunod na taon. Ito ay isang napakalaking pagsisikap, at sa mga darating na taon ito ay magtutulak sa aming mga pangunahing produkto at negosyo, magbubukas ng makasaysayang pagbabago, at magpapalawak ng pamumuno sa teknolohiya ng Amerika. Let’s go build!”

Sa ngayon, ang tagumpay ng DeepSeek sa R1 ay nagpakita na ang innovation ay hindi lamang domain ng mga manlalarong may pinakamaraming pinondohan. Sa pamamagitan ng pagbibigay-priyoridad sa kahusayan, transparency, at accessibility, ang kumpanya ay gumawa ng isang pangmatagalang epekto sa pandaigdigang industriya ng AI.

Categories: IT Info