Deepseek, een Chinese startup van de kunstmatige intelligentie, heeft afgelopen weekend de eerste plaats in de Amerikaanse App Store in Apple genomen en het chatgpt van Openai overtroffen in downloads.
De mijlpaal komt na de release van 20 januari van Deepseek’s vlaggenschip redeneermodel, R1, dat snel erkenning heeft gekregen voor zijn vermogen om geavanceerde AI-systemen te concurreren terwijl hij werkt op een fractie van de middelen die doorgaans nodig zijn. > Bron: Sensor Tower
Deepseek R1 biedt geavanceerde prestaties, terwijl tegelijkertijd wordt gecensureerd volgens CCP-regels.
De snelle stijging van de R1-aangedreven app weerspiegelt Deepseek’s innovatieve engineering en strategisch gebruik van NVIDIA H800 GPU’s, die zijn beperkt voor export naar China.
Gerelateerd : Waarom Amerikaanse sancties kunnen moeite hebben om de technische groei van China te beteugelen
Door efficiënte trainingsmethoden te ontwikkelen, heeft het in Hangzhou gebaseerde bedrijf aangetoond dat AI-vooruitgang is mogelijk zelfs onder geopolitieke beperkingen. This development challenges the perception of U.S. dominance in artificial intelligence and raises questions about the effectiveness of export restrictions aimed at curbing China’s technological capabilities.
Building AI Under Restriction: A Resourceful Approach
Het R1-model van Deepseek werd getraind met slechts 2.048 NVIDIA H800 GPU’s tegen een totale kosten van minder dan $ 6 miljoen, volgens een onderzoekspaper dat het bedrijf in december 2024 heeft uitgebracht.
Deze GPU’s zijn opzettelijk doorgegaan Versies van de H100-chips die worden gebruikt door Amerikaanse bedrijven zoals Openai en Meta. Ondanks de hardwarebeperkingen ontwikkelden de ingenieurs van Deepseek nieuwe optimalisatietechnieken waardoor R1 resultaten konden bereiken die vergelijkbaar zijn met modellen die zijn getraind op een veel krachtigere infrastructuur.
oprichter Liang Wenfeng, een voormalige hedgefondsmanager, legden de aanpak van het bedrijf uit tijdens een benadering tijdens een Interview met 36KR.”We moeten vier keer meer rekenkracht consumeren om hetzelfde effect te bereiken,”
gerelateerd: Deepseek AI Open bronnen VL2-serie Vision Language-modellen
Liang zei.”Wat we moeten doen, is deze hiaten voortdurend beperken.”De vooruitziende blik van Liang in het opslaan van NVIDIA GPU’s voordat Amerikaanse beperkingen van kracht werden, was een cruciale factor in het vermogen van het bedrijf om te innoveren onder uitdagende omstandigheden.
De Deepseek’s ingenieurs concentreerden zich ook op het verminderen van geheugengebruik en computationele overhead, waardoor hoge nauwkeurigheid ondanks hardware-beperkingen mogelijk was.. Dimitris Papailiopoulos, een hoofdonderzoeker bij Microsoft’s AI Frontiers Lab, benadrukte de efficiëntie van het ontwerp van R1.
“Ze streefden naar nauwkeurige antwoorden in plaats van elke logische stap te detailleren, waardoor de de computertijd aanzienlijk wordt verkort met behoud van een hoog niveau van effectiviteit,”vertelde hij MIT Technology Review.
prestaties Benchmarks en industrieherkenning
de prestaties van R1 zijn bijzonder sterk geweest op technische benchmarks, waarbij scores van 97,3% op MATH-500 en 79,8% op AIME 2024 zijn geplaatst. Deze resultaten plaatsen R1 naast Openai’s O1-serie, Het aantonen dat het resource-efficiënte model van Deepseek kan concurreren met marktleiders.
Na zijn vlaggenschipmodel heeft Deepseek ook kleinere versies van R1 vrijgegeven die kunnen worden uitgevoerd op hardware van de consument. Ontwikkelaars, opvoeders en hobbyisten. Op sociale media hebben gebruikers voorbeelden van R1-afhandeling van complexe taken zoals webontwikkeling, codering en geavanceerde wiskunde-probleemoplossing.
gerelateerd : Mistral AI Debuts Pixtral 12B voor tekst-en beeldverwerking
Deepseek’s prestaties hebben lof getrokken uit prominente figuren in het AI-veld. Yann Lecun, de belangrijkste AI-wetenschapper van Meta, benadrukte de rol van open-source samenwerking in het succes van Deepseek. ““ Deepseek heeft geprofiteerd van Open Research and Open Source (bijv. Pytorch en Lama van Meta). Ze kwamen met nieuwe ideeën en bouwden ze bovenop het werk van anderen.”Lecun schreef op LinkedIn. Omdat hun werk is gepubliceerd en open source, kan iedereen ervan profiteren. Dat is de kracht van open onderzoek en open source.”
Evenzo beschreef Marc Andreessen, mede-oprichter van Andreessen Horowitz, R1 als”een van de meest verbazingwekkende doorbraken die ik ooit heb gezien.”Deze aantekeningen benadrukken de wereldwijde impact van Deepseek’s vindingrijke benadering van AI-ontwikkeling.
Betaalbaarheid en open-source ethos
In tegenstelling tot eigen platforms zoals Openai’s Chatgpt, heeft Deepseek een open-source filosofie omarmd. Gewichten, trainingsrecepten en documentatie openbaar beschikbaar, waardoor ontwikkelaars wereldwijd kunnen repliceren of voortbouwen op zijn werk. De populariteit van R1. De app is gratis te gebruiken en API-toegang is aanzienlijk lager geprijsd dan het aanbod van concurrenten. Deze prijsstrategieën, gecombineerd met de robuuste mogelijkheden van het model, hebben Deepseek tot een aantrekkelijke optie gemaakt voor zowel individuen als bedrijven. U over”Open Source”-modellen
Geopolitieke implicaties van het succes van Deepseek
Deepseek’s opkomst komt in een tijd van verhoogde geopolitieke spanningen tussen de Verenigde Staten en China, Vooral op het gebied van kunstmatige intelligentie. dat dergelijke maatregelen innovatie mogelijk niet volledig voorkomen. Liang’s strategie voor het opslaan van GPU’s en het focussen op efficiëntie heeft bewezen dat beperkingen creatieve probleemoplossing kunnen stimuleren in plaats van het volledig te onderdrukken.
Gerelateerd: nieuwe US AI ChIP Export Rules Face Industry Backlash door Nvidia en anderen
Een bredere beweging in de Chinese AI
De diepe-source-aanpak van Deepseek sluit aan bij een bredere trend in de AI-sector van China. Andere bedrijven, waaronder Alibaba Cloud en Kai-Fu Lee’s 01.AI, hebben de afgelopen jaren ook prioriteit gegeven aan open-source-initiatieven. Liang heeft de noodzaak beschreven om aan te pakken wat hij een”efficiëntiekloof”noemt”tussen Chinese en Western AI-ondernemingen, waarin wordt uitgelegd dat lokale bedrijven vaak het dubbele van de middelen nodig hebben om vergelijkbare resultaten te bereiken.
gerelateerd: Alibaba Qwen geeft QVQ-72B-preview multimodaal redeneren AI-model uit
In juli 2024 verklaarde Liang: “We schatten dat de beste binnenlandse en buitenlandse modellen een kloof kunnen hebben van een-voudig in de modelstructuur en Trainingsdynamiek. Alleen al om deze reden moeten we twee keer zoveel rekenkracht consumeren om hetzelfde effect te bereiken. Gegevens trainen en rekenkracht om hetzelfde effect te bereiken. We moeten vier keer meer rekenkracht consumeren.
Zijn leiderschap heeft deepseek erkenning verdiend, zowel binnen China als internationaal. In 2024 werd hij uitgenodigd voor vergaderingen op hoog niveau met Chinese functionarissen om strategieën te bespreken voor het bevorderen van de AI-mogelijkheden van het land.
toekomstige uitdagingen en kansen
als strategieën Deepseek blijft zijn modellen verfijnen, het bedrijf wordt geconfronteerd met zowel kansen als uitdagingen. Hoewel de prestaties de levensvatbaarheid van hulpbronnen-efficiënte AI hebben bewezen, blijven er vragen over de vraag of dergelijke benaderingen kunnen schalen om te concurreren met de massale investeringen van tech-reuzen zoals Openai en Meta.
in een post na de Deepseek R1-release , Mark Zuckerberg, CEO van Meta, heeft het belang van grootschalige investeringen in AI-infrastructuur benadrukt, Sying “Dit zal een bepalend jaar voor AI zijn. In 2025 verwacht ik dat Meta AI de toonaangevende assistent zal zijn die meer dan 1 miljard mensen bedient, Lama 4 wordt het toonaangevende ultramoderne model, en we zullen een AI-ingenieur bouwen die zal beginnen bij het bijdragen van toenemende hoeveelheden code naar onze R & D-inspanningen. Om dit van stroom te voorzien, bouwt Meta een 2GW+ datacenter dat zo groot is dat het een aanzienlijk deel van Manhattan zou dekken.
We brengen online ~ 1GW van Compute in ’25 en we zullen het jaar eindigen met meer dan 1,3 miljoen GPU’s. We zijn van plan dit jaar $ 60-65B in Capex te investeren, terwijl we onze AI-teams ook aanzienlijk laten groeien, en we hebben het kapitaal om te blijven investeren in de komende jaren. Dit is een enorme inspanning, en in de komende jaren zal het onze kernproducten en bedrijven stimuleren, historische innovatie ontgrendelen en het leiderschap van de Amerikaanse technologie uitbreiden. Laten we gaan bouwen!”
Het succes van Deepseek met R1 heeft aangetoond dat innovatie niet alleen het domein is van de meest goed gefinancierde spelers. Door prioriteit te geven aan efficiëntie, transparantie en toegankelijkheid, heeft het bedrijf een blijvende impact op de wereldwijde AI-industrie.