Nowy model rozumowania DeepSeek o nazwie R1 stanowi wyzwanie dla wydajności ChatGPT o1 OpenAI — mimo że opiera się on na dławionych procesorach graficznych i stosunkowo niewielkim budżecie.
W środowisku ukształtowanym przez amerykańską kontrolę eksportu ograniczającą zaawansowane chipy, chiński startup zajmujący się sztuczną inteligencją założony przez zarządzającego funduszem hedgingowym Lianga Wenfenga pokazuje, jak wydajność i dzielenie się zasobami mogą przyspieszyć rozwój sztucznej inteligencji.
Rozwój firmy przyciągnął uwagę kręgów technologicznych zarówno w Chinach, jak i Stanach Zjednoczonych. DeepSeek R1 zapewnia najnowocześniejszą wydajność, a jednocześnie jest cenzurowany zgodnie z zasadami KPCh.
fundusz handlu ilościowego High-Flyer rozpoczął zakup tysięcy procesorów graficznych Nvidia.
W tamtym czasie to posunięcie wydawało się niezwykłe. Jak powiedział Financial Times jeden z partnerów biznesowych Lianga : „Kiedy go spotkaliśmy po raz pierwszy, był to bardzo kujon z okropną fryzurą, opowiadający o zbudowaniu klastra o pojemności 10 000 żetonów do szkolenia własnych modeli. Nie potraktowaliśmy go poważnie.”
Według tego samego źródła „Nie mógł wyrazić swojej wizji inaczej niż powiedzieć: Chcę to zbudować i to będzie zmiana zasad gry. Pomyśleliśmy, że było to możliwe tylko dzięki gigantom takim jak ByteDance i Alibaba.”
Pomimo początkowego sceptycyzmu Liang nadal skupiał się na przygotowaniach do potencjalnych kontroli eksportu przez USA. To przewidywanie umożliwiło firmie DeepSeek zabezpieczenie dużej podaży sprzętu Nvidia, w tym procesorów graficznych A100 i H800, zanim weszły w życie szeroko zakrojone ograniczenia.
Powiązane: DeepSeek AI Open Sources Seria języków wizyjnych VL2 Modele
DeepSeek trafił na pierwsze strony gazet, ujawniając, że wytrenował swój model R1 o 671 miliardach parametrów za jedyne 5,6 miliona dolarów przy użyciu 2048 procesorów graficznych Nvidia H800.
Chociaż wydajność H800 została celowo ograniczona na rynek chiński ze względu na amerykańskie ograniczenia eksportowe do Chin, inżynierowie DeepSeek zoptymalizowali procedurę szkoleniową, aby osiągnąć wysokie wyniki za ułamek typowych kosztów powiązane z wielkoskalowymi modelami językowymi.
W wywiad opublikowany przez MIT Technology Review, Zihan Wang, a były badacz DeepSeek, opisuje, jak zespołowi udało się zmniejszyć zużycie pamięci i obciążenie obliczeniowe, zachowując jednocześnie dokładność.
Powiedział, że ograniczenia techniczne popchnęły ich do poszukiwania nowatorskich strategii inżynieryjnych, co ostatecznie pomogło im zachować konkurencyjność w stosunku do lepiej finansowanych amerykańskich laboratoriów technologicznych.
Powiązane: Chińskie laboratoria Model rozumowania DeepSeek R1 i konkurent OpenAI o1 są mocno cenzurowane
Wyjątkowe wyniki w testach porównawczych z matematyki i kodowania
R1 wykazuje doskonałe możliwości w różnych testach matematycznych i kodowania. DeepSeek ujawnił, że R1 uzyskał 97,3% (Pass@1) w MATH-500 i 79,8% w AIME 2024.
Liczby te dorównują serii o1 OpenAI, pokazując, jak przemyślana optymalizacja może stanowić wyzwanie dla modeli trenowanych na mocniejszych chipach.
Dimitris Papailiopoulos, główny badacz w laboratorium AI Frontiers firmy Microsoft, powiedział MIT Technology Review: „DeepSeek skupiał się na dokładnych odpowiedziach, a nie na szczegółowym opisywania każdego logicznego kroku, co znacznie skraca czas obliczeń przy zachowaniu wysokiego poziomu efektywności.”
Oprócz modelu głównego firma DeepSeek wypuściła mniejsze wersje R1, które można uruchomić na sprzęcie klasy konsumenckiej. Aravind Srinivas, dyrektor generalny Perplexity, napisał na Twitterze w odniesieniu do kompaktowego warianty: „DeepSeek w dużej mierze zreplikował o1-mini i pozyskał je na zasadach open source.”
DeepSeek w dużej mierze zreplikował o1-mini i pozyskał je na zasadach open source. pic.twitter.com/2TbQ5p5l2c
— Aravind Srinivas (@AravSrinivas) 20 stycznia 2025
Rozumowanie oparte na łańcuchu myśli i R1-Zero
Oprócz R1 standardowego szkolenia, firma DeepSeek odważyła się na naukę wyłącznie przez wzmacnianie, oferując wariant o nazwie R1-Zero. Podejście to, szczegółowo opisane w dokumentacji badawczej firmy, odrzuca nadzorowane dostrajanie na rzecz optymalizacji polityki względnej grupy (GRPO).
Usuwając oddzielny model krytyki i opierając się na zgrupowanych wynikach bazowych, R1-Zero wykazał się rozumowaniem opartym na łańcuchu myślowym i zachowaniami autorefleksyjnymi. Zespół przyznał jednak, że wyniki R1-Zero są powtarzalne lub wielojęzyczne, co wskazuje na potrzebę częściowego nadzoru, zanim będzie można go używać w codziennych zastosowaniach.
Etos otwartego oprogramowania DeepSeek odróżnia go od innych wiele własnych laboratoriów. Podczas gdy amerykańskie firmy, takie jak OpenAI, Meta i Google DeepMind, często ukrywają swoje metody szkoleniowe, DeepSeek udostępnia publicznie swój kod, wagi modeli i przepisy szkoleniowe.
Powiązane: Mistral AI debiutuje Pixtral 12B do przetwarzania tekstu i obrazu
Według Lianga takie podejście wynika z chęci zbudowania kultury badawczej, która faworyzuje przejrzystość i wspólny postęp. W wywiad z chińskimi mediami 36Kr wyjaśnił, że wiele chińskich przedsiębiorstw zajmujących się sztuczną inteligencją ma problemy z wydajnością w porównaniu z ich zachodnimi odpowiednikami, oraz że wypełnienie tej luki wymaga współpracy zarówno w zakresie sprzętu, jak i strategii szkoleniowych.
Jego punkt widzenia jest zgodny z punktem widzenia innych przedstawicieli chińskiej sceny AI, gdzie rośnie liczba wydań oprogramowania typu open source. Alibaba Cloud wprowadziła ponad 100 modeli open source, a 01.AI, założona przez Kai-Fu Lee, niedawno nawiązała współpracę z Alibaba Cloud w celu utworzenia przemysłowego laboratorium sztucznej inteligencji.
Globalna społeczność technologiczna zareagowała mieszanina podziwu i ostrożności. W serwisie X Marc Andreessen, współtwórca przeglądarki internetowej Mosaic, a obecnie wiodący inwestor w firmie Andreessen Horowitz, napisał: „Deepseek R1 to jedno z najbardziej niesamowitych i imponujących przełomów, jakie kiedykolwiek widziałem — a jako oprogramowanie typu open source stanowi głębokie prezent dla świata.”
Deepseek R1 to jedno z najbardziej niesamowitych i imponujących przełomów, jakie kiedykolwiek widziałem — a jako oprogramowanie typu open source jest głębokim darem dla świat 🤖🫡
— Marc Andreessen 🇺🇸 (@pmarca) 24 stycznia 2025
Yann LeCun, główny specjalista ds. sztucznej inteligencji w firmie Meta, zauważył na LinkedIn, że choć osiągnięcie DeepSeek może wydawać się wskazywać, że Chiny wyprzedziły Stany Zjednoczone, trafniejsze byłoby stwierdzenie, że modele open source łącznie doganiają zastrzeżone alternatywy.
„DeepSeek czerpie korzyści z otwartych badań i otwartego oprogramowania (np. PyTorch i Llama firmy Meta)” – wyjaśnił. „Wymyślili nowe pomysły i opracowali je na podstawie pracy innych osób. Ponieważ ich prace są publikowane i mają otwarte oprogramowanie, każdy może na nich zyskać. Na tym polega siła otwartych badań i otwartego oprogramowania.”
Wyświetl wątki
Mark Zuckerberg, założyciel i dyrektor generalny Meta, zasugerował inną ścieżkę rozwoju sztucznej inteligencji w 2025 r., ogłaszając ogromne inwestycje w centrach danych i infrastrukturze GPU.
Na Facebooku napisał: „To będzie decydujący rok dla sztucznej inteligencji. Spodziewam się, że rok 2025 Meta AI będzie wiodącym asystentem obsługującym ponad miliard ludzi, Llama 4 stanie się wiodącym, najnowocześniejszym modelem, a my zbudujemy inżyniera sztucznej inteligencji, który zacznie wnosić coraz większe ilości kodu do naszych wysiłków badawczo-rozwojowych. Aby to osiągnąć, Meta buduje centrum danych o mocy ponad 2 GW, które jest tak duże, że pomieściłoby ok znaczna część Manhattan.
W roku 25 udostępnimy online moc obliczeniową ~1 GW i zakończymy rok z ponad 1,3 milionami procesorów graficznych. Planujemy również w tym roku zainwestować 60–65 miliardów dolarów w nakłady inwestycyjne znacząco rozwijamy nasze zespoły AI i mamy kapitał, aby kontynuować inwestycje w nadchodzących latach. Jest to ogromny wysiłek, który w nadchodzących latach będzie napędzał nasze podstawowe produkty i działalność, odblokuje historyczne innowacje i wzmocni wiodącą pozycję Ameryki w technologii. Chodźmy budować!”
Uwagi Zuckerberga sugerują, że strategie wymagające dużych zasobów pozostają główną siłą kształtującą sektor sztucznej inteligencji.
Powiązane: LLaMA AI pod ostrzałem – Czego meta nie mówi Ci o modelach „otwartego oprogramowania”
Poszerzanie wpływu i perspektywy na przyszłość
W przypadku DeepSeek jest to połączenie lokalne talenty, wczesne gromadzenie zapasów procesorów graficznych i nacisk na metody open source sprawiły, że firma znalazła się w centrum uwagi zwykle zarezerwowanej dla dużych gigantów technologicznych. W lipcu 2024 r. Liang oświadczył, że jego zespół dąży do usunięcia, jak to określił, luki w wydajności w chińskiej sztucznej inteligencji.
Opisał wiele lokalnych firm zajmujących się sztuczną inteligencją, które wymagają podwójnej mocy obliczeniowej, aby dorównać wynikom za granicą, co jeszcze bardziej zwiększa się, gdy uwzględni się wykorzystanie danych. Zyski funduszu hedgingowego z High-Flyer zapewniają DeepSeek bufor przed bezpośrednimi presjami komercyjnymi, pozwalając Liangowi i jego inżynierom skoncentrować się na priorytetach badawczych. Liang powiedział:
„Szacujemy, że najlepsze modele krajowe i zagraniczne mogą wykazywać jednokrotną różnicę w strukturze modelu i dynamice uczenia się. Już choćby z tego powodu, aby uzyskać ten sam efekt, musimy zużyć dwukrotnie większą moc obliczeniową.
Ponadto może wystąpić jednokrotna różnica w wydajności danych, co oznacza, że aby osiągnąć ten sam efekt, musimy zużyć dwukrotnie więcej danych szkoleniowych i mocy obliczeniowej. Razem musimy zużywać czterokrotnie więcej mocy obliczeniowej. Musimy stale zmniejszać te luki.”
Reputacja DeepSeek w Chinach również wzrosła, gdy Liang został jedynym liderem AI zaproszonym na głośne spotkanie z Li Qiangiem, drugim dyrektorem ds. sztucznej inteligencji w tym kraju najpotężniejszego urzędnika, gdzie namawiano go do skupienia się na budowaniu podstawowych technologii
Analitycy postrzegają to jako kolejny sygnał, że Pekin mocno stawia na mniejszych, rodzimych innowatorów, aby przesuwali granice sztucznej inteligencji w obszarze sprzętu. ograniczenia.
Chociaż przyszłość pozostaje niepewna – zwłaszcza że ograniczenia w USA mogą się jeszcze bardziej zaostrzyć – DeepSeek wyróżnia się tym, że potrafi stawić czoła wyzwaniom w sposób, który przekształca ograniczenia w możliwości szybkiego rozwiązywania problemów
Przez publikując swoje przełomy i oferując techniki szkoleniowe na mniejszą skalę, start-up stał się motywacją do szerszych dyskusji na temat tego, czy efektywne gospodarowanie zasobami może poważnie konkurować z ogromnymi klastrami superkomputerowymi
W miarę kontynuacji DeepSeek udoskonalając R1, inżynierowie i decydenci po obu stronach Pacyfiku uważnie obserwują, czy osiągnięcia tego modelu mogą wytyczyć trwałą drogę postępu AI w epoce ewoluujących ograniczeń.