Deepseek uruchomił swoje najnowsze modele AI open source, Deepseek-R1 i Deepseek-R1-Zero, na nowo definiując sposób, w jaki możliwości rozumowania można osiągnąć poprzez uczenie się wzmocnienia (RL).
NEW modele Wyzwanie konwencjonalne rozwój sztucznej inteligencji, udowadniając, że nadzorowane dopracowanie (SFT) nie jest niezbędne do kultywowania zaawansowanych możliwości rozwiązywania problemów. Dzięki wynikom porównawczym rywalizującym z zastrzeżonymi systemami, takimi jak seria O1 Openai, modele Deepseek ilustrują rosnący potencjał sztucznej inteligencji open source w dostarczaniu konkurencyjnych narzędzi o wysokiej wydajności.
Sukces tych modeli polega na ich unikalnych podejściach do wzmocnienia Uczenie się (RL), wprowadzenie danych na zimno i skuteczny proces destylacji. Te innowacje stworzyły możliwości rozumowania w kodowaniu, matematyce i ogólnych zadaniach logicznych, podkreślając żywotność AI open source jako konkurentów wiodących modeli zastrzeżonych.
Powiązane: Deepseek AI Open AI Open Series VL2 Serie-Surce potencjał
Wydajność Deepseek-R1 w szeroko szanowanych testach porównawczych potwierdza jego możliwości:
W Math-500, zestawie danych zaprojektowanych do oceny matematycznej rozwiązywania problemów, Deepseek-R1 osiągnął wynik@1 wynoszący 97,3%, odpowiadając modelowi O1-1217 Openai. W odniesieniu AIME 2024, który koncentruje się na zaawansowanych zadaniach rozumowania, model uzyskał 79,8%, nieznacznie przewyższając wyniki Openai.
Wydajność modelu w LiveCodeBench, w równym godnym uwagach zadań dotyczących kodowania i logicznych zadań. Pass@1-COT Wynik 65,9%. Według badań Deepseeka sprawia, że jest to jeden z najlepszych wydajności wśród modeli typu open source w tej kategorii.
Firma również zainwestowała również w destylację, zapewniając, że mniejsze wersje DeepSeek-R1 zachowały wiele możliwości rozumowania większych modeli. W szczególności model 32-miliardowy parametrowy, DeepSeek-R1-Distill-Qwen-32B, przewyższył O1-Mini Openai w kilku kategoriach, a jednocześnie był bardziej dostępny obliczeniowo.
Uczenie się wzmocnienia bez nadzoru: DeepSeek-R1-Zero
DeepSeek-R1-Zero to odważna próba eksploracji szkolenia wyłącznie w RL. Wykorzystuje unikalny algorytm, grupowy względny optymalizacja polityki (GRPO), który usprawnia szkolenie RL, eliminując potrzebę osobnego modelu krytyki.
zamiast tego wykorzystuje oceny grupowane do oszacowania linii bazowych, znacznie obniżając koszty obliczeniowe, a Utrzymanie jakości treningu. Takie podejście umożliwia modelu opracowanie zachowań rozumowania, w tym rozumowanie łańcucha (COT) i autorefleksja.
W ich dokument badawczy , zespół Deepseek stwierdził:
„DeepSeek-R1-Zero pokazuje takie możliwości, jak samowystarczalność, refleksja i generowanie długich COT. Jednak zmaga się z powtarzaniem, czytelnością i mieszaniem języków, co czyni go mniej odpowiednim dla rzeczywistych przypadków użycia. “
Podczas gdy te wschodzące zachowania były obiecujące, ograniczenia modelu podkreśliły potrzebę udoskonalenia. Na przykład na przykład , jego wyjścia były czasami powtarzalne lub wykazywały problemy z mieszanym językiem, zmniejszając użyteczność w praktycznych scenariuszach.
Od treningu tylko do RL do hybrydowego: DeepSeek-R1
Aby zająć się tymi wyzwaniami, Deepseek opracował Deepseek-R1, łącząc RL z nadzorowanym dostrajaniem. , Model wszedł do RL z lepszą zdolnością do spełnienia ludzkich oczekiwań dotyczących jasności i znaczenia.
Powiązane: lama AI pod ogniem: czego meta nie mówi o „open source „Modele
Deepseek opisali to podejście w swojej dokumentacji:
„ W przeciwieństwie do R1-Zero, aby zapobiec wczesnej niestabilnej fazie treningu RL na zimno z modelu podstawowego, dla R1 konstruujemy i zbieramy małą Ilość długich danych COT w celu dostosowania modelu jako początkowego aktora RL. “
Rurociąg obejmował również iteracyjne RL do dalszego udoskonalenia rozumowania i rozwiązywania problemów, tworząc model zdolny do obsługi złożonych scenariuszy scenariuszy Jako dowody kodowania i matematyczne.
dostępność open source i przyszłe wyzwania
Deepseek opublikowało swoje modele na licencji MIT, podkreślając swoje zaangażowanie w otwarcie-Zasady źródła. Ten model licencjonowania pozwala badaczom i programistom swobodne korzystanie, modyfikowanie i budowanie pracy Deepseek, wspieranie współpracy i innowacji w społeczności AI.
Pomimo sukcesów zespół uznaje, że wyzwania pozostają. Mieszane wyjścia, szybka czułość i potrzeba lepszych możliwości inżynierii oprogramowania to obszary do poprawy. Przyszłe iteracje DeepSeek-R1 będą miały na celu rozwiązanie tych ograniczeń przy jednoczesnym rozszerzeniu jego funkcjonalności na nowe domeny.
Naukowcy wyrazili optymizm co do swoich postępów, stwierdzając:
„Starając projektowanie wzoru dla zimna-Rozpocznij dane z ludzkimi prioratorami, obserwujemy lepszą wydajność przeciwko Deepseek-R1-Zero. Uważamy, że szkolenie iteracyjne jest lepszym sposobem na rozumowanie modeli. “
Implikacje dla branży AI
Praca Deepseek Sygnało zmianę w krajobrazie badawczym AI , gdzie modele open source mogą teraz konkurować z własnymi liderami. AI open source nadal ewoluuje, postępy Deepseek-R1 zapewniają plan wykorzystania RL w celu uzyskania praktycznych modeli o wysokiej wydajności.