Deepseek zakłada, że wyrównane modele AI nie muszą być szkolone bez końca-potrzebują lepszych sposobów rozumowania poprzez ich generowanie. We współpracy z Uniwersytetem Tsinghua firma wprowadziła nową metodę zwaną samodzielną krytyką strojenia (SPCT), generatywną technikę modelowania nagrody zaprojektowaną do działania podczas wnioskowania zamiast wymagania danych preferencyjnych podczas szkolenia.
Spct została wprowadzona w artykuł badawczy opublikowany 4 kwietnia i przetestowany w modelu o nazwie DeepSeek-Grm-27b. Wyniki są uderzające.
, a nie w zależności od statycznych ludzkich adnotacji, SPCT umożliwia modele dynamicznie udoskonalić swoje wyniki przy użyciu samodzielnych zasad i pętli krytyki podczas wnioskowania. Rezultat: zmniejszone koszty, lepsza skalowalność i najnowocześniejsza wydajność z mniejszymi modelami.
Na jego rdzeniu jest podejście, które osiągnie wysoką liczbę cyfry przez optymalizację rozumu o swoim rozumu o rzędu. Model 27 miliardów parametrów DeepSeek-GRM z wykorzystaniem SPCT osiąga wynik MT Bench wynoszący 8,35-modele przenoszące wyszkolone z bezpośrednią optymalizacją preferencji (DPO), które wyniki 7,58-bez wzrostu wielkości modelu.
Niezależne odniesienia dodatkowo potwierdzają, że SPCT umożliwia mniejszym modelom dopasowanie wydajności znacznie większych odpowiedników, takich jak modele w skali 671B, poprzez wykorzystanie obliczeń czasu wnioskowania z 32 próbkami na zapytanie.
Ten proces wyrównania jest zaprojektowany do skalowania z wielkością modelu. Według artykułu przewaga SPCT staje się bardziej widoczna wraz ze wzrostem modeli, oferując obiecującą ścieżkę do przodu dla programistów AI, którzy chcą uniknąć objęcia obliczeniowej trasy wzmocnienia na podstawie ludzkich informacji zwrotnych (RLHF).
Recursive Architektura za SPCT
w sercu SPCT jest multi-podpisem, który zastępuje statyczną, która zastępuje statyczną Labie, które zastępuje statyczną Labie z LOOP z LOOP LOOP z LOOP z LOOP. Synteza zasad, generowanie odpowiedzi, filtrowanie krytyki i udoskonalenie zasad. Każdy etap opiera się na ostatnim, aby stopniowo poprawić jakość i wyrównanie wyników modelu.
Proces rozpoczyna się od generowania zasad specyficznych dla kontekstu przy użyciu podpowiedzi. Na przykład podczas obsługi zadań związanych z kodowaniem model może ustalić, że wydajność pamięci powinna mieć pierwszeństwo przed czasem wykonawczym i czytelnością. Zasady te kierują następną fazą, w której model generuje początkową odpowiedź w ograniczonym oknie 4096-letnim.
Po uzyskaniu początkowej odpowiedzi model angażuje się w samokrytykę. Ocenia swój wynik pod kątem zsyntetyzowanych zasad i generuje informacje zwrotne w celu poprawy. Krytyki te są filtrowane w czasie rzeczywistym przez model meta nagrody (Meta-RM), który wykorzystuje 512-wymiarowe osadzanie nagrody, aby zdobyć jakość każdej krytyki. Krytyki o niskiej jakości są odrzucane, aby zapewnić integralność cyklu udoskonalania.
Ostatnim krokiem w pętli jest udoskonalanie zasadnicze. Korzystając z optymalizacji opartej na gradientach, model dostosowuje wewnętrzną heurystykę wyrównania w oparciu o to, jak dobrze krytyka odpowiada zamierzonej reakcji. To rekurencyjne strojenie pozwala modelu iteracyjnie zbliżyć się do wysokiej jakości wyjść, dynamiczne dostosowanie się do specyfikacji każdego zapytania bez wymagania interwencji zewnętrznej lub przekwalifikowania.
Optymalizacja wnioskowania poprzez projektowanie sprzętowe
jest możliwe, że architektura sprzętowa jest, która obejmuje, która obejmuje mieszankę (MEE>
SPCT, możliwe. Model GRM-27B zatrudnia 16 ekspertów, z tylko dwoma aktywowanymi na token i obsługuje okna kontekstowe do 128 000 tokenów. Wykonanie spekulacyjne dodatkowo zwiększa wydajność poprzez wstępne obliczanie potencjalnych ścieżek krytyki, zmniejszając opóźnienie podczas wnioskowania.
Benchmarking wydajności pokazuje, że SPCT osiąga znaczne zalety przepustowości. Podczas przetwarzania partii pojedynczych prędkości system rejestruje opóźnienie 1,4 sekundy i przepustowość 42 tokenów na sekundę. W przypadku rozmiarów partii osiem opóźnień wzrasta do 3,1 sekundy, podczas gdy skale przepustowości do 208 tokenów na sekundę.
Ta wydajna strategia wnioskowania umożliwia SPCT do skalowania dostosowywania się do skali dostosowania możliwości wyrównania skalowania. Rezultatem jest praktyczna, opłacalna metoda, która utrzymuje parytet wydajności przy znacznie większych modelach.
Koszty i wydajność porównawcza między modelami
Analiza porównawcza pokazuje, że SPCT znacząco obniża koszty szkolenia i wdrażania modeli o wysokiej wydajności. Model Deepseek-GRM, z 27 miliardami parametrów i przy użyciu SPCT, osiąga koszt szkolenia w wysokości około 12 000 USD, jednocześnie dostarczając silny wynik MT wynoszący 8,35. Natomiast NEMOTRON-4, model parametrów 340B, ponosi ponad 1,2 miliona dolarów, aby osiągnąć wynik MT wynoszący 8,41. GPT-4O Openai, z 1,8 biliona parametrów, wynika 8,72 przy szacowanym koszcie 6,3 mln USD.
Te porównania Undercore centralną przewagę Spct: Osiągnia wyniki wyników, wykorzystując frakcję zasobów obliczeniowych i finansowych wymaganych przez skalowanie brutalne. SPCT oferuje przekonujące zalety w zakresie zrównoważonego rozwoju i elastyczności. Eliminuje to prawie 90 procent adnotacji ludzkiej zwykle wymaganych do wyrównania, drastycznie zmniejszając inwestycje pracy i czasowe. Ponadto obniża zużycie energii o 73 procent w porównaniu z DPO, co czyni go odpowiedzialnym za środowisko dla opracowywania AI.
Pojemność SPCT do adaptacji w czasie rzeczywistym również ją wyróżnia. Tradycyjne metody wyrównania są ograniczone jakością i zakresem swoich zestawów danych szkoleniowych, dzięki czemu powolne są dostosowywanie się do nowych lub ewoluujących zadań. Natomiast strategia wnioskowania rekurencyjnego SPCT umożliwia modele generowanie i udoskonalanie zasad w locie, umożliwiając im obsługę nieprzewidywalnych danych wejściowych i zmieniających się celów bez przekwalifikowania.
Ta zdolność otwiera nowe granice w domenach, takich jak robotyka, gdzie systemy muszą reagować na środowiska dynamiczne, oraz multimodalną AI, gdzie wyrównanie przez tekst, a dane zmysłowe są niezbędne. Zespół Deepseek aktywnie eksploruje aplikację SPCT w systemach kontroli robotyki w czasie rzeczywistym i rozproszonych systemach uczenia się, w których współpraca między wieloma agentami wymaga mechanizmów adaptacyjnych wyrównania.
przesuwa się ze skali do architektury
wydaje się być centralnym komponentem Deepseek do skalowania wydajności AI przez architekturę Bigger. 24 marca Deepseek opublikował aktualizację swojego modelu Deepseek-V3 w otwartej masie do przytulania twarzy pod licencją MIT, nazwaną Deepseek v3.1. Model, waży 641 GB, działa wydajnie na lokalnym sprzęcie.