Badacze z Tencent AI Lab zaprezentowali nową strukturę sztucznej inteligencji zaprojektowaną z myślą o przełamywaniu ograniczeń prędkości obecnych dużych modeli językowych.

Szczegółowo w artykule opublikowanym w Internecie w tym tygodniu system nazywa się CALM, od ciągłego autoregresyjnego modelu językowego. Stanowi to bezpośrednie wyzwanie dla powolnego procesu „token po token”, który napędza obecnie większość generatywnej sztucznej inteligencji.

Zamiast przewidywać pojedynczy fragment słowa, CALM uczy się przewidywać pojedynczy wektor reprezentujący cały fragment tekstu. Ta metoda może sprawić, że generowanie sztucznej inteligencji będzie znacznie szybsze i wydajniejsze, otwierając nową ścieżkę skalowania modeli.

Tyrania tokena: autoregresyjne wąskie gardło AI

Podstawową słabością współczesnych LLM jest ich poleganie na autoregresyjnej generacji token po tokenie. Ta sekwencyjna zależność stanowi największe wąskie gardło ograniczające szybkość i skalowalność sztucznej inteligencji.

Generowanie długiego artykułu wymaga tysięcy kolejnych etapów przewidywania, co czyni proces kosztownym obliczeniowo i powolnym. To nie jest tylko problem akademicki; dlatego używanie potężnych modeli jest kosztowne, a generowanie w czasie rzeczywistym długich formularzy pozostaje wyzwaniem.

Ten problem z wydajnością stał się głównym polem bitwy dla twórców sztucznej inteligencji. Jak zauważyło wcześniej Google Research, „w miarę wdrażania tych modeli wśród większej liczby użytkowników krytyczne wyzwanie stanowi uczynienie ich szybszymi i tańszymi bez utraty jakości”.

Branża bada liczne rozwiązania, od spekulacyjnych kaskad Google po nowe techniki kompresji. Teraz praca Tencenta proponuje bardziej radykalne rozwiązanie.

W artykule zaproponowano plan nowej klasy ultrawydajnych modeli językowych i rozwiązania wąskiego gardła szybkości wywołanego tokenami.

Celem jest fundamentalna zmiana jednostki przewidywania z pojedynczego tokena o niskiej zawartości informacji na coś znacznie bogatszego.

Nowy paradygmat: przewidywanie wektorów zamiast tokenów

Stawiając bezpośrednie wyzwanie dla status quo generatywnej sztucznej inteligencji, CALM całkowicie zmienia zadanie przewidywania. Naukowcy proponują nową oś skalowania dla LLM.

„Uważamy, że przezwyciężenie tego wąskiego gardła wymaga nowej osi projektowej dla skalowania LLM: zwiększenia szerokości pasma semantycznego każdego etapu generatywnego” – piszą w artykule.

Dzięki zwiększeniu tej „przepustowości semantycznej” model może przetwarzać więcej informacji w jednym kroku. CALM osiąga to poprzez innowacyjny dwuetapowy proces, który działa w przestrzeni ciągłej, a nie dyskretnej.

Sercem projektu CALM jest autoenkoder o wysokiej wierności. Ten komponent uczy się kompresować fragment K tokenów – na przykład cztery tokeny – w jeden, gęsty, ciągły wektor.

Co najważniejsze, może zrekonstruować oryginalne tokeny z tego wektora z dokładnością ponad 99,9%. Następnie oddzielny model językowy przeprowadza predykcję autoregresyjną w tej nowej przestrzeni wektorowej.

Zgodnie z oficjalną dokumentacją projektu „zamiast przewidywać jeden dyskretny token na raz, CALM uczy się przewidywać pojedynczy wektor ciągły, który reprezentuje cały fragment K tokenów.”

Dzięki temu zmniejsza się liczba kroki generatywne o współczynnik K, co prowadzi do znacznego wzrostu wydajności.

Zestaw narzędzi wolny od prawdopodobieństwa: jak CALM uczy się i mierzy sukces

Przejście od dyskretnych tokenów do wektorów ciągłych stwarza poważne wyzwanie: model nie jest już w stanie obliczyć jawnego rozkładu prawdopodobieństwa dla wszystkich możliwych wyników przy użyciu standardowej warstwy softmax.

To sprawia, że tradycyjne metody szkolenia i oceny, które opierają się na obliczaniu prawdopodobieństwa, nie dotyczy. Aby rozwiązać ten problem, zespół Tencent opracował kompleksową strukturę pozbawioną prawdopodobieństwa.

W przypadku szkolenia CALM wykorzystuje metodę treningu opartego na energii, która wykorzystuje ściśle odpowiednią regułę punktacji do kierowania modelem bez konieczności obliczania prawdopodobieństw.

Do oceny badacze wprowadzili nową metrykę zwaną BrierLM. Odchodząc od tradycyjnych wskaźników, takich jak zakłopotanie, BrierLM wywodzi się ze wskaźnika Briera, narzędzia prognozowania probabilistycznego.

Pozwala na uczciwe porównanie możliwości modelu na podstawie próbek poprzez sprawdzenie, jak przewidywania pokrywają się z rzeczywistością, co jest metodą doskonale nadającą się do modeli, w których prawdopodobieństwa są niemierzalne.

Nowa oś skalowania sztucznej inteligencji i wyścig o wydajność

Wpływ praktyczny tej nowej architektury stanowi doskonały kompromis między wydajnością a obliczeniami.

Model CALM zmniejsza wymagania obliczeniowe szkolenia o 44% i wnioskowanie o 33% w porównaniu z mocnym poziomem bazowym. To pokazuje, że skalowanie semantycznej przepustowości każdego kroku to nowa, potężna dźwignia poprawy wydajności obliczeniowej.

Działanie stawia CALM jako znaczącego pretendenta w ogólnobranżowym wyścigu o budowanie szybszej, tańszej i bardziej dostępnej sztucznej inteligencji.

Google radzi sobie z problemem szybkości sztucznej inteligencji za pomocą metod takich jak kaskady spekulatywne i uczenie się zagnieżdżone. Inne start-upy, takie jak Inception, w swoim „Mercury Coder” eksplorują zupełnie inne architektury, np. oparte na dyfuzji LLM, aby uniknąć „strukturalnego wąskiego gardła” w postaci autoregresji.

W sumie te różnorodne podejścia podkreślają zmianę w rozwoju sztucznej inteligencji. Branża odchodzi od skupiania się wyłącznie na skali na rzecz bardziej zrównoważonego dążenia do inteligentniejszej, bardziej opłacalnej sztucznej inteligencji. Podejście wektorowe CALM oferuje nową ścieżkę naprzód w tym zakresie.

Categories: IT Info