Naukowcy Google opracowali nową technikę o nazwie „Spekulacyjne kaskady” zaprojektowane do tworzenia dużych modeli języków (LLM) znacznie szybciej, tańsze i bardziej wydajne.

szczegółowo opisane w Firm Blog post w tym tygodniu Metoda hybrydowa zajmuje się ogromnym kosztem obliczeniowym i powolnością wnioskowania AI-krytyczne wyzwanie dla branży.

NOWOŚĆ podejście Łączy najlepsze z dwóch istniejących technik przyspieszenia, „kaskady” i „spekulacyjne dekodowanie”, jednocześnie unikając ich kluczowych słabości.

Przy użyciu elastycznej, dynamicznej „reguły odroczenia,„ System generuje reakcje bardziej wydajnie bez poświęcenia jakości. Eksperymenty pokazują, że metoda zapewnia znaczne przyspieszenie typowych zadań AI.

Wysoki koszt wnioskowania AI

Zasilanie zaawansowanej AI ma wysoką cenę. Proces generowania odpowiedzi, zwanej wnioskowaniem, jest notorycznie powolny i kosztowny obliczeniowo.

Ponieważ LLM stają się bardziej zintegrowane z codziennymi aplikacjami, optymalizacja ich wydajności jest praktyczną koniecznością. Jak zauważa Google Research: „Jak wdrażamy te modele dla większej liczby użytkowników, czyniąc je szybszymi i tańszymi bez poświęcania jakości, jest kluczowym wyzwaniem.”

Ten problem z wydajnością stał się centralnym polem bitwy dla programistów AI, co prowadzi do dwóch podstawowych strategii przyspieszenia, każda z znaczącymi wadami.

Pierwsza, znana jako „Kaskady”, w celu optymalizacji wydajności, za pomocą mniejszej wydajności, według modeli, modele, foster. angażowanie większego, droższego. Celem jest tanio przetwarzanie zapytań, jedynie ponosząc wysokie koszty dużego LLM dla naprawdę złożonych zadań.

Chociaż takie podejście może zmniejszyć koszty obliczeniowe, cierpi z tego, co zespół Google nazywa „sekwencyjnym wąskami od oczekiwania i widzi.”

Jeśli mały model jest pewien, system działa dobrze. Ale jeśli tak nie jest, czas nie zmarnowany jest, aż skończy się, tylko po to, aby rozpocząć proces dużego modelu od zera. To fundamentalne wąskie gardło może sprawić, że proces jest powolny i nieefektywny.

Drugie główne podejście, „Dekodowanie spekulacyjne” priorytetowo traktuje prędkość, używając małego modelu „Drafter”, aby przewidywać sekwencję słów równolegle, które są wówczas szybko weryfikowane przez większy model.

gwarantuje, że gwarancja ta jest tożsamość, która byłaby wyprodukowana równolegle. Jednak jego sztywność jest jego największą osłabieniem.

Ścisła zasada weryfikacji systemu oznacza, że ​​może odrzucić cały szkic dla jednego niedopasowanego tokena, nawet jeśli reszta odpowiedzi była całkowicie ważna. Naukowcy Google ilustrują to prostym przykładem: zapytanie „Kim jest Buzz Aldrin?” Mały model może napisać „Buzz Aldrin jest amerykańskim…”, podczas gdy duży model woli „Edwin„ Buzz “Aldrin…”.

Ponieważ pierwszy token („Buzz”) nie pasuje do preferowanego modelu dużego modelu („Edwin”), cała wersja jest natychmiast porzucona, wymazuje początkową korzyść prędkości. Wymóg dopasowania do dużego modelu tokena, zmusza odrzucenie. ” Powoduje to brak oszczędności obliczeniowych i podkreśla nieodłączną marnotrawstwo tej metody.

Spekulacyjne kaskady: podejście „najlepsze z obu światów”

Nowa metoda Google, spekulacyjne kaskady, oferuje hybrydowe rozwiązanie, które łączy te dwa pomysły. Używa małego modelu do szukających odpowiedzi, ale zastępuje sztywną, weryfikację wszechstronną lub notną bardziej inteligentną, elastyczną „zasadą odroczania”, jak szczegółowo opisano w zespole

to dynamicznie rozstrzygowuje, on z. Podstawa, czy zaakceptować szkic małego modelu, czy odroczyć duży model. Unika to zarówno sekwencyjnego wąskiego gardła kaskad, jak i ścisłego, wszystkiego lub nic, odrzucenia spekulacyjnego dekodowania.

Moc tej metody polega na jej zdolności adaptacyjnej. W przeciwieństwie do sztywnej weryfikacji w standardowym dekodowaniu spekulacyjnym, reguła odroczenia może być dostosowana do określonych potrzeb, zapewniając programistom drobną kontrolę nad kompromisem między kosztami, prędkością i jakością. Na przykład

System można skonfigurować do odroczenia w oparciu o prostą kontrolę ufności, jedynie espalując do dużego modelu, jeśli mały jest niepewny. Może również wykonać kontrolę porównawczą, odkładając, jeśli duży model jest znacznie bardziej pewny w innej odpowiedzi.

Bardziej zaawansowana konfiguracja może nawet przeprowadzić analizę kosztów i korzyści, odkładając tylko wtedy, gdy zwiększenie jakości dużego modelu przewyższa obliczeniowe „koszty” „kosztu” małego modelu. Ta elastyczność jest rdzeniem spekulatywnego podejścia kaskadowego.

Kluczowym wglądem jest to, że odpowiedź mniejszego modelu może być dobra, nawet jeśli nie jest to idealne dopasowanie. Jak wyjaśnili naukowcy, ze spekulacyjnym dekodowaniem: „Mimo że mały model przyniósł dobrą odpowiedź, wymóg dopasowania dużego modelu token-byt-byk jest odrzucenie”, zmuszanie do odrzucenia, nawet gdy szkic był całkowicie akceptowalny. Spekulacyjne kaskady są zaprojektowane tak, aby zapobiec tej nieefektywności.

Przekładanie teorii do testu: Obiecujące wyniki

Aby potwierdzić ich podejście, zespół Google przetestował spekulacyjne kaskady na różnych modelach, w tym Gemma i t5 . Mierzyli wydajność w różnych zadaniach, takich jak podsumowanie, rozumowanie i kodowanie. Wyniki były przekonujące.

Nowa metoda konsekwentnie osiągała lepsze kompromisy jakościowe i wyższe przyspieszenie w porównaniu z technikami wyjściowymi. Umożliwiając bardziej dopracowane decyzje na każdym etapie procesu generowania, system może tworzyć wysokiej jakości odpowiedzi szybciej i przy mniejszym kosztach obliczeniowych.

Podczas gdy technologia jest nadal w fazie badań, jego potencjał jest jasny. Google Research stwierdza, że ​​„to hybrydowe podejście pozwala na drobnoziarnistą kontrolę nad równowagą jakości kosztów, torując drogę dla aplikacji, które są zarówno mądrzejsze, jak i szybsze.”

Jeśli pomyślnie wdrożono, może to przełożyć się na wyraźnie lepszą i tańszą wrażenia dla użytkowników końcowych narzędzia AI.

w branży, a także silna>

Jest to kontrastowanie ze stratnymi, ale wysoce skutecznymi metodami, takimi jak Computing Computing. Inne firmy zajmują się wysokimi kosztami szkolenia. Na przykład ramy ZeroSearch Alibaba obniżają wydatki szkoleniowe, ucząc LLM w celu symulacji interakcji z wyszukiwarką, unikając kosztownych połączeń API.

Inni koncentrują się na optymalizacji różnych części cyklu życia AI. Na przykład Sakana AI opracowała system, aby aktywna pamięć (KV Cache) w LLMS była bardziej wydajna podczas zadań długotekstu. To intensywne skupienie się na optymalizacji podkreśla, w jaki sposób stała się krytyczna wydajność dla następnej fali rozwoju AI.

razem te różnorodne podejścia-od hybrydowego wnioskowania Google po nowatorskie paradygmaty kompresji i treningów-światło kluczowe przesunięcie. Przemysł przechodzi od czystej skali do bardziej zrównoważonego dążenia do mądrzejszej, bardziej dostępnej i opłacalnej ekonomicznej AI.

Categories: IT Info