Naukowcy Google opracowali nową technikę o nazwie „Spekulacyjne kaskady” zaprojektowane do tworzenia dużych modeli języków (LLM) znacznie szybciej, tańsze i bardziej wydajne.
szczegółowo opisane w Firm Blog post w tym tygodniu Metoda hybrydowa zajmuje się ogromnym kosztem obliczeniowym i powolnością wnioskowania AI-krytyczne wyzwanie dla branży.
NOWOŚĆ podejście Łączy najlepsze z dwóch istniejących technik przyspieszenia, „kaskady” i „spekulacyjne dekodowanie”, jednocześnie unikając ich kluczowych słabości.
Przy użyciu elastycznej, dynamicznej „reguły odroczenia,„ System generuje reakcje bardziej wydajnie bez poświęcenia jakości. Eksperymenty pokazują, że metoda zapewnia znaczne przyspieszenie typowych zadań AI.
Wysoki koszt wnioskowania AI
Zasilanie zaawansowanej AI ma wysoką cenę. Proces generowania odpowiedzi, zwanej wnioskowaniem, jest notorycznie powolny i kosztowny obliczeniowo.
Ponieważ LLM stają się bardziej zintegrowane z codziennymi aplikacjami, optymalizacja ich wydajności jest praktyczną koniecznością. Jak zauważa Google Research: „Jak wdrażamy te modele dla większej liczby użytkowników, czyniąc je szybszymi i tańszymi bez poświęcania jakości, jest kluczowym wyzwaniem.”
Ten problem z wydajnością stał się centralnym polem bitwy dla programistów AI, co prowadzi do dwóch podstawowych strategii przyspieszenia, każda z znaczącymi wadami.
Pierwsza, znana jako „Kaskady”, w celu optymalizacji wydajności, za pomocą mniejszej wydajności, według modeli, modele, foster. angażowanie większego, droższego. Celem jest tanio przetwarzanie zapytań, jedynie ponosząc wysokie koszty dużego LLM dla naprawdę złożonych zadań.
Chociaż takie podejście może zmniejszyć koszty obliczeniowe, cierpi z tego, co zespół Google nazywa „sekwencyjnym wąskami od oczekiwania i widzi.”
Jeśli mały model jest pewien, system działa dobrze. Ale jeśli tak nie jest, czas nie zmarnowany jest, aż skończy się, tylko po to, aby rozpocząć proces dużego modelu od zera. To fundamentalne wąskie gardło może sprawić, że proces jest powolny i nieefektywny.
Drugie główne podejście, „Dekodowanie spekulacyjne” priorytetowo traktuje prędkość, używając małego modelu „Drafter”, aby przewidywać sekwencję słów równolegle, które są wówczas szybko weryfikowane przez większy model.
gwarantuje, że gwarancja ta jest tożsamość, która byłaby wyprodukowana równolegle. Jednak jego sztywność jest jego największą osłabieniem.
Ścisła zasada weryfikacji systemu oznacza, że może odrzucić cały szkic dla jednego niedopasowanego tokena, nawet jeśli reszta odpowiedzi była całkowicie ważna. Naukowcy Google ilustrują to prostym przykładem: zapytanie „Kim jest Buzz Aldrin?” Mały model może napisać „Buzz Aldrin jest amerykańskim…”, podczas gdy duży model woli „Edwin„ Buzz “Aldrin…”.
Ponieważ pierwszy token („Buzz”) nie pasuje do preferowanego modelu dużego modelu („Edwin”), cała wersja jest natychmiast porzucona, wymazuje początkową korzyść prędkości. Wymóg dopasowania do dużego modelu tokena, zmusza odrzucenie. ” Powoduje to brak oszczędności obliczeniowych i podkreśla nieodłączną marnotrawstwo tej metody.
Spekulacyjne kaskady: podejście „najlepsze z obu światów”
Nowa metoda Google, spekulacyjne kaskady, oferuje hybrydowe rozwiązanie, które łączy te dwa pomysły. Używa małego modelu do szukających odpowiedzi, ale zastępuje sztywną, weryfikację wszechstronną lub notną bardziej inteligentną, elastyczną „zasadą odroczania”, jak szczegółowo opisano w zespole