Google zaprezentuje „spekulacyjne kaskady", aby wnioskować LLM szybciej i tańszy

Naukowcy Google opracowali nową technikę o nazwie „Spekulacyjne kaskady” zaprojektowane do tworzenia dużych modeli języków (LLM) znacznie szybciej, tańsze i bardziej wydajne.

szczegółowo opisane w Firm Blog post w tym tygodniu Metoda hybrydowa zajmuje się ogromnym kosztem obliczeniowym i powolnością wnioskowania AI-krytyczne wyzwanie dla branży.

NOWOŚĆ podejście Łączy najlepsze z dwóch istniejących technik przyspieszenia, „kaskady” i „spekulacyjne dekodowanie”, jednocześnie unikając ich kluczowych słabości.

Przy użyciu elastycznej, dynamicznej „reguły odroczenia,„ System generuje reakcje bardziej wydajnie bez poświęcenia jakości. Eksperymenty pokazują, że metoda zapewnia znaczne przyspieszenie typowych zadań AI.

Wysoki koszt wnioskowania AI

Zasilanie zaawansowanej AI ma wysoką cenę. Proces generowania odpowiedzi, zwanej wnioskowaniem, jest notorycznie powolny i kosztowny obliczeniowo.

Ponieważ LLM stają się bardziej zintegrowane z codziennymi aplikacjami, optymalizacja ich wydajności jest praktyczną koniecznością. Jak zauważa Google Research: „Jak wdrażamy te modele dla większej liczby użytkowników, czyniąc je szybszymi i tańszymi bez poświęcania jakości, jest kluczowym wyzwaniem.”

Ten problem z wydajnością stał się centralnym polem bitwy dla programistów AI, co prowadzi do dwóch podstawowych strategii przyspieszenia, każda z znaczącymi wadami.

Pierwsza, znana jako „Kaskady”, w celu optymalizacji wydajności, za pomocą mniejszej wydajności, według modeli, modele, foster. angażowanie większego, droższego. Celem jest tanio przetwarzanie zapytań, jedynie ponosząc wysokie koszty dużego LLM dla naprawdę złożonych zadań.

Chociaż takie podejście może zmniejszyć koszty obliczeniowe, cierpi z tego, co zespół Google nazywa „sekwencyjnym wąskami od oczekiwania i widzi.”

Jeśli mały model jest pewien, system działa dobrze. Ale jeśli tak nie jest, czas nie zmarnowany jest, aż skończy się, tylko po to, aby rozpocząć proces dużego modelu od zera. To fundamentalne wąskie gardło może sprawić, że proces jest powolny i nieefektywny.

Drugie główne podejście, „Dekodowanie spekulacyjne” priorytetowo traktuje prędkość, używając małego modelu „Drafter”, aby przewidywać sekwencję słów równolegle, które są wówczas szybko weryfikowane przez większy model.

gwarantuje, że gwarancja ta jest tożsamość, która byłaby wyprodukowana równolegle. Jednak jego sztywność jest jego największą osłabieniem.

Ścisła zasada weryfikacji systemu oznacza, że może odrzucić cały szkic dla jednego niedopasowanego tokena, nawet jeśli reszta odpowiedzi była całkowicie ważna. Naukowcy Google ilustrują to prostym przykładem: zapytanie „Kim jest Buzz Aldrin?” Mały model może napisać „Buzz Aldrin jest amerykańskim…”, podczas gdy duży model woli „Edwin„ Buzz “Aldrin…”.

Ponieważ pierwszy token („Buzz”) nie pasuje do preferowanego modelu dużego modelu („Edwin”), cała wersja jest natychmiast porzucona, wymazuje początkową korzyść prędkości. Wymóg dopasowania do dużego modelu tokena, zmusza odrzucenie. ” Powoduje to brak oszczędności obliczeniowych i podkreśla nieodłączną marnotrawstwo tej metody.

Spekulacyjne kaskady: podejście „najlepsze z obu światów”

Nowa metoda Google, spekulacyjne kaskady, oferuje hybrydowe rozwiązanie, które łączy te dwa pomysły. Używa małego modelu do szukających odpowiedzi, ale zastępuje sztywną, weryfikację wszechstronną lub notną bardziej inteligentną, elastyczną „zasadą odroczania”, jak szczegółowo opisano w zespole

Nowa metoda konsekwentnie osiągała lepsze kompromisy jakościowe i wyższe przyspieszenie w porównaniu z technikami wyjściowymi. Umożliwiając bardziej dopracowane decyzje na każdym etapie procesu generowania, system może tworzyć wysokiej jakości odpowiedzi szybciej i przy mniejszym kosztach obliczeniowych.

Podczas gdy technologia jest nadal w fazie badań, jego potencjał jest jasny. Google Research stwierdza, że „to hybrydowe podejście pozwala na drobnoziarnistą kontrolę nad równowagą jakości kosztów, torując drogę dla aplikacji, które są zarówno mądrzejsze, jak i szybsze.”

Jeśli pomyślnie wdrożono, może to przełożyć się na wyraźnie lepszą i tańszą wrażenia dla użytkowników końcowych narzędzia AI.

Google zaprezentuje „spekulacyjne kaskady”, aby wnioskować LLM szybciej i tańszy

Published by All Things Windows on September 27, 2025

Wysoki koszt wnioskowania AI

Spekulacyjne kaskady: podejście „najlepsze z obu światów”

Przekładanie teorii do testu: Obiecujące wyniki

IT Info

Jak włączyć przycisk Wznowienia aplikacji na pasku zadań Windows 11

IT Info

Otwórz ustawienia słuchawek na tym komputerze

IT Info

Windows 11 23H2 Aktualizacja KB5065790 zapewnia ulepszenia jakości. Pobierz link.

Google zaprezentuje „spekulacyjne kaskady”, aby wnioskować LLM szybciej i tańszy

Published by All Things Windows on September 27, 2025

Wysoki koszt wnioskowania AI

Spekulacyjne kaskady: podejście „najlepsze z obu światów”

Przekładanie teorii do testu: Obiecujące wyniki

Related Posts

IT Info

Jak włączyć przycisk Wznowienia aplikacji na pasku zadań Windows 11

IT Info

Otwórz ustawienia słuchawek na tym komputerze

IT Info

Windows 11 23H2 Aktualizacja KB5065790 zapewnia ulepszenia jakości. Pobierz link.