Google researchers have developed a new technique called “speculative cascades”designed to make large language models (LLMs) significantly faster, cheaper, and more efficient.
Detailed in a company blog post this week, the hybrid method tackles the immense computational cost and slowness of AI inference—a critical challenge for the industry.
The new Abordare combină cele mai bune două tehnici de accelerare existente, „cascade” și „decodare speculativă”, evitând în același timp punctele lor slabe. src=”https://winbuzzer.com/wp-content/uploads/2025/01/artificial-intellgence-text-science-multimodal.jpg”>
folosind o „regulă de amânare” flexibilă, dinamică, sistemul generează răspunsuri mai eficiente, fără a sacrifica o calitate dinamică. Experimentele arată că metoda oferă viteze majore pentru sarcinile comune AI.
Costul ridicat al AI Inference
Powering AI avansat vine la un preț abrupt. Procesul de generare a unui răspuns, cunoscut sub numele de inferență, este notoriu lent și costisitor din punct de vedere calculat.
ca LLM-urile devin mai integrate în aplicațiile zilnice, optimizarea performanței lor este o necesitate practică. După cum remarcă Google Research, „Pe măsură ce implementăm aceste modele pentru mai mulți utilizatori, făcându-le mai rapide și mai puțin costisitoare, fără a sacrifica calitatea este o provocare critică. Angajarea unuia mai mare, mai scump. Scopul este de a prelucra întrebările ieftine, suportând doar costurile ridicate ale LLM-ului mare pentru sarcini cu adevărat complexe.
În timp ce această abordare poate reduce costurile de calcul, suferă de ceea ce echipa Google numește „un blocaj secvențial de așteptare-și de a vedea bine. Dar, dacă nu este, timpul este pierdut în așteptarea terminării, doar pentru a începe procesul de la zero al modelului mare. Acest blocaj fundamental poate face procesul lent și ineficient.
a doua abordare majoră, „decodare speculativă”, prioritizează viteza folosind un mic model „drafter” pentru a prezice o secvență de cuvinte în paralel, care sunt apoi verificate rapid de modelul mai mare. Cu toate acestea, rigiditatea sa este cea mai mare slăbiciune a acesteia.
Regula strictă de verificare a sistemului înseamnă că poate respinge un întreg proiect pentru un singur jeton nepotrivit, chiar dacă restul răspunsului a fost perfect valabil. Cercetătorii Google ilustrează acest lucru cu un exemplu simplu: o întrebare pentru „Cine este Buzz Aldrin?” Micul model ar putea redacta „Buzz Aldrin este un american…”, în timp ce modelul mare preferă „Edwin„ Buzz “Aldrin…”.
pentru că primul token („Buzz”) nu se potrivește cu jetonul preferat al modelului mare („Edwin”), întregul proiect este eliminat imediat, eliminând chiar și un model inițial. cerință pentru a se potrivi cu o respingere a forțelor mari ale modelului de model.”Acest lucru nu duce la economii de calcul și evidențiază risipa inerentă a metodei.
cascade speculative: o abordare „cea mai bună a ambelor lumi”
noua metodă a Google, Cascade speculative, oferă o soluție hibridă care îmbină aceste două idei. Utilizează un model mic pentru a redacta răspunsuri, dar înlocuiește verificarea rigidă, atotputernică, cu o regulă mai inteligentă, mai flexibilă, mai inteligentă, așa cum este detaliat în echipele Lucrarea de cercetare . bază, fie că acceptați proiectul micului model sau amânarea modelului mare. Acest lucru evită atât blocajul secvențial al cascadelor, cât și respingerea strictă, sau nimic sau nimic a decodării speculative.
Puterea acestei metode constă în adaptabilitatea sa. Spre deosebire de verificarea rigidă în decodarea standard speculativă, regula amânărilor poate fi adaptată la nevoile specifice, oferind dezvoltatorilor un control cu granulație fină asupra compromisului dintre cost, viteză și calitate.
De exemplu, sistemul poate fi configurat pentru a amâna pe baza unei simple verificări de încredere, doar escaladarea la modelul mare, dacă micul este incert. De asemenea, poate efectua o verificare comparativă, amânarea dacă modelul mare este semnificativ mai încrezător într-un răspuns diferit.
O configurație mai avansată ar putea chiar să efectueze o analiză cost-beneficiu, amânând doar atunci când creșterea potențială a calității modelului mare depășește „costul de calcul” de a respinge proiectul micului model. Această flexibilitate este nucleul abordării speculative în cascadă.
Insight-ul cheie este că răspunsul unui model mai mic poate fi încă bun, chiar dacă nu este o potrivire perfectă. După cum au explicat cercetătorii, cu decodarea speculativă, „chiar dacă modelul mic a produs un răspuns bun, cerința de a se potrivi cu un model mare de token-token forțe o respingere”, forțând o respingere chiar și atunci când proiectul a fost perfect acceptabil. Cascadele speculative sunt concepute pentru a preveni această ineficiență.
Punerea teoriei la test: rezultate promițătoare
Pentru a valida abordarea lor, echipa Google a testat cascade speculative pe o serie de modele, inclusiv gemma și T5 . Au măsurat performanța în diverse sarcini, cum ar fi rezumarea, raționamentul și codificarea. Rezultatele au fost convingătoare.
Noua metodă a obținut în mod constant compromisuri mai bune de calitate și viteze mai mari în comparație cu tehnicile de bază. Permitând decizii mai nuanțate la fiecare etapă a procesului de generare, sistemul poate produce răspunsuri de înaltă calitate mai rapid și cu o cheltuială mai mică de calcul.
În timp ce tehnologia este încă în faza de cercetare, potențialul său este clar. Google Research afirmă că „această abordare hibridă permite un control cu granulație fină asupra echilibrului de calitate a costurilor, deschizând calea aplicațiilor care sunt atât mai inteligente, cât și mai rapide.
activitatea Google face parte dintr-o apăsare mai largă a industriei pentru a rezolva puzzle-ul de eficiență AI. Companiile explorează diverse unghiuri pentru a reduce cerințele hardware și costurile operaționale ale LLM. Unii, precum dezvoltatorii DFLOAT11, creează tehnici de compresie fără pierderi pentru a micsora dimensiunile modelului.
Acest lucru contrastează cu metode pierderi, dar extrem de eficiente, precum Compactifai de calcul multivers, care folosește rețelele tensiuni cuantice cuantice pentru a micsora modelele de până la 95%, în timp ce păstrează cea mai mare parte a exactității lor. Alte firme abordează costurile ridicate ale antrenamentului. Cadrul ZeroSearch al Alibaba, de exemplu, reduce cheltuielile de instruire prin predarea unui LLM pentru a simula interacțiunile cu motorul de căutare, evitând apeluri costisitoare API.
Altele sunt concentrate pe optimizarea diferitelor părți ale ciclului de viață AI. De exemplu, Sakana AI a dezvoltat un sistem pentru a face memoria activă (KV Cache) în LLMS mai eficientă în timpul sarcinilor de context lung. Această concentrare intensă pe optimizare subliniază modul în care eficiența critică a devenit pentru următoarea undă de dezvoltare AI.
Împreună, aceste abordări variate-de la inferența hibridă a Google la noi paradigme de compresie și antrenament-o schimbare pivotantă. Industria trece de la o atenție pură pe scară la o urmărire mai durabilă a AI-ului mai inteligent, mai accesibil și viabil din punct de vedere economic