Google-Forscher haben eine neue Technik entwickelt, die als „spekulative Kaskaden“ bezeichnet wird, um Großsprachenmodelle (LLMs) signifikant schneller, billiger und effizienter zu machen. target=”_ leer”> Firmenblog-Post in dieser Woche Die Hybridmethode befasst sich mit den immensen Berechnungskosten und der Langsamkeit der KI-Inferenz-eine kritische Herausforderung für die Branche. target=”_ leer”> Ansatz kombiniert die besten von zwei vorhandenen Beschleunigungstechniken,”Kaskaden”und”spekulative Decodierung”, während sie ihre Schlüsselschwächen vermeiden.

Durch die Verwendung einer flexiblen, dynamischen „Aufschubregel“ erzeugt das System die Reaktionen effizienter, ohne die Qualität zu opfern. Experimente zeigen, dass die Methode wichtige Beschleunigungen für gemeinsame KI-Aufgaben liefert. Der Prozess der Erzeugung einer Antwort, die als Inferenz bezeichnet wird, ist notorisch langsam und rechenintensiv teuer. Wie Google Research bemerkt: „Wenn wir diese Modelle für mehr Benutzer einsetzen, ist es eine kritische Herausforderung, sie schneller und günstiger zu machen, ohne die Qualität zu beeinträchtigen.“

Dieses Effizienzproblem ist zu einem zentralen Schlachtfeld für KI-Entwickler geworden, was zu zwei primären Beschleunigungsstrategien führt, die jeweils mit signifikanten Männern mithilfe von Fithing-Fithing-Modellen miteinander verbunden sind. ein größerer, teurer. Ziel ist es, Abfragen billig zu bearbeiten und nur die hohen Kosten des großen LLM für wirklich komplexe Aufgaben zu erregen. Aber wenn dies nicht der Fall ist, wird die Zeit verschwendet, bis es fertig ist, nur um den Prozess des großen Modells von Grund auf neu zu starten. Dieser grundlegende Engpass kann den Prozess langsam und ineffizient machen. Seine Starrheit ist jedoch die größte Schwäche. Die Forscher von Google veranschaulichen dies mit einem einfachen Beispiel: einer Abfrage für”Wer ist Buzz Aldrin?”Das kleine Modell könnte”Buzz Aldrin ist ein Amerikaner…”, während das große Modell”Edwin”Buzz”Aldrin…”bevorzugt. Erfordernis, dem großen Modell-Token-by-Token zu entsprechen, zwingt eine Ablehnung.”Dies führt zu keinen Recheneinsparungen und unterstreicht die inhärente Verschwendung der Methode. Es verwendet ein kleines Modell, um Antworten zu entfernen, ersetzt jedoch die starre, alloreinheitliche Überprüfung durch eine intelligentere, flexiblere”Aufstockungsregel”, wie in der

Die Kraft dieser Methode liegt in ihrer Anpassungsfähigkeit. Im Gegensatz zur starre Überprüfung der spekulativen Standard-Decodierung kann die Aufschubregel auf bestimmte Bedürfnisse zugeschnitten werden, was den Entwicklern eine feinkörnige Kontrolle über den Kompromiss zwischen Kosten, Geschwindigkeit und Qualität gibt. Es kann auch eine vergleichende Überprüfung durchführen, wobei das große Modell in einer anderen Antwort deutlich sicherer ist. Diese Flexibilität ist der Kern des spekulativen Kaskadenansatzes. Wie die Forscher mit spekulativem Dekodieren erklärten:”Obwohl das kleine Modell eine gute Antwort hervorrief, ist die Anforderung, die großen Modell-Token-by-Token-Kürze zu entsprechen, eine Ablehnung”, was eine Ablehnung erzwang, selbst wenn der Entwurf vollkommen akzeptabel war. Spekulative Kaskaden werden entwickelt, um diese Ineffizienz zu verhindern. target=”_ leer”> t5 . Sie haben die Leistung über verschiedene Aufgaben wie Summarisierung, Argumentation und Codierung gemessen. Die Ergebnisse waren überzeugend. Indem das System bei jedem Schritt des Erzeugungsprozesses differenziertere Entscheidungen zulässt, kann das System schneller und mit weniger rechnerischem Overhead qualitativ hochwertige Antworten erzeugen. Google Research besagt: „Dieser hybride Ansatz ermöglicht eine feinkörnige Kontrolle über das Gleichgewichtsgewicht der Kostenqualität und ebnet den Weg für Anwendungen, die sowohl intelligenter als auch schneller sind. Die Arbeit von

Google ist Teil eines breiteren Branchens, um das KI-Effizienz-Puzzle zu lösen. Unternehmen untersuchen verschiedene Blickwinkel, um die Hardwareanforderungen und die Betriebskosten von LLMs zu senken. Einige, wie die Entwickler von Dfloat11, erstellen verlustlose Komprimierungstechniken, um die Modellgrößen zu verkleinern. Andere Unternehmen gehen die hohen Schulungskosten an. Alibabas ZeroSearch-Framework senkt beispielsweise die Schulungskosten, indem sie ein LLM unterrichten, um Suchmaschineninteraktionen zu simulieren und teure API-Aufrufe zu vermeiden. Zum Beispiel entwickelte Sakana AI ein System, um den aktiven Speicher (KV-Cache) in LLMs bei lang Kontextaufgaben effizienter zu gestalten. Dieser intensive Fokus auf die Optimierung unterstreicht, wie kritische Effizienz für die nächste Welle der AI-Entwicklung geworden ist. Die Branche wechselt von einem reinen Fokus auf Skala auf ein nachhaltigeres Streben nach intelligenterer, zugänglicher und wirtschaftlich lebensfähigerer Ai.

Categories: IT Info