Forscher des Tencent AI Lab haben ein neues KI-Framework vorgestellt, das die Geschwindigkeitsbegrenzungen aktueller großer Sprachmodelle sprengen soll.
Das System heißt CALM (Continuous Autoregressive Language Models) und wird in einem diese Woche online veröffentlichten Artikel ausführlich beschrieben. Es fordert direkt den langsamen Token-für-Token-Prozess heraus, der heute die meisten generativen KIs antreibt.
Anstatt jeweils nur einen kleinen Teil eines Wortes vorherzusagen, lernt CALM, einen einzelnen Vektor vorherzusagen, der einen ganzen Textblock darstellt. Diese Methode könnte die KI-Generierung deutlich schneller und effizienter machen und einen neuen Weg für die Skalierung von Modellen eröffnen.
Die Tyrannei des Tokens: Der autoregressive Flaschenhals der KI
Eine grundlegende Schwäche moderner LLMs ist ihre Abhängigkeit von der autoregressiven Token-für-Token-Generierung. Diese sequentielle Abhängigkeit ist der größte Engpass, der die Geschwindigkeit und Skalierbarkeit der KI einschränkt.
Das Generieren eines langen Artikels erfordert Tausende von sequentiellen Vorhersageschritten, was den Prozess rechenintensiv und langsam macht. Dies ist nicht nur ein akademisches Problem; Aus diesem Grund ist die Verwendung leistungsstarker Modelle kostspielig und die Generierung langer Formen in Echtzeit bleibt eine Herausforderung.
Dieses Effizienzproblem ist zu einem zentralen Schlachtfeld für KI-Entwickler geworden. Wie Google Research zuvor festgestellt hat: „Da wir diese Modelle für immer mehr Nutzer bereitstellen, ist es eine entscheidende Herausforderung, sie ohne Einbußen bei der Qualität schneller und kostengünstiger zu machen.“
Die Branche hat zahlreiche Lösungen erforscht, von Googles spekulativen Kaskaden bis hin zu neuen Komprimierungstechniken. Jetzt schlägt die Arbeit von Tencent eine radikalere Lösung vor.
Das Papier schlägt einen Entwurf für eine neue Klasse hocheffizienter Sprachmodelle und für den durch Token verursachten Geschwindigkeitsengpass vor.
Das Ziel besteht darin, die Vorhersageeinheit grundlegend von einem einzelnen Token mit wenigen Informationen zu etwas viel Umfangreicherem zu ändern.
Ein neues Paradigma: Vorhersage von Vektoren anstelle von Token
In a Als direkte Herausforderung für den Status quo der generativen KI definiert CALM die Vorhersageaufgabe völlig neu. Die Forscher schlagen eine neue Skalierungsachse für LLMs vor.
„Wir argumentieren, dass die Überwindung dieses Engpasses eine neue Entwurfsachse für die LLM-Skalierung erfordert: die Erhöhung der semantischen Bandbreite jedes generativen Schritts“, schreiben sie in dem Artikel.
Durch die Erhöhung dieser „semantischen Bandbreite“ kann das Modell mehr Informationen in einem einzigen Schritt verarbeiten. CALM erreicht dies durch einen innovativen zweistufigen Prozess, der in einem kontinuierlichen und nicht in einem diskreten Raum arbeitet.
Das Herzstück des CALM-Designs ist ein High-Fidelity-Autoencoder. Diese Komponente lernt, einen Teil von K Token – zum Beispiel vier Token – in einen einzigen, dichten kontinuierlichen Vektor zu komprimieren.
Entscheidend ist, dass sie die ursprünglichen Token aus diesem Vektor mit einer Genauigkeit von über 99,9 % rekonstruieren kann. Ein separates Sprachmodell führt dann eine autoregressive Vorhersage in diesem neuen Vektorraum durch.
Laut der offiziellen Projektdokumentation „lernt CALM, statt jeweils einen diskreten Token vorherzusagen, einen einzelnen kontinuierlichen Vektor vorherzusagen, der einen ganzen Block von K Token darstellt.“
Dies reduziert die Anzahl generative Schritte um den Faktor K, was zu erheblichen Effizienzsteigerungen führt.
Das Likelihood-Free Toolkit: Wie CALM lernt und den Erfolg misst
Der Übergang von diskreten Token zu kontinuierlichen Vektoren bringt eine große Herausforderung mit sich: Das Modell kann keine explizite Wahrscheinlichkeitsverteilung über alle möglichen Ergebnisse mehr mit einer Standard-Softmax-Schicht berechnen.
Dadurch werden herkömmliche Trainings-und Bewertungsmethoden, die auf der Berechnung von Wahrscheinlichkeiten basieren, nicht anwendbar. Um dieses Problem zu lösen, entwickelte das Tencent-Team ein umfassendes, wahrscheinlichkeitsfreies Framework.
Für das Training verwendet CALM eine energiebasierte Trainingsmethode, die eine streng korrekte Bewertungsregel verwendet, um das Modell zu steuern, ohne dass Wahrscheinlichkeiten berechnet werden müssen.
Zur Bewertung führten die Forscher eine neuartige Metrik namens BrierLM ein. BrierLM entfernt sich von traditionellen Metriken wie Ratlosigkeit und leitet sich vom Brier-Score ab, einem Tool der probabilistischen Prognose.
Es ermöglicht einen fairen, stichprobenbasierten Vergleich der Modellfähigkeiten, indem überprüft wird, wie gut Vorhersagen mit der Realität übereinstimmen. Diese Methode eignet sich perfekt für Modelle, bei denen Wahrscheinlichkeiten unlösbar sind.
Eine neue Achse für die KI-Skalierung und der Wettlauf um Effizienz
Die praktischen Auswirkungen dieser neuen Architektur ist ein überlegener Kompromiss zwischen Leistung und Rechenleistung.
Das CALM-Modell reduziert den Trainingsrechenaufwand um 44 % und die Inferenz um 33 % im Vergleich zu einer starken Basislinie. Dies zeigt, dass die Skalierung der semantischen Bandbreite jedes Schritts ein leistungsstarker neuer Hebel zur Verbesserung der Recheneffizienz ist.
Die Arbeit positioniert CALM als bedeutenden Konkurrenten im branchenweiten Wettlauf um die Entwicklung schnellerer, billigerer und zugänglicherer KI.
Google hat das KI-Geschwindigkeitsproblem mit Methoden wie spekulativen Kaskaden und Nested Learning angegangen. Andere Startups wie Inception erforschen in ihrem „Mercury Coder“ völlig andere Architekturen wie diffusionsbasierte LLMs, um dem „strukturellen Engpass“ der Autoregression zu entgehen.
Zusammen verdeutlichen diese unterschiedlichen Ansätze einen Wandel in der KI-Entwicklung. Die Branche bewegt sich von einem reinen Fokus auf Größenordnung hin zu einem nachhaltigeren Streben nach intelligenterer, wirtschaftlicherer künstlicher Intelligenz. Der vektorbasierte Ansatz von CALM bietet in dieser Hinsicht einen neuen Weg nach vorn.