Onderzoekers van Tencent AI Lab hebben een nieuw AI-framework onthuld dat is ontworpen om de snelheidslimieten van de huidige grote taalmodellen te doorbreken.

Het systeem wordt gedetailleerd beschreven in een artikel dat deze week online is gepubliceerd en heet CALM, voor Continuous Autoregressieve Taalmodellen. Het daagt op directe wijze het langzame, token-voor-token-proces uit dat de meeste generatieve AI vandaag de dag aanstuurt.

In plaats van één klein stukje van een woord tegelijk te voorspellen, leert CALM een enkele vector te voorspellen die een heel stuk tekst vertegenwoordigt. Deze methode zou het genereren van AI veel sneller en efficiënter kunnen maken, waardoor een nieuw pad wordt geopend voor het schalen van modellen.

De tirannie van het token: het autoregressieve knelpunt van AI

Een fundamentele zwakte van moderne LLM’s is hun afhankelijkheid van autoregressieve, token-voor-token generatie. Deze sequentiële afhankelijkheid is het grootste knelpunt dat de snelheid en schaalbaarheid van AI beperkt.

Het genereren van een lang artikel vereist duizenden opeenvolgende voorspellingsstappen, waardoor het proces computationeel duur en traag wordt. Dit is niet alleen een academisch probleem; daarom is het gebruik van krachtige modellen kostbaar en blijft het in realtime genereren van lange formulieren een uitdaging.

Dit efficiëntieprobleem is een centraal strijdtoneel geworden voor AI-ontwikkelaars. Zoals Google Research eerder opmerkte, is het”een cruciale uitdaging om deze modellen sneller en goedkoper te maken zonder dat dit ten koste gaat van de kwaliteit.”

De industrie heeft talloze oplossingen onderzocht, van de speculatieve cascades van Google tot nieuwe compressietechnieken. Nu stelt het werk van Tencent een radicalere oplossing voor.

Het artikel stelt een blauwdruk voor voor een nieuwe klasse van ultra-efficiënte taalmodellen en voor het door tokens veroorzaakte knelpunt voor snelheid.

Het doel is om de voorspellingseenheid fundamenteel te veranderen van een enkel token met weinig informatie naar iets veel rijkers.

Een nieuw paradigma: vectoren voorspellen in plaats van tokens

In een directe uitdaging Naar de status quo van generatieve AI herformuleert CALM de voorspellingstaak volledig. De onderzoekers stellen een nieuwe schaalas voor LLM’s voor.

“Wij stellen dat het overwinnen van dit knelpunt een nieuwe ontwerpas voor LLM-schaling vereist: het vergroten van de semantische bandbreedte van elke generatieve stap”, schrijven ze in het artikel.

Door deze”semantische bandbreedte”te vergroten, kan het model meer informatie in één stap verwerken. CALM bereikt dit door een innovatief tweefasig proces dat in een continue, in plaats van discrete, ruimte werkt.

De kern van CALM’s ontwerp is een hifi-autoencoder. Deze component leert een deel van K-tokens – bijvoorbeeld vier tokens – te comprimeren tot een enkele, dichte, continue vector.

Cruciaal is dat het de originele tokens uit deze vector kan reconstrueren met een nauwkeurigheid van meer dan 99,9%. Een afzonderlijk taalmodel voert vervolgens autoregressieve voorspellingen uit in deze nieuwe vectorruimte.

Volgens de officiële documentatie van het project,”leert CALM, in plaats van één afzonderlijk token tegelijk te voorspellen, een enkele continue vector te voorspellen die een heel deel van K-tokens vertegenwoordigt.”

Dit vermindert het aantal generatieve stappen met een factor van K, wat tot aanzienlijke efficiëntiewinsten leidt.

De Likelihood-Free Toolkit: hoe CALM succes leert en meet

De overstap van discrete tokens naar continue vectoren introduceert een grote uitdaging: het model kan niet langer een expliciete waarschijnlijkheidsverdeling over alle mogelijke uitkomsten berekenen met behulp van een standaard softmax-laag.

Dit maakt traditionele trainings-en evaluatiemethoden, die afhankelijk zijn van het berekenen van waarschijnlijkheden, niet toepasbaar. Om dit op te lossen heeft het Tencent-team een ​​alomvattend, waarschijnlijkheidsvrij raamwerk ontwikkeld.

Voor training gebruikt CALM een Energy-Based Training-methode, die een strikt correcte scoreregel gebruikt om het model te begeleiden zonder de waarschijnlijkheid te hoeven berekenen.

Voor evaluatie introduceerden de onderzoekers een nieuwe metriek genaamd BrierLM. BrierLM wijkt af van traditionele statistieken zoals perplexiteit en is afgeleid van de Brier-score, een hulpmiddel voor probabilistische voorspellingen.

Het maakt een eerlijke, op steekproeven gebaseerde vergelijking van modelmogelijkheden mogelijk door te controleren hoe goed voorspellingen aansluiten bij de werkelijkheid, een methode die perfect geschikt is voor modellen waarbij waarschijnlijkheden hardnekkig zijn.

Een nieuwe as voor AI-schaling en de race om efficiëntie

De praktische impact van deze nieuwe architectuur is een superieure afweging tussen prestaties en rekenkracht.

Het CALM-model vermindert de rekenvereisten voor training met 44% en de gevolgtrekking met 33% vergeleken met een sterke basislijn. Dit toont aan dat het opschalen van de semantische bandbreedte van elke stap een krachtige nieuwe hefboom is voor het verbeteren van de rekenefficiëntie.

Het werk positioneert CALM als een belangrijke concurrent in de branchebrede race om snellere, goedkopere en toegankelijkere AI te bouwen.

Google heeft het AI-snelheidsprobleem aangepakt met methoden als speculatieve cascades en Nested Learning. Andere startups, zoals Inception, onderzoeken geheel andere architecturen, zoals op diffusie gebaseerde LLM’s in hun “Mercury Coder” om te ontsnappen aan het”structurele knelpunt”van autoregressie.

Samen benadrukken deze gevarieerde benaderingen een verschuiving in de AI-ontwikkeling. De industrie evolueert van een pure focus op schaal naar een duurzamer streven naar slimmere, economisch haalbare kunstmatige intelligentie. De vectorgebaseerde aanpak van CALM biedt op dat vlak een nieuwe weg voorwaarts.

Categories: IT Info