De transformator-architectuur die veel van de meest capabele grote taalmodellen van vandaag aandrijft, staat voor een goed gedocumenteerde uitdaging: de computationele eisen groeien quadratisch naarmate inputsequenties langer worden.

Het aanpakken van deze efficiëntie-hindernis, IBM Research, in samenwerking met Carnegie Mellon University, Princeton University, en de universiteit van Illinois-champaign, heeft een geïntroduceerde bamba-9b-v2 . Dit nieuw uitgebrachte open-source-model maakt gebruik van een hybride ontwerp, waarbij transformatorcomponenten worden gecombineerd met de Mamba2 State-Space Model (SSM)-architectuur.

De transformator knelpunten href=”https://arxiv.org/abs/1706.03762″target=”_ blank”>”Aandacht is alles wat je nodig hebt,” is veel van hun succes verschuldig src=”https://winbuzzer.com/wp-content/uploads/2024/12/ai-artificial-intelligence-abstract.webp”>

Hierdoor kan het model de relevantie van alle tokens in een reeks gelijktijdig tegelijkertijd beoordelen. Deze alles-tot-all vergelijking resulteert echter in berekening en geheugenbehoeften, met name voor de KV-cache die aandachtstoestanden opslaat, kwadratisch schalen met een verhoogde sequentielengte. Dit”kwadratische knelpunten”maakt het verwerken van zeer lange contexten steeds langzamer en duurder, een probleem dat eerder dit jaar in de industrie wordt benadrukt met betrekking tot de duurzaamheid van het schalen van AI-modellen.

hybride benadering: samenvoeging transformatoren en staatspacemodellen

bamba Insulteert State-Space Models (SSMS) , Een concept van controletheorie aangepast voor diep leren , om inefficiënties in transformator te verminderen. De gebruikte specifieke variant is mamba2, ontwikkeld door Albert gu (cmu) en tri dao (princeton) . Lineaire tijd tijdens de training (via een convolutionele weergave) en constante tijd per token tijdens inferentie (via een terugkerende weergave). Ankit Gupta, een IBM-onderzoeker die betrokken is bij fundamenteel SSM-werk, merkte hun traditionele rol op:”Ze zijn het brood en de boter van elektrotechniek-signaalverwerking, robotica en besturingstheorie.”

De Bamba-architectuur interleeft strategisch in elkaar van deze efficiënte Mamba2-lagen met standaardtransformatieblokken. Het doel is om SSM’s te gebruiken voor het efficiënt afhandelen van langeafstandsafhankelijkheid, terwijl de aandacht wordt vastgehouden voor zijn sterke contextuele begrip.

IBM’s prestatieclaims voor de bamba-9b-9b-9b-9b-9b-9b-v2 Model Gekwantiseerde versie (het verminderen van de grootte van 18 GB tot 9 GB), zijn veelbelovend. Het model, getraind op 3 biljoen tokens, komt naar verluidt overeen met META’s llama 3.1 8b Op sleutelbenchmarks, ondanks LLAMA 3.1’s dataSet (15t+ tokens). Bamba loopt momenteel 2 tot 2,5 keer sneller dan transformatoren van vergelijkbare grootte, waardoor dit in de eerste plaats wordt toegeschreven aan verminderde KV-cache-eisen. IBM’s Raghu Ganti, die het Bamba-project leidde, benadrukte:”Alles komt terug naar de KV-cache-reductie… meer doorvoer, lagere latentie, langere contextlengte.”

Evalueren van deze snelheidsvoordelen en potentiële stroomverbruikverschillen en een open ontwikkelingsproces IBM en zijn medewerkers geven Bamba uit onder een open model, bieden toegang tot modelgewichten, trainingsdetails en code via de _ blank”> _ blank”> _ blank”> _ blank project’s GitHub repository.

The creation of Bamba V2 betrof verschillende fasen, beginnend bij de eerste 2T-token Bamba V1 (uitgebracht rond Kerstmis 2024). Ten eerste werd de training uitgebreid tot 2.5T-tokens met behulp van de olmo mix Dataset. Vervolgens werden twee afzonderlijke modellen getraind tot 3T-tokens met behulp van een aangepaste mix inclusief nemotron-CC-gegevens, elk met een ander leersnelheidsschema (constant versus cosinus verval). Ten slotte werden beide 3T-modellen”gegloeid”op 100B hoogwaardige tokens voordat ze werden samengevoegd met behulp van Mergevekit’s gewogen gemiddelde.

Optimalisatie van inferentieprestaties blijft een belangrijke focus. Het team werkt actief samen met de Vllm-gemeenschap Om ondersteuning te verbeteren voor Mamba2’s State Management, dat verschilt van standaard KV Caching.

Tyler Smith, een technisch personeelslid bij Red Hat en Vllm COMTERS AT HET ROD HATT en VLLM BETOLTERD IN DE STATE BEHEEMTE IN DE STECTIEVERDRACHT, Opgemerkt:”SSM’s zijn moeilijk te ondersteunen, omdat u op maat gemaakte staatsmanagement nodig hebt.”Toekomstige verbeteringen zijn gericht op Chunked Prefill en snellere aangepaste decodeer-kernels, waardoor het snelheidsvoordeel van Bamba mogelijk wordt verhoogd tot 4-5x ten opzichte van traditionele transformatoren. Het team nodigt de open-source gemeenschap uit om bij te dragen, met name bij het testen van lang-contextschaling en het verbeteren van wiskundige prestaties.

De Bamba-architectuur vertegenwoordigt meer dan alleen een onderzoeksonderzoek. IBM heeft bevestigd dat belangrijke functies van het Bamba-project worden opgenomen in de aankomende IBM Granite 4.0 Enterprise-modellen, ingesteld voor release in de komende maanden. Deze geplande integratie benadrukt de groeiende industriële interesse in hybride AI-architecturen als een praktisch pad naar efficiëntere en schaalbare taalmodellen die in staat zijn om de steeds langere contextbehoeften van moderne AI-toepassingen te verwerken.

.

Categories: IT Info