Die Transformer-Architektur, die viele der fähigsten großartigen Modelle von heute vor einer gut dokumentierten Herausforderung anträgt: Die rechnerischen Anforderungen wachsen quadratisch, wenn Input-Sequenzen länger werden. href=”https://research.ibm.com/blog/bamba-ssm-transformer-model”target=”_ leer”> bamba-9b-v2 . Dieses neu veröffentlichte Open-Source-Modell verwendet ein Hybriddesign, das Transformatorkomponenten mit der SSM-Architektur (Mamba2 State-Space Model) kombiniert. href=”https://arxiv.org/abs/1706.03762″target=”_ leer”>”Aufmerksamkeit ist alles, was Sie brauchen”, verdankt viel von ihrem Erfolg dem Selbstbekämpfungsmechanismus.

Dies ermöglicht das Modell, die Relevanz von All-Token in einer Sequenz gleichzeitig zu bewerten. Dieser All-zu-All-alles-Vergleich führt jedoch zu den Berechnungs-und Speicherbedürfnissen, insbesondere zu den KV-Cache-Speicherzuständen, wobei die Aufmerksamkeitszustände quadratisch mit erhöhter Sequenzlänge skaliert werden. Dieser „quadratische Engpass“ macht die Verarbeitung sehr langer Kontexte immer langsamer und kostspieliger, ein Problem, das in Branchengespräche zu Beginn dieses Jahres in Bezug auf die Nachhaltigkeit der Skalierung von AI-Modellen hervorgehoben wurde. href=”https://en.wikipedia.org/wiki/mamba_(deep_learning_architecture)”target=”_ leer”> State-Space-Modelle (SSMS) , ein Konzept aus der Kontrolltheorie für Deep Learning angepasst, um Transformator-Ineffizienzen zu mindern. Die verwendete spezifische Variante ist mamba2, entwickelt von Albert Gu (CMU) und Tri DAO (Princeton) . Zeit während des Trainings (über eine Faltungsansicht) und eine konstante Zeit pro Token während der Inferenz (über eine wiederkehrende Ansicht). Ankit Gupta, ein IBM-Forscher, der an grundlegenden SSM-Arbeiten beteiligt war, stellte ihre traditionelle Rolle fest: „Sie sind das Brot und die Butter der Elektrotechnik-Signalverarbeitung, Robotik und Kontrolltheorie.”Ziel ist es, SSMs für die effiziente Umstellung von Abhängigkeiten mit Langstrecken zu nutzen und gleichzeitig die Aufmerksamkeit für seine starken kontextuellen Verständnisfunktionen beizubehalten. Version (Reduzierung der Größe von 18 GB auf 9 GB) ist vielversprechend. Das Modell, das auf 3 Billionen Token trainiert wurde, entspricht Berichten zufolge Metas llama 3.1 8b für Schlüsselgenchmarken. Derzeit führt die Inferenz von 2 bis 2,5-mal schneller aus als mit ähnlichen Transformatoren, was dies hauptsächlich auf reduzierte KV-Cache-Anforderungen zurückzuführen ist. IBMs Raghu Ganti, der das Bamba-Projekt leitete, betonte: „Alles kommt auf die KV-Cache-Reduktion zurück… mehr Durchsatz, niedrigere Latenz, längere Kontextlänge.“

IBM und seine Mitarbeiter veröffentlichen Bamba unter einem offenen Modell und bieten Zugriff auf Modellgewichte, Trainingsdetails und Code über Github-Repository des Projekts . V2 umfasste mehrere Bühnen, beginnend mit dem ersten 2T-Token Bamba V1 (um Weihnachten 2024 veröffentlicht). Zunächst wurde das Training mit dem olmo mix Datensatz auf 2,5-t-Token erweitert. Anschließend wurden zwei separate Modelle mit einem benutzerdefinierten Mix mit Nemotron-CC-Daten bis zu 3T-Token geschult, jeweils einen anderen Lernrate-Zeitplan (konstanter vs. Cosinus-Zerfall). Schließlich wurden beide 3T-Modelle auf 100B-Token mit hoher Qualität”getempert”, bevor sie mit der gewichteten Mittelung von Mergekit zusammengeführt wurden. Das Team arbeitet aktiv mit dem vllm Community Um die Unterstützung für Mamba2-State-Management zu verbessern, die sich unter den Standard-Kv-Caching-Mamba2-State-Smiths-Anhänger unterscheiden. Bekannt:”SSMs sind schwer zu unterstützen, weil Sie maßgeschneidertes Staatsmanagement benötigen.”Zukünftige Verbesserungen zielen auf vorgefertigte und schnellere benutzerdefinierte Dekodienkernel und steigern möglicherweise den Geschwindigkeitsvorteil von Bamba gegenüber traditionellen Transformatoren für 4-5x. Das Team lädt die Open-Source-Community ein, einen Beitrag zu leisten, insbesondere zum Testen der langkontexten Skalierung und der Verbesserung der mathematischen Leistung. IBM hat bestätigt, dass wichtige Funktionen aus dem Bamba-Projekt in die kommende IBM Granite 4.0 Enterprise-Modelle, die in den kommenden Monaten veröffentlicht werden sollen, integriert werden. Diese geplante Integration zeigt das wachsende Interesse der Branche an hybriden KI-Architekturen als praktischer Weg zu effizienteren und skalierbaren Sprachmodellen, die den zunehmend langen Kontextanforderungen moderner AI-Anwendungen bearbeiten können.

Categories: IT Info