Architektura transformatorów zasilająca wiele najbardziej zdolnych modeli dużych dużych języków stoi przed dobrze udokumentowanym wyzwaniem: jej wymagania obliczeniowe rosną kwadratowo, gdy sekwencje wejściowe stają się dłuższe.
Zatrudnianie tej przeszkody, IBM Research, we współpracy z Carnegie Mellon University, Princeton University i University of Illinois Urbana-Champaign. href=”https://research.ibm.com/blog/bamba-ssm-transformer-model”target=”_ blank”> bamba-9b-v2 . Ten nowo wydany model open source wykorzystuje projekt hybrydowy, łącząc komponenty transformatora z architekturą MAMBA2 State-Space Model (SSM).
Zwracanie się do wąskiego gardła transformatora
standardowe transformatory, najpierw szczegółowe w Papie 2017 „uwaga jest wszystkim, czego potrzebujesz” zawdzięczają wiele ich sukcesu mechanizmowi samodoskonalenia.
To pozwala modelowi ocenić znaczenie wszystkich tokenów w sekwencji jednocześnie. Jednak to całkowite porównanie skutkuje potrzebami obliczeniowymi i pamięci, szczególnie w przypadku pamięci podręcznej KV przechowującej stany uwagi, skalując kwadratowo ze zwiększoną długością sekwencji. To „kwadratowe wąskie gardło” sprawia, że przetwarzanie bardzo długie konteksty są coraz bardziej powolne i kosztowne, problem podkreślony w dyskusjach branżowych na początku tego roku dotyczących zrównoważonego skalowania modeli AI.
podejście hybrydowe: łączenie modeli transformatorów i przestrzeni stanu
Bamba włączają Modele state-space (ssms) , koncepcja teorii kontroli dostosowane do głębokiego uczenia się , aby złagodzić nieefektywności transformatora. Zastosowanym specyficznym wariantem jest mamba2, opracowane przez Alberta Gu (CMU) i tri dao (Princeton) .
ssms wykorzystuje kompresję, stałą, stałą, stałą, stałą informację, zezwolenie na sekwencję o sekwencji in-side in. czas liniowy podczas treningu (poprzez widok splotowy) i stały czas na token podczas wnioskowania (poprzez powtarzający się widok). Ankit Gupta, badacz IBM zaangażowany w fundamentalną pracę SSM, zauważył ich tradycyjną rolę: „Są chlebem i masłem inżynierii elektrycznej-przetwarzanie sygnałów, robotyka i teoria kontroli.”
Architektura Bamba strategicznie przeplata te wydajne warstwy Mamba2 z standardowymi blokami uwagi transformatora. Celem jest efektywne wykorzystanie SSM do skutecznego obsługi zależności dalekiego zasięgu przy jednoczesnym zwróceniu uwagi dla jego silnych możliwości zrozumienia kontekstowego.
IBM Roszczenia o cele lama 3.1 8b na kluczowych streszczech, pomimo znacznie większego zestawu danych LLAMA 3.1 (15t+ Tokens). BAMBA obecnie uruchamia wnioskowanie 2 do 2,5 razy szybciej niż transformatory o podobnej wielkości, przypisując to przede wszystkim zmniejszonym zapotrzebowaniu na pamięć podręczną KV. Raghu Ganti z IBM, kierujący projektem Bamba, podkreślił: „Wszystko wraca do redukcji pamięci podręcznej KV… większa przepustowość, niższa opóźnienie, dłuższa długość kontekstu.„
Ocena tych korzyści prędkości i potencjalnych różnic w zakresie zużycia energii w różnych scenariuszach w świecie rzeczywistym będą ważne kolejne stopnie.