Architektura transformatorów zasilająca wiele najbardziej zdolnych modeli dużych dużych języków stoi przed dobrze udokumentowanym wyzwaniem: jej wymagania obliczeniowe rosną kwadratowo, gdy sekwencje wejściowe stają się dłuższe.

Zatrudnianie tej przeszkody, IBM Research, we współpracy z Carnegie Mellon University, Princeton University i University of Illinois Urbana-Champaign. href=”https://research.ibm.com/blog/bamba-ssm-transformer-model”target=”_ blank”> bamba-9b-v2 . Ten nowo wydany model open source wykorzystuje projekt hybrydowy, łącząc komponenty transformatora z architekturą MAMBA2 State-Space Model (SSM).

Zwracanie się do wąskiego gardła transformatora

standardowe transformatory, najpierw szczegółowe w Papie 2017 „uwaga jest wszystkim, czego potrzebujesz” zawdzięczają wiele ich sukcesu mechanizmowi samodoskonalenia.

To pozwala modelowi ocenić znaczenie wszystkich tokenów w sekwencji jednocześnie. Jednak to całkowite porównanie skutkuje potrzebami obliczeniowymi i pamięci, szczególnie w przypadku pamięci podręcznej KV przechowującej stany uwagi, skalując kwadratowo ze zwiększoną długością sekwencji. To „kwadratowe wąskie gardło” sprawia, że ​​przetwarzanie bardzo długie konteksty są coraz bardziej powolne i kosztowne, problem podkreślony w dyskusjach branżowych na początku tego roku dotyczących zrównoważonego skalowania modeli AI.

podejście hybrydowe: łączenie modeli transformatorów i przestrzeni stanu

Bamba włączają Modele state-space (ssms) , koncepcja teorii kontroli dostosowane do głębokiego uczenia się , aby złagodzić nieefektywności transformatora. Zastosowanym specyficznym wariantem jest mamba2, opracowane przez Alberta Gu (CMU) i tri dao (Princeton) .

ssms wykorzystuje kompresję, stałą, stałą, stałą, stałą informację, zezwolenie na sekwencję o sekwencji in-side in. czas liniowy podczas treningu (poprzez widok splotowy) i stały czas na token podczas wnioskowania (poprzez powtarzający się widok). Ankit Gupta, badacz IBM zaangażowany w fundamentalną pracę SSM, zauważył ich tradycyjną rolę: „Są chlebem i masłem inżynierii elektrycznej-przetwarzanie sygnałów, robotyka i teoria kontroli.”

Architektura Bamba strategicznie przeplata te wydajne warstwy Mamba2 z standardowymi blokami uwagi transformatora. Celem jest efektywne wykorzystanie SSM do skutecznego obsługi zależności dalekiego zasięgu przy jednoczesnym zwróceniu uwagi dla jego silnych możliwości zrozumienia kontekstowego.

IBM Roszczenia o cele lama 3.1 8b na kluczowych streszczech, pomimo znacznie większego zestawu danych LLAMA 3.1 (15t+ Tokens). BAMBA obecnie uruchamia wnioskowanie 2 do 2,5 razy szybciej niż transformatory o podobnej wielkości, przypisując to przede wszystkim zmniejszonym zapotrzebowaniu na pamięć podręczną KV. Raghu Ganti z IBM, kierujący projektem Bamba, podkreślił: „Wszystko wraca do redukcji pamięci podręcznej KV… większa przepustowość, niższa opóźnienie, dłuższa długość kontekstu.„

Ocena tych korzyści prędkości i potencjalnych różnic w zakresie zużycia energii w różnych scenariuszach w świecie rzeczywistym będą ważne kolejne stopnie.

Proces otwarty i treningowy>

IBM i jego współpracownicy uwalniają Bamba pod otwartym modelem, zapewniając dostęp do masy modelu, szczegółów treningu i kodu za pośrednictwem Hugbe BAMBA repozytorium Github .

Obejmowało kilka etapów, zaczynając od początkowego tokenu 2T Bamba V1 (wydanego około Bożego Narodzenia 2024). Po pierwsze, szkolenie zostało rozszerzone do tokenów 2,5T przy użyciu olmo mix Zestaw danych. Następnie dwa oddzielne modele zostały przeszkolone do 3T tokenów przy użyciu niestandardowego miksu, w tym danych NEMOTRON-CC, każdy z innym harmonogramem szybkości uczenia się (stała vs. rozkład cosinus). Wreszcie, oba modele 3T zostały „wyżarzone” na tokenach wysokiej jakości 100B, zanim zostały scalone przy użyciu ważonego uśredniania Mergekit.

Optymalizacja wydajności wnioskowania pozostaje kluczowym celem. Zespół aktywnie współpracuje z vllm społeczność w celu zwiększenia wsparcia dla zarządzania stanem MAMBA2, co różni się od standardowego packowania KV.

tyler Smith, techniczny członek personelu w Red Hat i VllM In comter, który inspirowany jest wysiłek, który inspirowany jest próba stanu, która jest inna. Zauważono: „SSM są trudne do wsparcia, ponieważ potrzebujesz ds. Zarządzania państwem”. Przyszłe ulepszenia są skierowane do fragmentacji i szybszego niestandardowego dekodowania jądra, potencjalnie zwiększając przewagę prędkości Bamby do 4-5x w stosunku do tradycyjnych transformatorów. Zespół zaprasza społeczność typu open source do wniesienia wkładu, szczególnie w sprawie testowania skalowania długiego kontaktu i poprawy wydajności matematycznej.

Architektura Bamba reprezentuje coś więcej niż eksplorację badań. IBM potwierdził, że kluczowe funkcje z projektu Bamba zostaną włączone do nadchodzącego IBM Granite 4.0 Modele przedsiębiorstwa, ustawione do wydania w nadchodzących miesiącach. Ta planowana integracja podkreśla rosnące zainteresowanie branży hybrydowymi architektury AI jako praktyczną ścieżkę do bardziej wydajnych i skalowalnych modeli językowych, które mogą obsługiwać coraz dłuższe wymagania kontekstowe współczesnych aplikacji AI.

Categories: IT Info