Naukowcy Microsoft umieścili nowego konkurentów na arenie AI z bitnet B1.58 2B4T , model dużych języków, działający z niezwykle niskimi ciężarami. To, co oddziela ten 2-miliardowy model parametrów, to to, że został wyszkolony natywnie przy użyciu architektury 1,58-bitowej, zamiast kwantyzowanego po szkoleniu.

Obietnica, zgodnie z

Podstawowe roszczenie dotyczy wydajności. Podczas gdy wiele LLM wymaga mocnego sprzętu, Microsoft sugeruje Bitnet B1.58 2B4T, przeszkolony na 4 bilionach tokenów, może skutecznie działać nawet na standardowych procesorach. Ich raport techniczny podkreśla ślad pamięci o niee-zatopieniu zaledwie 0,4 GB, co jest ostrym kontrastem z liczbami od 1,4 GB (GEMMA-3 1B) do 4,8 GB (Minicpm 2B) dla konkurentów.

FoorMermore, Microsoft szacuje, że jego zużycie energii na token jest znacznie niższe (0,028 JULES VS. Zakres 0,186j. inni) i twierdzą szybsze opóźnienie dekodowania procesora (29 milisekund na token vs. 41ms-124ms), gdy uruchamia jego specjalistyczne ramy na sprzęcie testowym (intel Core i7-13800H).

Pod maską: Bitnet podejście

osiągają tę sprawność z pchąd? Jego architektura zamienia standardowe warstwy liniowe dla niestandardowych warstw bitliniowych, które wykorzystują agresywną kwantyzację podczas szkolenia. Zamiast typowych liczb 16-bitowych, wagi modelu są ograniczone podczas przełęczy do przodu do zaledwie trzech możliwych wartości:-1, 0 lub +1.

Ten układ trójskładnikowy (trzypastowy), przy użyciu techniki kwantyzacji „ABMMEAN”, teoretycznie wymaga tylko ~ 1,58 bitów informacji na wagę (pochodzącą z log₂ (3) ≈ 1,58). To „natywne 1-bitowe” podejście szkoleniowe, Microsoft twierdzi na podstawie swoich badań przedstawionych w oryginalnym papierze Bitnet, straty wydajności Sidesteps często powiązane z modelem kompresującym po ich przeszkoleniu (kwantyzacja po treningu lub PTQ).

Wraz z ciężarami trójskładnikowymi, wartości przekazywane między warstwami (aktywacje) są kwantyfikowane do 8-bitowych instancji za pomocą „Ammmax”. W1.58A8 (wagi 1,58-bitowe, 8-bitowe aktywacje). Architektura modelu jest oparta na transformatorze, ale zawiera określone korekty odpowiednie dla tego niskiego bitowego reżimu: wykorzystuje kwadratowe funkcje aktywacyjne RELU (RELU²) zastępują Swiglu, wykorzystuje standardowe osadzanie pozycji obrotowej (ROPE) do danych pozycyjnych, wykorzystuje normalizację Sybln (pod kątem korzyści stabilności w szkoleniu kwantowanym) i pomija BIAS Warunki. Tokenizacja polega na tokenizeru LLAMA 3.

Roszczenia szkoleniowe i wydajności

Opracowanie Bitnet B1.58 2B4T dotyczyło trzech etapów szkolenia. Początkowe wstępne treninowanie obejmowało mieszankę zestawu danych 4-trylionów danych z danych internetowych, kodu i matematyki syntetycznej, wykorzystującą dostosowaną dwustopniową szybkość uczenia się i plan rozpadu masy.

Następnie nauczanie instruktażu i instruktury EvoL i SFT). Wreszcie, bezpośrednia optymalizacja preferencji (DPO)-metoda wyrównania preferencji bez konieczności oddzielnego modelu nagrody-została zastosowana przy użyciu zestawów danych, w tym ultraeedback, aby udoskonalić jego zdolności konwersacyjne i profil bezpieczeństwa.

Oceny Microsoft, szczegółowo opisane w raporcie technicznym, Place Bitnet B1.58 2B4T konkurencyjnie w stosunku do ustalonych modelek parametrów. Podobno pokazuje silniejsze wyniki na niektórych testach porównawczych, takich jak GSM8K (MATH), PIQA (Physical Commonsense) i Winogrande (Commonsense), jednocześnie osiągając porównywalnie na innych.

Raport stwierdza: „Nasze wyniki pokazują, że Bitnet B1.58 2B4T osiąga wydajność w PAR z wiodącą otwartą, pełną rozmiarem rozmiarów, podczas gdy oferuje znaczące programy Compluating w Computational w Computation Wydajność, w tym zasadniczo zmniejszony ślad pamięci, zużycie energii i opóźnienie dekodowania. ” Twierdzi również, że doskonała wydajność w porównaniu do modeli poddanych standardowym metodom INT4 PTQ.

Catch: Uzyskanie wzrostu wydajności

Dostęp do zwilowanej poprawy wydajności modelu nie jest proste ze standardowymi narzędziami. Karta modelu przytulania twarzy ma wyraźne ostrzeżenie: „Nie oczekuj wzrostu wydajności (pod względem prędkości, opóźnień lub zużycia energii) podczas korzystania z tego modelu ze standardową biblioteką transformatorów… Aby osiągnąć korzyści wydajności wykazane w artykule technicznym, musisz użyć dedykowanej implementacji C ++: bitnet.cpp.”

Jest to dlatego, że typowe naczynia GPU i biblioteki nie możesz optymalnie optymalnie implementacji C ++ W1.58A8 Math Bitnet Zatrudnia. Zdanie wydajności wymaga użycia dedykowanych frameworków wnioskowania Microsoft, open source.

Dla procesorów, llama.cpp ), który wykorzystuje metody tabeli wyszukiwania (opisane w powiązanym artykule) do dostarczania zgłoszonych zysków, twierdząc, że prędkości między 1,37x a 6,17x z 55% do 82% redukcji energii w porównaniu z innymi ramkami CPU) w zależności od chipu (ARM/X86) Rozmiar.

W przypadku GPU potrzebne są niestandardowe jądra CUDA, obejmujące pakowanie i rozpakowywanie ciężarów do obliczeń-krok potwierdzający obecne GPU nie jest idealne dla tego rodzaju modelu. To, czy te niestandardowe rozwiązania utrzymują wydajność i stabilność w różnych konfiguracjach sprzętowych, będzie wymagało szerszych testów społeczności. Microsoft planuje przyszłe wsparcie dla NPU i ulepszone obsługi GPU w Bitnet.cpp.

Dostępność i kontekst

Microsoft udostępnił Bitnet B1.58 2B4T href=”https://huggingface.co/microsoft/bitnet-b1.58-2b-4t/blob/main/license”target=”_ puste”> licencja MIT . Użytkownicy mogą znaleźć zapakowane 1,58-bitowe wagi do wydajnego wnioskowania, oddzielnie BF16 Master Wages href=”https://huggingface.co/microsoft/bitnet-b1.58-2b-4t-gguf”target=”_ blank”> format gguf do użytku z bitnet.cpp. Model działa z oknem kontekstu 4096-tokex.

To wydanie kończy się pracą, która rozpoczęła się koncepcyjnie od artykułu opublikowanego w lutym 2024 r., A następnie ramy Bitnet.cpp w październiku 2024 r., Oznaczające pierwsze skalowane, otwarte wydanie modelu na podstawie tego rodzimego 1-bitowego podejścia treningowego z grupy badawczej, której dostępna strona domowa można znaleźć na https://aka.ms/genererai . Naukowcy z Microsoft przedstawili przyszłe plany, w tym szkolenie większych modeli Bitnet, eksplorowanie współczynnika opracowania sprzętu, rozszerzanie długości kontekstu i dodawanie funkcji wielojęzycznych.

Categories: IT Info