Konsorcjum naukowców z University i Amazon zaprezentowało nową architekturę AI, Transformator oparty na energii (EBT). Został zaprojektowany tak, aby wyposażyć modele w bardziej ludzkie umiejętności analityczne. Podejście ma na celu zaszczepienie „myślenia systemu 2″ do AI, która często opiera się na szybkim, intuicyjnym rozpoznawaniu wzorców.

szczegółowo opisane w nowy dokument badawczy , modelek EBT leczy myślenie, jak proces optymalizacji Iteracji. Zaczyna się od losowego rozwiązania i stopniowo go poprawia, aby zminimalizować obliczony wynik „energii”. Podczas gdy wczesne wyniki sugerują, że EBT mogą być bardziej efektywne, metoda wymaga bardziej obliczania.

Podstawowe pytanie projektu, jak to naukowali, brzmi: „Czy można uogólnić te podejścia do myślenia systemu 2 i opracować modele, które uczą się tylko myślenia bez nadzoru?” To kwestionuje obecny paradygmat rozwoju sztucznej inteligencji. Praca jest dostępna na Strona projektu i github .

Od intuicji do analizy: poszukiwanie „Systemu 2″ AI

Architektura EBT stanowi fundamentalne odejście od dominującego paradygmatu AI. Większość obecnych modeli, w tym standardowe transformatory, wyróżniają się na Co Laureat Nobel Daniel Kahneman nazywał „System 1 Myślenie.” To jest szybkie, intuicyjne, które pozwala im formować się Fali Foration Tekst i Lanezon. Obrazy niemal natychmiast.

Jednak modele te często zawieszają się na zadaniach wymagających „myślenia systemu 2″-wolniej, celowego i analitycznego rozumowania, które ludzie zatrudniają w złożonych problemach, takich jak wieloetapowa matematyka lub logiczne zagadki. Framework EBT jest bezpośrednią próbą zbudowania tego głębszego procesu poznawczego bezpośrednio w architekturze modelu.

W jego sercu EBT zmienia prognozę jako zagadkę optymalizacyjną. Standardowy transformator przyjmuje wejście i generuje wyjście w jednym, deterministycznym przełęczy do przodu. W przeciwieństwie do tego, EBT uczy się złożonego, wysokimarowego „krajobrazu energetycznego” dla wszystkich możliwych prognoz związanych z danym kontekstem.

Zamiast bezpośrednio udzielając odpowiedzi, model zaczyna się od przypadkowego, głośnego zgadywania. Następnie wykorzystuje zasady zejścia gradientu, aby iteracyjnie udoskonalić to przypuszczenie, zasadniczo „chodzenie” w dół na wyuczonym krajobrazie energii, aż ustali się w najniższej możliwej punkcie, lub „Dolinie energii”.

Ten najniższy stan energii reprezentuje najbardziej prawdopodobną i kontekstowo spójną odpowiedź. Ten iteracyjny proces udoskonalania jest rdzeniem mechanizmu „myślenia” EBT. Pozwala modelowi zbadać przestrzeń potencjalnych roztworów, a nie zablokować się w jednej ścieżce.

To podejście ma na celu uosabianie trzech kluczowych aspektów poznania często nieobecnych w standardowych modelach. Pierwszym z nich jest dynamiczne przydział obliczeń. W przypadku prostego problemu model może znaleźć minimum energii w zaledwie kilku krokach. W przypadku złożonego może podjąć wiele innych kroków, skutecznie wydając więcej „myśli” na problem.

Drugim aspektem jest możliwość modelowania niepewności. Krajobraz gładkiego energii z jednym wyraźnym minimum wskazuje na wysoką pewność. Wytrzymały krajobraz z wieloma lokalnymi dolinami sugeruje, że model jest niepewny, ponieważ istnieje wiele prawdopodobnych odpowiedzi. Zapewnia to bardziej dopracowane zrozumienie własnej pewności siebie.

Po trzecie, architektura zawiera wewnętrzny mechanizm weryfikacji prognozowania. Ostateczny wynik energii prognozy służy jako wbudowany kontrola jakości. Niski wynik wskazuje na wysokiej jakości, zweryfikowaną odpowiedź, podczas gdy wysoki wynik sygnalizuje biedną, wszystko bez konieczności oddzielnego modelu weryfikatora.

poprzez integrację tych trzech możliwości, EBT ma na celu stworzenie bardziej solidnej i uogólnionej formy rozumowania. Wykracza poza proste generowanie wzorców do procesu aktywnego, iteracyjnego rozwiązywania problemów, oznaczając znaczący krok konceptualny w poszukiwaniu bardziej zdolnej sztucznej inteligencji.

W jaki sposób transformatory oparte na energii „myślą”

Badacze twierdzą, że to podejście daje znaczące przewagi skalowania, przypisując je podstawowi zasady: weryfikujące rozwiązanie jest często wyróżniające się, że generowanie. Podczas gdy standardowy transformator musi nauczyć się bezpośredniej ścieżki do odpowiedzi, EBT uczy się zdobywać „poprawność” dowolnej odpowiedzi-prostsze zadanie, które wydaje się uogólniać skuteczniejsze. Ich papierowy informuje, że EBT skalą bardziej wydajnie niż linia bazowa zaawansowanego transformatora ++, wykazując do 35% wyższą wskaźnik skalowania w odniesieniu do danych.

Ulepszona wydajność danych jest szczególnie godna uwagi. Sugeruje to, że na skalę EBT może osiągnąć taką samą wydajność jak standardowy transformator podczas szkolenia o znacznie mniejszej liczbie danych. W erze, w której branża zbliża się do granic wysokiej jakości danych szkoleniowych dostępnych w Internecie, opracowanie bardziej efektywnych architektur jest krytycznym celem strategicznym dla dalszego postępu AI.

takie „myślenie” manifestuje na dwa kluczowe sposoby podczas wnioskowania. Po pierwsze, model może wykonywać bardziej iteracyjne etapy udoskonalania jednej prognozy, skutecznie poświęcając więcej obliczeń trudnym problemem. Po drugie, może wygenerować kilka odpowiedzi kandydujących i wykorzystać swoją wewnętrzną funkcję energii do samorozdawcy i wybrać tę z najniższą energią, co wskazuje na najwyższą kompatybilność. To zwiększenie wydajności jest najbardziej wymawiane na zadaniach poza dystrybucją (OOD)-problemów różnią się od danych szkoleniowych.

Autorka Alexi Gladstone stwierdza, że ​​„transformatory oparte na energii są pierwszym podejściem do przeskakiwania transformatorów z przodu w różnych modalnościach i odnoszących się do kilku osi, w tym danych, głębokości, parametrów, flopów itp.” Poprzez „myślenie” dłużej w wniosku EBTS poprawił wykonywanie zadania językowego nawet o 29%. Sugeruje to, że proces iteracyjny pozwala im bardziej solidniej rozumować w nowych sytuacjach, w których standardowe modele mogą polegać na wadliwym dopasowaniu wzorców.

obiecujące wyniki, ale przy znacznych kosztach

pomimo obiecujących wyników, architektura EBT ma poważną przeszkodę: koszt obliczeniowy. Szkolenie tych modeli wymaga obecnie od 3,3 do 6,6 razy więcej operacji zmiennoprzecinkowych (klapów) niż standardowe transformatory. Ten znaczący koszt ogólny nie jest tylko teoretycznym problemem; Stanowi znaczącą barierę w adopcji, potencjalnie ograniczając badania i rozwój EBT tylko do najbardziej dobrze finansowanych laboratoriów akademickich i dużych korporacji technologicznych o ogromnych zasobach obliczeniowych.

Wymagania o wysokim flopie wynika bezpośrednio z iteracyjnego procesu optymalizacji u podstaw projektu EBT. W przeciwieństwie do pojedynczego przełęczy standardowego modelu, każdy etap udoskonalania w EBT obejmuje złożone obliczenia gradientu w celu ustalenia kierunku następnego „myśli”. Proces ten, który wymaga obliczania pochodnych drugiego rzędu (lub wydajnych przybliżeń, takich jak produkty Hessian-Vector), jest zasadniczo bardziej intensywny. Zespół przyznaje, że jest to kluczowy obszar przyszłych prac optymalizacyjnych, ponieważ uczynienie tego procesu „myślenia” jest niezbędne do praktycznego wdrażania.

Ponadto wstępne eksperymenty przeprowadzono w modelach z do 800 milionów parametrów. Jest to ułamek wielkości największych systemów AI, które często przekraczają setki miliardów parametrów. Skalowanie architektury o rzędu wielkości jest niezwykle trudne, często ujawniając nieprzewidziane wyzwania, takie jak niestabilność szkolenia lub krajobrazy energetyczne, które stają się zbyt złożone, aby skutecznie nawigować. Dlatego pozostaje otwartym pytaniem, czy korzyści z wydajności zaobserwowane w tej mniejszej skali będą się utrzymywać, a nawet wzmocnić, gdy zastosowano do modeli granicznych.

Ostatecznie EBT przedstawia fundamentalną kompromis dla społeczności AI: czy potencjał bardziej solidnego, podobnego do człowieka rozumowania wartego kilkukrotnego wzrostu kosztów szkolenia i wnioskowania? Odpowiedź prawdopodobnie będzie zależeć od aplikacji. W przypadku zadań naukowych lub analitycznych o wysokich stawkach cena może być uzasadniona, ale w przypadku ogólnego zastosowania analiza kosztów i korzyści pozostaje kwestią krytyczną i nierozwiązaną.

Szerszy przemysł dla wydajności AI

Pojawia się koncepcja EBT, która przychodzi szersze przemysłowe naciski dla większej AI. Kilka firm zajmuje się tym wyzwaniem z różnych stron, podkreślając krytyczną potrzebę zmniejszenia ogromnych kosztów związanych z na dużą skalę AI.

Te konkurencyjne metody zajmują się wydajnością na różnych etapach. Compactifai Multiverse kompresuje sam model statyczny. Namms Sakana optymalizuje dynamiczną pamięć podręczną KV podczas wnioskowania. Bamba IBM używa architektury hybrydowej do przyspieszenia przetwarzania sekwencji.

Natomiast EBT zasadniczo zmienia sam mechanizm przewidywania. Zamiast optymalizować gotowy model lub jego pamięć, EBTS integrują proces „myślenia” bezpośrednio z tworzeniem każdej prognozy, dążąc do lepszego uogólnienia i rozumowania od podstaw.

Na przykład hiszpański komputer multiverse komputerowy koncentruje się na kompresji modelu. Jego dyrektor generalny, Enrique Lizaso Olmos, zauważył: „panującą mądrością jest to, że kurczenie się LLM kosztuje. Multiverse to zmienia”. Tymczasem model Bamba ma na celu prędkość wnioskowania.

Projekt Raghu Ganti wyjaśnił strategię: „Wszystko wraca do redukcji pamięci podręcznej KV… większa przepustowość, niższa opóźnienie, dłuższa długość kontekstu”. Inne innowacje, takie jak system optymalizacji pamięci Sakana AI, mają również na celu zwiększenie wydajności transformatorów. Naukowcy Sakany odkryli, że „ewolucja z natury pokonuje brak różnicowości naszych operacji zarządzania pamięcią, które obejmują binarne wyniki„ zapamiętania “lub„ zapomnij “.”

Te różnorodne podejścia pokazują zmianę rozwoju AI. Wraz ze wzrostem modeli przemysł ściga się, aby znaleźć zrównoważone sposoby ich szkolenia i wdrażania. Badacze EBT uważają, że ich praca jest kluczową częścią tej przyszłości, stwierdzając, że „EBT są obiecującym nowym paradygmatem do skalowania zarówno możliwości uczenia się, jak i myślenia modeli.”

Categories: IT Info