Chiński gigant technologiczny Alibaba ujawnił nowy, potężny system, który obniża koszty stosowania sztucznej inteligencji nawet o 82 procent.

Technologia o nazwie Aegaeon odpowiada na kluczowe wyzwanie stojące przed dostawcami usług w chmurze: jak wydajnie obsługiwać tysiące wyspecjalizowanych modeli sztucznej inteligencji, z których klienci korzystają rzadko.

W badaniach zaprezentowanych podczas Sympozjum na temat zasad systemów operacyjnych (SOSP) w Seulu – jedno z najbardziej prestiżowych wydarzeń w informatyce – Alibaba szczegółowo opisała, w jaki sposób inteligentne planowanie firmy Aegaeon łączy kosztowny sprzęt GPU znacznie skuteczniej niż obecne metody.

Podczas trzymiesięcznego okresu próbnego system umożliwił Alibaba Cloud obsługę ogromnej kolekcji modeli przy użyciu zaledwie 213 procesorów graficznych zamiast 1192, drastycznie obniżając koszty operacyjne rynku sztucznej inteligencji.

Innowacja jest bezpośrednio ukierunkowana na ogromne marnotrawstwo nieodłącznie związane z dzisiejszą infrastrukturą sztucznej inteligencji. Dane własne Alibaba ujawniły wyraźną nierównowagę: 17,7% jej floty procesorów graficznych było zajętych obsługą „długiego ogona” modeli niszowych, które stanowiły zaledwie 1,35% wszystkich żądań klientów.

W przypadku platform chmurowych obsługujących rosnący rynek różnorodnych modeli ta nieefektywność oznacza ogromne i niezrównoważone wydatki operacyjne.

Rozwój Aegaeon, którego współautorem jest CTO Alibaba Cloud, Zhou Jingren, sygnalizuje strategiczne dążenie wysokiego szczebla do rozwiązania tego problemu.

Od bezczynnych procesorów graficznych do inteligentnego planowania: przełom w Aegaeon

W swojej istocie Aegaeon zastępuje prymitywne skalowanie na poziomie żądań stosowane w wielu systemach znacznie bardziej szczegółowym „automatycznym skalowaniem na poziomie tokena” podejście.

Tradycyjne systemy muszą poczekać, aż model całkowicie zakończy generowanie odpowiedzi dla jednego użytkownika. Proces ten blokuje procesor graficzny, powodując poważne „blokowanie na początku linii”, w wyniku którego pilne żądania dotyczące innych modeli utknęły w kolejce za długotrwałym zadaniem.

Architektura Aegaeon jest inteligentniejsza. Może wstrzymać proces modelu w połowie generacji, na zasadzie token po tokenie, aby szybko obsłużyć nowo otrzymane żądanie dotyczące innego modelu na tym samym sprzęcie.

To planowanie z wywłaszczaniem umożliwia pojedynczemu procesorowi graficznemu płynną obsługę wielu różnych modeli — do siedmiu na procesor graficzny w testach — bez dużych opóźnień, które naruszają cele poziomu usług.

Zgodnie z artykuł badawczy ta szczegółowa kontrola jest niezwykle skuteczna. Aegaeon wykorzystuje szereg optymalizacji pełnego stosu, w tym ponowne wykorzystanie komponentów w celu przyspieszenia ponownej inicjalizacji silnika i jawne zarządzanie pamięcią w celu zapobiegania fragmentacji, co razem zmniejsza typowy narzut związany z automatycznym skalowaniem o niezwykłe 97%.

W rezultacie Alibaba twierdzi, że Aegaeon może obsłużyć od 2 do 2,5 razy większą liczbę żądań niż rozwiązania alternatywne, zasadniczo zmieniając ekonomikę obsługi zróżnicowanego modelu katalog.

Beyond Brute Force: jak skalowanie na poziomie tokena rozwiązuje problem długiego ogona sztucznej inteligencji

Ten przełom w wydajności operacyjnej różni się od innowacji, które zmniejszają koszty szkolenia AI. Choć debiut Aegaeon zapewnia ogromne oszczędności, nie jest powtórką momentu DeepSeek ze stycznia 2025 r.

W tym wydarzeniu artykuł chińskiej firmy DeepSeek sugerował radykalnie tańsze metody szkoleniowe, co spowodowało poważną wyprzedaż akcji firm technologicznych, która szczególnie mocno uderzyła w producentów procesorów graficznych, takich jak Nvidia.

Zamiast tego Aegaeon stawia czoła równie krytycznemu, choć mniej przyciągającemu uwagę, wyzwaniu wnioskowania koszty — cena faktycznie *uruchamianego* modeli AI w produkcji.

Rozwiązanie tego problemu jest dla Alibaba strategiczną koniecznością. Firma realizuje agresywną strategię sztucznej inteligencji, udostępniając ciągły strumień modeli open source i zastrzeżonych do zadań od kodowania po rozumowanie multimodalne.

Ta właśnie strategia tworzy „długi ogon” wyspecjalizowanych modeli, co czyni Aegaeon tak cennym. Budując wydajną platformę do ich obsługi, Alibaba może uczynić swój rozległy rynek sztucznej inteligencji opłacalnym ekonomicznie.

Nowy front w wyścigu zbrojeń sztucznej inteligencji: ogólnobranżowy nacisk na efektywność

Skupienie się Alibaby na harmonogramowaniu jest jednym z kilku frontów ogólnobranżowej wojny z oszałamiającymi kosztami sztucznej inteligencji.

Przy utrzymaniu ceny zarówno szkoleń, jak i wnioskowania kluczową przeszkodą w powszechnym przyjęciu, główni gracze atakują problem wydajności z różnych punktów widzenia, tworząc zróżnicowany krajobraz innowacji, w którym optymalizowana jest każda część stosu sztucznej inteligencji.

Jednym z popularnych podejść jest przeprojektowanie samej architektury modelu. Na przykład najnowsze modele IBM Granite 4.0 wykorzystują konstrukcję hybrydową łączącą bloki transformatorów z wysoce wydajnymi warstwami Mamby. Ta metoda ma na celu zapewnienie wydajności poprzez zbudowanie od podstaw zasadniczo oszczędnego silnika, ukierunkowanego na podstawowe obciążenie obliczeniowe.

Według kierownika projektu IBM, Raghu Gantiego, „wszystko sprowadza się do redukcji pamięci podręcznej KV… Większa przepustowość, mniejsze opóźnienia i dłuższy kontekst”.

Inna strategia ma na celu optymalizację pamięci w dominującej architekturze Transformer. Modele pamięci neuronowej (NAMM) firmy Sakana AI z siedzibą w Tokio wykorzystują algorytmy ewolucyjne do inteligentnego zarządzania pamięcią podręczną KV modelu, która stanowi główne wąskie gardło pamięci.

Ta technika radykalnie zmniejsza zużycie pamięci w przypadku zadań obejmujących długie konteksty.

Pojawiają się również bardziej radykalne podejścia, które całkowicie podważają paradygmat skalowania. Tego lata badacze zaprezentowali model widzenia przypominający mózg, który naśladuje ludzkie struktury nerwowe w celu zapewnienia najwyższej efektywności energetycznej.

Jeden ze współautorów, Zejin Lu, wyjaśnił tę koncepcję: „W przypadku ludzi, gdy wykrywasz określone obiekty, przyjmują one typową pozycję. Już wiesz, że buty zwykle znajdują się na dole, na ziemi. Samolot jest na górze.”

Utworzony model zużywa ponad dziesięć razy mniej energii niż standardowa sztuczna inteligencja, co dowodzi, że elegancki projekt może czasami pokonać brutalną siłę.

Dynamiczne planowanie firmy Aegaeon to potężne, uzupełniające podejście do pozostałych metod. Dowodzi, że wyrafinowana inżynieria systemów może przynieść oszczędności równie znaczące, jak te wynikające z remontów architektury, dzięki czemu rewolucja sztucznej inteligencji może stać się rzeczywistością biznesową zrównoważoną.

Categories: IT Info