7 listopada 2025 r. Google Research wprowadziło nowy paradygmat uczenia maszynowego o nazwie Nested Learning, zaprojektowany w celu rozwiązania problemu katastrofalnego zapominania w modelach AI.
Ten długotrwały problem powoduje, że modele usuwają starą wiedzę podczas uczenia się nowych informacji. Jako dowód słuszności koncepcji zespół zaprezentował „Hope” – samomodyfikującą się architekturę, która może stale się uczyć i dostosowywać.
Nowa metoda traktuje sztuczną inteligencję nie jako pojedynczy program, ale jako system zagnieżdżonych procesów uczenia się, które aktualizują się z różną częstotliwością. To podejście naśladuje działanie ludzkiej pamięci, a jego celem jest tworzenie bardziej dynamicznych i wydajnych systemów sztucznej inteligencji, które z czasem mogą być udoskonalane bez ciągłego przeszkolenia od zera.
Pokonanie amnezji sztucznej inteligencji: wyzwanie związane z katastrofalnym zapominaniem
Podstawową słabością wielu zaawansowanych modeli sztucznej inteligencji jest ich niezdolność do uczenia się sekwencyjnego. Kiedy sieć neuronowa jest szkolona na nowych danych, często nagle i drastycznie zapomina informacje, które opanowała wcześniej.
Zjawisko to, znane jako katastrofalne zapominanie lub katastrofalna ingerencja, stanowi główną przeszkodę w tworzeniu sztucznej inteligencji, która może naprawdę ewoluować wraz z nowymi doświadczeniami, odkąd została po raz pierwszy zidentyfikowana przez badaczy pod koniec lat 80. XX wieku.
Problem wynika z tego, co kognitywiści nazywają „dylemat stabilność-plastyczność”. Efektywny system uczenia się musi być na tyle plastyczny, aby zdobywać nową wiedzę, ale także wystarczająco stabilny, aby zapobiec zastąpieniu przez tę nową wiedzę istniejących wspomnień.
Większość standardowych sieci neuronowych, zwłaszcza tych korzystających z propagacji wstecznej, jest wysoce plastyczna. Ich wewnętrzne parametry, czyli wagi, są dostosowywane w celu zminimalizowania błędów w nowych zadaniach.
Jednakże, ponieważ sieci te korzystają z reprezentacji rozproszonych, w których wiedza jest przechowywana w oparciu o szeroką gamę współdzielonych wag. Aktualizacja tych wag na potrzeby nowego zadania nieuchronnie zakłóca wzorce wymagane do przywoływania starych informacji.
Katastrofalne zapominanie ma miejsce, gdy parametry, które nie powinny się zmieniać, zostają wstrząśnięte nagłym dużym gradientem, gdy wzrasta zakłopotanie. Proces ten skutecznie nakłada nowe dane na stare, co prowadzi do drastycznej i często całkowitej utraty pierwotnego uczenia się.
To ograniczenie silnie kontrastuje z ludzkim uczeniem się, które zazwyczaj polega na stopniowym zapominaniu, a nie nagłą utratę umiejętności lub wiedzy.
Oświadczenie Google stanowi wyraźną analogię do amnezji następczej – stanu neurologicznego, w którym dana osoba nie może tworzyć nowych, długotrwałych wspomnień. Obecne modele dużych języków (LLM) są podobnie ograniczone; ich wiedza ogranicza się do rozległych danych przedszkoleniowych i natychmiastowych informacji wprowadzanych do okna kontekstowego.
Nie mogą zintegrować nowych doświadczeń ze swoją podstawową bazą wiedzy. Jak stwierdza blog Google Research: „Jeśli chodzi o ciągłe uczenie się i samodoskonalenie, ludzki mózg jest złotym standardem”.
Ta przeszkoda nie wynika tylko z teoretycznej niedogodności; jest to znacząca praktyczna przeszkoda uniemożliwiająca AI dostosowywanie się do dynamicznych, rzeczywistych środowisk, w których stale pojawiają się nowe informacje.
Uczenie się zagnieżdżone: nowy paradygmat ujednolicający architekturę i optymalizację
Aby zaradzić jednej z najbardziej utrzymujących się wad sztucznej inteligencji, badacze Google zaproponowali ramy, które na nowo wyobrażają sobie samą strukturę modeli uczenia się.
Nowy paradygmat, zwany uczeniem się zagnieżdżonym (NL), wykracza poza tradycyjny widok układania warstw. Zamiast tego traktuje model nie jako monolityczną całość, ale jako zbiór wzajemnie powiązanych, wielopoziomowych problemów optymalizacyjnych, które działają jednocześnie.
To podejście zasadniczo ujednolica architekturę modelu i jego algorytm uczący, postrzegając je jako różne „poziomy” tego samego podstawowego procesu.
Każdy poziom w ramach Nested Learning ma swój własny, odrębny „przepływ kontekstu”, czyli konkretny strumień informacji, z którego się uczy. Aktualizuje się z własną częstotliwością. Projekt ten inspirowany jest wieloskalowym przetwarzaniem obserwowanym w ludzkim mózgu, gdzie różne obwody neuronowe działają z różnymi prędkościami, podobnymi do fal mózgowych.
Jak stwierdzono w artykule badawczym, „NL pokazuje, że istniejące metody głębokiego uczenia się uczą się na podstawie danych poprzez kompresję własnego przepływu kontekstu i wyjaśniają, w jaki sposób uczenie się kontekstowe pojawia się w dużych modelach.”
Pozwala to na bardziej szczegółową i wydajną formę uczenia się, w której niektóre części modelu mogą szybko dostosowywać się do nowych informacji, a jednocześnie inni konsolidują wiedzę wolniej.
Głównym założeniem Nested Learning jest przekształcenie standardowych komponentów uczenia maszynowego w formy pamięci asocjacyjnej. Artykuł pokazuje, że sam proces propagacji wstecznej można modelować jako pamięć asocjacyjną, która uczy się mapować punkt danych na jego „lokalny sygnał niespodzianki”, czyli błąd lub gradient.
Sygnał ten określa ilościowo, jak nieoczekiwane są dane. Idąc dalej, platforma ponownie interpretuje popularne optymalizatory, takie jak Adam lub SGD z Momentum, jako „głębokie optymalizatory”.
Są to zasadniczo moduły pamięci, które uczą się kompresować historię przeszłych gradientów w celu informowania o przyszłych aktualizacjach, a nie są po prostu statycznymi formułami matematycznymi.
Chociaż implementacja jest nowatorska, koncepcja uczenia się przez samoodniesienie ma głębokie korzenie w badaniach nad sztuczną inteligencją. Sam zespół Google cytuje podstawowe prace z początku lat 90. XX wieku, w tym artykuł Jürgena Schmidhubera z 1992 r. na temat sieci neuronowych, które teoretycznie mogłyby modyfikować własne reguły uczenia się.
Nested Learning ma na celu zapewnienie praktycznych i spójnych ram umożliwiających w końcu realizację tych od dawna ambicji teoretycznych, tworząc jasną ścieżkę w kierunku modeli, które mogą naprawdę uczyć się, jak się uczyć.
Nadzieja na horyzoncie: samomodyfikująca się sztuczna inteligencja, która uczy się, jak się uczyć
czerpiąc inspirację ze sposobu, w jaki ludzki mózg przetwarza pamięć, architektura „Nadzieja” służy jako pierwszy dowód słuszności koncepcji paradygmat Nested Learning.
Hope to samomodyfikujący się system zbudowany jako wariant wcześniejszej architektury Google „Titans”, moduł pamięci, który ustala priorytety informacji na podstawie tego, jak bardzo są „zaskakujące”.
W przeciwieństwie do swojego poprzednika, „Jednak Hope to samomodyfikująca się architektura rekurencyjna, która może wykorzystywać nieograniczone poziomy uczenia się w kontekście…”
Uzyskuje to poprzez Continuum Memory System (CMS), w którym różne komponenty pamięci aktualizują się z różną częstotliwością. Tworzy to spektrum od szybko aktualizującej się pamięci krótkotrwałej po wolno aktualizującą się długoterminową pamięć masową.
To warstwowe podejście pozwala modelowi zasadniczo nauczyć się, jak się uczyć, co stanowi znaczący krok poza modele statyczne. Oznacza to, że jeśli uda Ci się zoptymalizować dowolną część stosu, będzie ona skalowana wraz z obliczeniami, a tym samym przewyższy wszystko, co w ostatecznym rozrachunku można zrobić ręcznie.
Termin „samomodyfikowanie” wzbudził emocje, ale niektórzy eksperci przestrzegają przed nadinterpretacją. Zamiast dosłownie przepisywać swój kod źródłowy, model dostosowuje swoje wewnętrzne parametry z różną szybkością.
Nie ma „wewnętrznego głosu”, który sprawdza sam siebie lub dosłownie przepisuje swój własny kod źródłowy. Zasadniczo jest to system złożony z części, które uczą się z różną szybkością. Pozwala to na integrację nowych faktów bez nadpisywania podstawowej wiedzy.
Obiecujące wyniki i utrzymujące się pytania
Wstępne testy porównawcze dla architektury Hope, opisane szczegółowo w artykule NeurIPS, są obiecujące w przypadku kilku rozmiarów modeli. Zespół badawczy przetestował wersje Hope o parametrach 340M, 760M i 1,3B w porównaniu ze współczesnymi modelami, takimi jak Transformer++, Retentive Network (RetNet) i Tytani.
W zadaniach związanych z modelowaniem języka i zdrowym rozsądkiem Hope konsekwentnie wykazywała się dobrą wydajnością. Na przykład model parametrów 1.3B, wyszkolony na 100 miliardach tokenów, uzyskał średni wynik w teście porównawczym na poziomie 57,23, przewyższając porównywalne modele Transformer++ (52,25) i Titans (56,82).
Wykazał niższy zakłopotanie, będący miarą tego, jak dobrze model przewiduje próbkę i większą dokładność w zestawie testów, w tym PIQA, HellaSwag i BoolQ.
W artykule podkreślono także doskonałe możliwości Hope w zakresie zarządzania pamięcią, szczególnie w przypadku długokontekstowych zadań „Igła w stogu siana” (NIAH), gdzie model musi znaleźć określoną informację w dużej objętości tekstu.
Autorzy przypisują ten sukces systemowi Continuum Memory System (CMS), co pozwala na bardziej efektywny i skuteczny sposób obsługi rozszerzonych sekwencji informacji.
Ta zdolność do dynamicznego zarządzania pamięcią i aktualizowania uczenia się w oparciu o kontekst odróżnia tę architekturę od bardziej statycznych modeli, takich jak standardowe transformatory.
Pomimo tych dobrych wyników początkowych, pewien stopień sceptycyzmu jest uzasadniony, przede wszystkim ze względu na ograniczone dane empiryczne dostarczone w publicznie dostępnym artykule.
Autorzy zauważają w samym artykule, że wersja NeurIPS była „w dużym stopniu podsumowane tak, aby zmieściło się w limicie stron” i kieruje czytelników do bardziej wszechstronnej wersji w arXiv, gdzie można znaleźć szczegółowe informacje.
Podejście jest ekscytujące, ale w artykule Googlee również brakuje wyników empirycznych.
Uwydatnia to krytyczną lukę między teoretycznymi obietnicami a sprawdzalną wydajnością nowej architektury. Będziemy musieli poczekać na szczegółowe wyniki, szczególnie w przypadku zadań długoterminowych, w przypadku których podobne innowacyjne architektury miały wcześniej trudności ze skutecznym skalowaniem, zanim ogłosimy, że Nested Learning jest prawdziwym przełomem.