Google Research pada tanggal 7 November 2025 memperkenalkan paradigma pembelajaran mesin baru yang disebut Nested Learning, yang dirancang untuk mengatasi bencana lupa dalam model AI.
Masalah yang sudah berlangsung lama ini menyebabkan model menghapus pengetahuan lama saat mempelajari informasi baru. Sebagai pembuktian konsep, tim mengungkapkan “Harapan,” sebuah arsitektur yang dapat memodifikasi diri sendiri dan dapat terus belajar dan beradaptasi.
Metode baru ini memperlakukan AI bukan sebagai program tunggal, namun sebagai sistem proses pembelajaran bertumpuk yang diperbarui dengan kecepatan berbeda. Pendekatan ini meniru cara kerja memori manusia, yang bertujuan untuk menciptakan sistem AI yang lebih dinamis dan efisien yang dapat berkembang seiring waktu tanpa terus-menerus melakukan pelatihan ulang dari awal.
Mengatasi Amnesia AI: Tantangan Melupakan Bencana
Kelemahan mendasar dari banyak model AI tingkat lanjut adalah ketidakmampuannya untuk belajar secara berurutan. Saat jaringan saraf dilatih berdasarkan data baru, sering kali jaringan tersebut secara tiba-tiba dan drastis melupakan informasi yang telah dikuasai sebelumnya.
Fenomena ini, yang dikenal sebagai catastrophic forgetting atau catastrophic interferensi, telah menjadi penghalang utama dalam menciptakan AI yang benar-benar dapat berevolusi dengan pengalaman baru sejak pertama kali diidentifikasi oleh para peneliti pada akhir tahun 1980-an.
Masalah ini berasal dari apa yang oleh para ilmuwan kognitif disebut sebagai “dilema stabilitas-plastisitas.”Sistem pembelajaran yang efektif harus cukup plastis untuk memperoleh pengetahuan baru, namun juga cukup stabil untuk mencegah pengetahuan baru tersebut menimpa ingatan yang sudah ada.
Sebagian besar jaringan neural standar, khususnya yang menggunakan propagasi balik, bersifat sangat plastis. Parameter internalnya, atau bobotnya, disesuaikan untuk meminimalkan kesalahan pada tugas baru.
Namun, karena jaringan ini menggunakan representasi terdistribusi, yang mana pengetahuan disimpan di beragam bobot bersama. Memperbarui bobot ini untuk tugas baru pasti akan mengganggu pola yang diperlukan untuk mengingat informasi lama.
Kelupaan yang parah terjadi ketika parameter yang seharusnya tidak bergerak, terguncang oleh gradien besar yang tiba-tiba ketika kebingungan meningkat. Proses ini secara efektif menempatkan data baru di atas data lama, sehingga menyebabkan hilangnya pembelajaran asli secara drastis dan sering kali sama sekali.
Keterbatasan ini sangat kontras dengan pembelajaran manusia, yang biasanya melibatkan kelupaan secara bertahap, bukan hilangnya keterampilan atau pengetahuan secara tiba-tiba.
Pengumuman Google menggambarkan analogi yang kuat dengan amnesia anterograde, suatu kondisi neurologis di mana seseorang tidak dapat membentuk ingatan jangka panjang yang baru. Model bahasa besar (LLM) saat ini juga terbatas; pengetahuan mereka terbatas pada data pra-pelatihan yang luas dan informasi langsung yang dimasukkan ke dalam jendela konteks mereka.
Mereka tidak dapat mengintegrasikan pengalaman baru ke dalam basis pengetahuan inti mereka. Seperti yang dinyatakan dalam blog Google Research, “Dalam hal pembelajaran berkelanjutan dan pengembangan diri, otak manusia adalah standar emasnya.”
Rintangan ini bukan hanya ketidaknyamanan teoretis; hal ini merupakan hambatan praktis yang signifikan yang mencegah AI beradaptasi dengan lingkungan dunia nyata yang dinamis di mana informasi baru selalu ada.
Pembelajaran Bersarang: Paradigma Baru yang Menyatukan Arsitektur dan Optimasi
Untuk mengatasi salah satu kelemahan AI yang paling persisten, peneliti Google telah mengusulkan kerangka kerja yang menata ulang struktur model pembelajaran.
Paradigma baru, yang disebut Pembelajaran Bersarang (NL), melampaui pandangan tradisional tentang penumpukan lapisan. Sebaliknya, pendekatan ini memperlakukan model bukan sebagai entitas monolitik, melainkan sebagai kumpulan masalah pengoptimalan multi-level yang saling berhubungan dan berjalan secara bersamaan.
Pendekatan ini secara mendasar menyatukan arsitektur model dan algoritme pelatihannya, dan memandangnya sebagai “level” berbeda dari proses inti yang sama.
Setiap level dalam kerangka Nested Learning memiliki “aliran konteks” yang berbeda, yakni aliran informasi spesifik yang menjadi sumber pembelajarannya. Itu diperbarui pada frekuensinya sendiri. Desain ini terinspirasi oleh pemrosesan multi-skala yang diamati di otak manusia, di mana sirkuit saraf berbeda beroperasi pada kecepatan berbeda, mirip dengan gelombang otak.
Seperti yang dinyatakan dalam makalah penelitian, “NL mengungkapkan bahwa metode pembelajaran mendalam yang ada belajar dari data dengan mengompresi aliran konteksnya sendiri, dan menjelaskan bagaimana pembelajaran dalam konteks muncul dalam model besar.”
Hal ini memungkinkan bentuk pembelajaran yang lebih terperinci dan efisien, di mana beberapa bagian model dapat beradaptasi dengan cepat terhadap informasi baru sementara bagian lain lebih mengkonsolidasikan pengetahuan. perlahan.
Insight inti dari Pembelajaran Bersarang adalah penyusunan ulang komponen pembelajaran mesin standar sebagai bentuk memori asosiatif. Makalah ini menunjukkan bahwa proses propagasi mundur itu sendiri dapat dimodelkan sebagai memori asosiatif yang belajar memetakan titik data ke “sinyal kejutan lokal”, yaitu kesalahan atau gradien.
Sinyal ini mengukur seberapa tidak terduga data tersebut. Lebih jauh lagi, kerangka kerja ini menafsirkan ulang pengoptimal umum, seperti Adam atau SGD dengan Momentum, sebagai “Pengoptimal Mendalam”.
Ini pada dasarnya adalah modul memori yang belajar mengompresi riwayat gradien masa lalu untuk menginformasikan pembaruan di masa mendatang, bukan sekadar rumus matematika statis.
Meskipun penerapannya masih baru, konsep pembelajaran referensi mandiri memiliki akar yang kuat dalam penelitian AI. Tim Google sendiri mengutip karya dasar dari awal tahun 1990-an, termasuk makalah tahun 1992 oleh Jürgen Schmidhuber tentang jaringan saraf yang secara teoritis dapat mengubah aturan pembelajaran mereka sendiri.
Nested Learning bertujuan untuk memberikan kerangka praktis dan koheren untuk akhirnya mewujudkan ambisi teoritis yang telah lama dipegang, menciptakan jalur yang jelas menuju model yang benar-benar dapat mempelajari cara belajar.
Harapan di Cakrawala: AI yang Memodifikasi Diri yang Mempelajari Cara Belajar
Mengambil inspirasi dari cara otak manusia memproses memori, arsitektur’Harapan’berfungsi sebagai bukti konsep pertama untuk Paradigma Pembelajaran Bersarang.
Harapan adalah sistem yang dapat memodifikasi dirinya sendiri yang dibangun sebagai varian dari arsitektur “Titans” Google sebelumnya, sebuah modul memori yang memprioritaskan informasi berdasarkan seberapa “mengejutkan” informasi tersebut.
Tidak seperti pendahulunya, “Harapan, bagaimanapun, adalah arsitektur berulang yang dapat memodifikasi sendiri informasi tersebut yang dapat memanfaatkan tingkat pembelajaran dalam konteks yang tidak terbatas…”
Hal ini dicapai melalui Sistem Memori Kontinum (CMS), di mana komponen memori yang berbeda diperbarui pada frekuensi yang berbeda-beda. Hal ini menciptakan spektrum mulai dari memori jangka pendek yang pembaruannya cepat hingga penyimpanan pengetahuan jangka panjang yang pembaruannya lambat.
Pendekatan berlapis ini memungkinkan model mempelajari cara belajar, sebuah langkah signifikan di luar model statis. Artinya, jika Anda dapat mengoptimalkan bagian mana pun dari tumpukan, maka bagian tersebut akan ditingkatkan dengan komputasi dan dengan demikian kinerjanya akan lebih baik daripada apa pun yang dapat Anda lakukan secara manual.
Istilah modifikasi mandiri telah menimbulkan kegembiraan, namun beberapa pakar memperingatkan agar tidak melakukan penafsiran yang berlebihan. Alih-alih menulis ulang kode sumbernya secara harfiah, model ini menyesuaikan parameter internalnya dengan kecepatan berbeda.
Tidak ada “suara hati” yang memeriksa dirinya sendiri atau benar-benar menulis ulang kode sumbernya sendiri. Ini pada dasarnya adalah sistem yang terbuat dari bagian-bagian yang belajar dengan kecepatan berbeda. Hal ini memungkinkannya untuk mengintegrasikan fakta-fakta baru tanpa menimpa pengetahuan inti.
Hasil yang Menjanjikan dan Pertanyaan yang Masih Ada
Tolok ukur awal untuk arsitektur Hope, sebagaimana dijelaskan secara rinci dalam makalah NeurIPS, cukup menjanjikan dalam beberapa ukuran model. Tim peneliti menguji Hope versi parameter 340M, 760M, dan 1,3B terhadap model kontemporer seperti Transformer++, Retentive Network (RetNet), dan Titans.
Dalam tugas pemodelan bahasa dan penalaran yang masuk akal, Hope secara konsisten menunjukkan kinerja yang kuat. Misalnya, model parameter 1,3 miliar, yang dilatih dengan 100 miliar token, mencapai skor benchmark rata-rata 57,23, mengungguli model Transformer++ (52,25) dan Titans (56,82) yang sebanding.
Model ini menunjukkan kebingungan, ukuran seberapa baik model memprediksi sampel, dan akurasi yang lebih tinggi di seluruh rangkaian pengujian termasuk PIQA, HellaSwag, dan BoolQ.
Makalah ini juga menyoroti kemampuan manajemen memori Hope yang unggul, khususnya dalam tugas Needle-In-Haystack (NIAH) konteks panjang, di mana model harus menemukan bagian informasi tertentu dalam volume teks yang besar.
Penulis mengaitkan keberhasilan ini dengan Continuum Memory System (CMS), yang memungkinkan cara yang lebih efisien dan efektif untuk menangani rangkaian informasi yang diperluas.
Kemampuan untuk mengelola memori secara dinamis dan memperbarui pembelajaran berdasarkan konteks inilah yang membedakan arsitektur ini dari model yang lebih statis seperti Transformers standar.
Meskipun hasil awal yang kuat ini, tingkat skeptisisme dapat dibenarkan, terutama karena terbatasnya data empiris yang disediakan dalam makalah yang tersedia untuk umum.
Para penulis mencatat dalam makalah itu sendiri bahwa versi NeurIPS “diringkas secara ekstensif untuk sesuai dengan batas halaman”dan mengarahkan pembaca ke versi yang lebih komprehensif di arXiv untuk detail selengkapnya.
Pendekatannya menarik, tetapi makalah Googlee juga kurang memberikan hasil empiris.
Hal ini menyoroti kesenjangan kritis antara janji teoritis dan kinerja arsitektur baru yang dapat diverifikasi. Kami harus menunggu hasil mendetailnya, terutama pada tugas-tugas konteks panjang di mana arsitektur inovatif serupa sebelumnya kesulitan untuk melakukan penskalaan secara efektif, sebelum menyatakan Nested Learning sebagai terobosan nyata.