Penyelidikan Google pada 7 November 2025, memperkenalkan paradigma pembelajaran mesin baru yang dipanggil pembelajaran bersarang, yang direka untuk menyelesaikan lupa bencana dalam model AI.

Masalah lama ini menyebabkan model untuk menghapuskan pengetahuan lama ketika mempelajari maklumat baru. Sebagai konsep bukti, pasukan itu mendedahkan”harapan,”sebuah seni bina yang mengubahsuai diri yang dapat terus belajar dan menyesuaikan diri.

Kaedah baru merawat AI bukan sebagai satu program, tetapi sebagai sistem proses pembelajaran bersarang yang mengemas kini pada kadar yang berbeza. Pendekatan ini meniru bagaimana memori manusia berfungsi, bertujuan untuk mewujudkan sistem AI yang lebih dinamik dan cekap yang dapat meningkatkan dari masa ke masa tanpa latihan semula yang berterusan dari awal. Melupakan

Kelemahan asas banyak model AI yang maju adalah ketidakupayaan mereka untuk belajar secara berurutan. Apabila rangkaian saraf dilatih pada data baru, ia sering tiba-tiba dan secara drastik melupakan maklumat yang sebelum ini dikuasai. Sistem pembelajaran yang berkesan mestilah cukup plastik untuk memperoleh pengetahuan baru, tetapi juga cukup stabil untuk menghalang pengetahuan baru daripada menimpa kenangan yang ada. Parameter dalaman mereka, atau berat, diselaraskan untuk meminimumkan kesilapan pada tugas-tugas baru. Mengemas kini berat ini untuk tugas baru tidak dapat dielakkan mengganggu corak yang diperlukan untuk mengingati maklumat lama.

lupa bencana berlaku apabila parameter yang tidak boleh bergerak, digoncang dengan kecerunan besar tiba-tiba apabila kebingungan meningkat. Proses ini secara efektif memanfaatkan data baru di atas lama, yang membawa kepada kehilangan pembelajaran yang drastik dan sering lengkap. Model bahasa besar semasa (LLMS) juga terhad; Pengetahuan mereka terhad kepada data pra-latihan yang luas dan maklumat segera yang dimasukkan ke dalam tetingkap konteks mereka.

Mereka tidak dapat mengintegrasikan pengalaman baru ke dalam asas pengetahuan teras mereka. Seperti yang dinyatakan oleh blog Google Research,”Ketika datang ke pembelajaran berterusan dan peningkatan diri, otak manusia adalah standard emas.”

Rintangan ini bukan sekadar kesulitan teoritis; Ini adalah halangan praktikal yang penting yang menghalang AI daripada menyesuaikan diri dengan persekitaran yang dinamik, dunia nyata di mana maklumat baru adalah malar.

Paradigma baru, yang dipanggil pembelajaran bersarang (NL), bergerak melampaui pandangan tradisional lapisan penyusunan. Sebaliknya, ia merawat model bukan sebagai entiti monolitik tetapi sebagai koleksi masalah pengoptimuman yang saling berkait, pelbagai peringkat yang berjalan secara serentak. ia belajar dari. Ia dikemas kini dengan kekerapannya sendiri. Reka bentuk ini diilhamkan oleh pemprosesan pelbagai masa yang diperhatikan di dalam otak manusia, di mana litar saraf yang berbeza beroperasi pada kelajuan yang berbeza, sama dengan gelombang otak.

Di mana beberapa bahagian model dapat menyesuaikan diri dengan cepat ke maklumat baru sementara yang lain menyatukan pengetahuan dengan lebih perlahan. Makalah ini menunjukkan bahawa proses backpropagation itu sendiri boleh dimodelkan sebagai ingatan bersekutu yang belajar memetakan titik data kepada”isyarat kejutan tempatan,”yang merupakan kesilapan atau kecerunan.

Isyarat ini mengukur bagaimana data yang tidak dijangka. Melangkah lebih jauh, rangka kerja menafsirkan semula pengoptimuman yang sama, seperti ADAM atau SGD dengan momentum, sebagai”pengoptimuman yang mendalam.”Pasukan Google itu sendiri memetik kerja asas dari awal 1990-an, termasuk

Pembelajaran bersarang bertujuan untuk menyediakan rangka kerja yang praktikal dan koheren untuk akhirnya menyedari cita-cita teoretikal yang lama ini, mewujudkan jalan yang jelas ke arah model yang boleh belajar. Senibina’harapan’berfungsi sebagai konsep bukti pertama untuk paradigma pembelajaran bersarang. pembelajaran dalam konteks…”

Ia mencapai ini melalui sistem memori kontinum (CMS), di mana komponen memori yang berbeza mengemas kini pada frekuensi yang berbeza-beza. Ini mewujudkan spektrum dari memori jangka pendek yang cepat-updating, untuk melambatkan penyimpanan pengetahuan jangka panjang. Ini bermakna bahawa jika anda boleh mempunyai mana-mana bahagian timbunan mengoptimumkan dirinya sendiri, ia akan skala dengan mengira dan dengan itu mengalahkan apa sahaja yang boleh anda lakukan dengan tangan akhirnya.

Istilah pengubahsuaian diri telah menghasilkan keseronokan, tetapi sesetengah pakar berhati-hati terhadap tafsiran yang berlebihan. Daripada secara literal menulis semula kod sumbernya, model menyesuaikan parameter dalamannya pada kelajuan yang berbeza.

Tidak ada”suara dalaman”yang memeriksa sendiri atau secara literal menulis semula kod sumbernya sendiri. Ia pada dasarnya sistem yang diperbuat daripada bahagian-bahagian yang belajar pada kelajuan yang berbeza. Ini membolehkan ia mengintegrasikan fakta-fakta baru tanpa menimpa pengetahuan teras. Pasukan penyelidikan menguji versi Harapan 340m, 760m, dan 1.3B terhadap model kontemporari seperti retentive network (retnet) , dan Titans . Sebagai contoh, model parameter 1.3B, yang dilatih pada token 100 bilion, mencapai skor penanda aras purata 57.23, mengatasi pengubahsuaian ++ (52.25) dan Titans (56.82). sasaran=”_ blank”> kebingungan , ukuran seberapa baik model meramalkan sampel, dan ketepatan yang lebih tinggi merentasi suite ujian termasuk hellaswag , dan

Model statik seperti transformer standard.

Walaupun keputusan awal yang kuat ini, tahap keraguan dibenarkan, terutamanya disebabkan oleh data empirikal yang terhad yang disediakan dalam kertas yang tersedia secara terbuka. Pendekatan ini menarik tetapi kertas Googlee juga agak pendek pada hasil empirikal.

Ini menyoroti jurang kritikal antara janji teoritis dan prestasi disahkan seni bina baru. Kami perlu menunggu hasil terperinci, terutamanya pada tugas-tugas konteks panjang di mana arkitek inovatif yang serupa sebelum ini telah berjuang untuk skala dengan berkesan, sebelum mengisytiharkan bersarang mempelajari kejayaan yang benar.