Η Google Research στις 7 Νοεμβρίου 2025 παρουσίασε ένα νέο παράδειγμα μηχανικής εκμάθησης που ονομάζεται Nested Learning, σχεδιασμένο για την επίλυση καταστροφικών λησμονιών σε μοντέλα τεχνητής νοημοσύνης.
Αυτό το μακροχρόνιο πρόβλημα αναγκάζει τα μοντέλα να διαγράφουν την παλιά γνώση κατά την εκμάθηση νέων πληροφοριών. Ως απόδειξη της ιδέας, η ομάδα αποκάλυψε το”Hope”, μια αυτο-τροποποιούμενη αρχιτεκτονική που μπορεί συνεχώς να μαθαίνει και να προσαρμόζεται.
Η νέα μέθοδος αντιμετωπίζει ένα AI όχι ως ένα ενιαίο πρόγραμμα, αλλά ως ένα σύστημα ένθετων διαδικασιών μάθησης που ενημερώνονται με διαφορετικούς ρυθμούς. Αυτή η προσέγγιση μιμείται τον τρόπο με τον οποίο λειτουργεί η ανθρώπινη μνήμη, με στόχο τη δημιουργία πιο δυναμικών και αποτελεσματικών συστημάτων τεχνητής νοημοσύνης που μπορούν να βελτιώνονται με την πάροδο του χρόνου χωρίς συνεχή επανεκπαίδευση από την αρχή.
Callenstrophnesia’s Challenicgesia. Ξεχνώντας
Μια θεμελιώδης αδυναμία πολλών προηγμένων μοντέλων τεχνητής νοημοσύνης είναι η αδυναμία τους να μαθαίνουν διαδοχικά. Όταν ένα νευρωνικό δίκτυο εκπαιδεύεται σε νέα δεδομένα, συχνά ξεχνά απότομα και δραστικά τις πληροφορίες που είχε στο παρελθόν.
Αυτό το φαινόμενο, γνωστό ως καταστροφική λήθη ή καταστροφική παρέμβαση, ήταν ένα σημαντικό εμπόδιο στη δημιουργία τεχνητής νοημοσύνης που μπορεί πραγματικά να εξελιχθεί με νέες εμπειρίες από τότε που εντοπίστηκε για πρώτη φορά από ερευνητές στα τέλη του 19ου αιώνα. Οι επιστήμονες αποκαλούν το δίλημμα σταθερότητα-πλαστικότητα. Ένα αποτελεσματικό σύστημα εκμάθησης πρέπει να είναι αρκετά πλαστικό ώστε να αποκτά νέες γνώσεις, αλλά και αρκετά σταθερό ώστε να εμποδίζει αυτή τη νέα γνώση να αντικαθιστά τις υπάρχουσες μνήμες.
Τα περισσότερα τυπικά νευρωνικά δίκτυα, ιδιαίτερα εκείνα που χρησιμοποιούν υψηλή πλαστική διάδοση
Ωστόσο, επειδή αυτά τα δίκτυα χρησιμοποιούν κατανεμημένες αναπαραστάσεις, όπου η γνώση αποθηκεύεται σε ένα ευρύ φάσμα κοινών βαρών. Η ενημέρωση αυτών των βαρών για μια νέα εργασία αναπόφευκτα διαταράσσει τα μοτίβα που απαιτούνται για την ανάκληση παλιών πληροφοριών.
Η καταστροφική λήθη συμβαίνει όταν οι παράμετροι που δεν πρέπει να μετακινούνται, κλονίζονται από μια ξαφνική μεγάλη κλίση όταν αυξάνεται η αμηχανία. Αυτή η διαδικασία υπερθέτει αποτελεσματικά τα νέα δεδομένα πάνω από τα παλιά, οδηγώντας σε δραστική και συχνά πλήρη απώλεια της αρχικής μάθησης.
Αυτός ο περιορισμός έρχεται σε έντονη αντίθεση με την ανθρώπινη μάθηση, η οποία συνήθως συνεπάγεται σταδιακή λήθη και όχι ξαφνική εξάλειψη δεξιοτήτων ή γνώσεων.
Η ανακοίνωση της Google δεν μπορεί να κάνει μια ισχυρή αναλογία με τη νέα συνθήκη, μακροπρόθεσμα, ενός ατόμου. αναμνήσεις. Τα τρέχοντα μεγάλα γλωσσικά μοντέλα (LLM) είναι εξίσου περιορισμένα. Οι γνώσεις τους περιορίζονται στα τεράστια προεκπαιδευτικά δεδομένα τους και στις άμεσες πληροφορίες που τροφοδοτούνται στο παράθυρο του πλαισίου τους.
Δεν μπορούν να ενσωματώσουν νέες εμπειρίες στη βασική βάση γνώσεων τους. Όπως αναφέρει το ιστολόγιο Google Research,”Όταν πρόκειται για συνεχή μάθηση και αυτοβελτίωση, ο ανθρώπινος εγκέφαλος είναι το χρυσό πρότυπο.”
Αυτό το εμπόδιο δεν είναι απλώς μια θεωρητική ταλαιπωρία. είναι ένα σημαντικό πρακτικό εμπόδιο που εμποδίζει την προσαρμογή της τεχνητής νοημοσύνης σε δυναμικά περιβάλλοντα του πραγματικού κόσμου όπου οι νέες πληροφορίες είναι σταθερές.
Ενσωματωμένη μάθηση: Ένα νέο παράδειγμα που ενοποιεί την αρχιτεκτονική και τη βελτιστοποίηση
Για την αντιμετώπιση ενός από τα πιο επίμονα ελαττώματα της τεχνητής νοημοσύνης, οι ερευνητές της Google πρότειναν εκ νέου ένα μοντέλο μάθησης.
Το νέο παράδειγμα, που ονομάζεται Nested Learning (NL), κινείται πέρα από την παραδοσιακή άποψη της στοίβαξης επιπέδων. Αντίθετα, αντιμετωπίζει ένα μοντέλο όχι ως μονολιθική οντότητα αλλά ως μια συλλογή διασυνδεδεμένων προβλημάτων βελτιστοποίησης πολλαπλών επιπέδων που εκτελούνται ταυτόχρονα.
Αυτή η προσέγγιση ενοποιεί θεμελιωδώς την αρχιτεκτονική ενός μοντέλου και τον αλγόριθμο εκπαίδευσής του, βλέποντάς τα ως διαφορετικά”επίπεδα”της ίδιας βασικής διαδικασίας.
Κάθε επίπεδο μάθησης έχει διαχωρίσει το δικό του πλαίσιο. τη συγκεκριμένη ροή πληροφοριών από την οποία μαθαίνει. Ενημερώνεται με τη δική του συχνότητα. Αυτός ο σχεδιασμός είναι εμπνευσμένος από την επεξεργασία πολλαπλών χρονικών διαστημάτων που παρατηρείται στον ανθρώπινο εγκέφαλο, όπου διαφορετικά νευρωνικά κυκλώματα λειτουργούν με διαφορετικές ταχύτητες, παρόμοια με τα εγκεφαλικά κύματα.
Όπως αναφέρει η ερευνητική εργασία,”Η NL αποκαλύπτει ότι οι υπάρχουσες μέθοδοι βαθιάς μάθησης μαθαίνουν από δεδομένα μέσω της συμπίεσης της ροής του πλαισίου τους και εξηγεί πώς αυτή η μάθηση εντός πλαισίου αναδύεται σε πιο αποτελεσματική μορφή μάθησης σε μεγαλύτερα μοντέλα. τμήματα του μοντέλου μπορούν να προσαρμοστούν γρήγορα σε νέες πληροφορίες, ενώ άλλα ενοποιούν τη γνώση πιο αργά.
Μια βασική εικόνα της Ένθετης μάθησης είναι η επαναπλαισίωση των τυπικών στοιχείων μηχανικής μάθησης ως μορφές συνειρμικής μνήμης
Αυτό το σήμα ποσοτικοποιεί πόσο απροσδόκητα είναι τα δεδομένα. Περαιτέρω, το πλαίσιο ερμηνεύει ξανά κοινούς βελτιστοποιητές, όπως Adam ή SGD με Momentum, ως”Deep Optimizers.”
Αυτές είναι ουσιαστικά ενότητες μνήμης που μαθαίνουν να συμπιέζουν την ιστορία των προηγούμενων κλίσεων για να ενημερώνουν τις μελλοντικές ενημερώσεις, αντί να είναι απλώς στατικοί μαθηματικοί τύποι.
Ενώ η ιδέα της υλοποίησης σε βάθος δεν είναι ριζική. έρευνα. Η ίδια η ομάδα της Google παραθέτει θεμελιώδη εργασία από τις αρχές της δεκαετίας του 1990, συμπεριλαμβανομένης της μιας εργασίας του 1992 του Jürgen Schmidhuber σχετικά με τα νευρωνικά δίκτυα που θα μπορούσαν θεωρητικά να τροποποιήσουν τους δικούς τους κανόνες εκμάθησης.
Το Nested Learning στοχεύει να προσφέρει ένα πρακτικό και συνεκτικό πλαίσιο για να πραγματοποιήσει τελικά αυτές τις μακροχρόνιες θεωρητικές φιλοδοξίες, δημιουργώντας μια σαφή πορεία προς μοντέλα που μπορούν πραγματικά να μάθουν πώς να μαθαίνουν.
Hope on the Horizon: A Self-Modifying AI that Learns the human way3 επεξεργάζεται τη μνήμη, η αρχιτεκτονική «Ελπίδα» χρησιμεύει ως η πρώτη απόδειξη της ιδέας για το παράδειγμα ένθετης μάθησης.
Το Hope είναι ένα αυτο-τροποποιούμενο σύστημα που έχει δημιουργηθεί ως παραλλαγή της παλαιότερης αρχιτεκτονικής «Titans» της Google, μια μονάδα μνήμης που δίνει προτεραιότητα στις πληροφορίες με βάση το πόσο «έκπληξη» είναι, ωστόσο, «όπως είναι η προκαταρκτική», ωστόσο, «opdeU» αυτο-τροποποιούμενη επαναλαμβανόμενη αρχιτεκτονική που μπορεί να εκμεταλλευτεί απεριόριστα επίπεδα μάθησης σε περιβάλλον…”
Το επιτυγχάνει μέσω ενός Συστήματος Μνήμης Συνεχούς Μνήμης (CMS), όπου διαφορετικά στοιχεία μνήμης ενημερώνονται σε διαφορετικές συχνότητες. Αυτό δημιουργεί ένα φάσμα από γρήγορη ενημέρωση, βραχυπρόθεσμη μνήμη έως αργή ενημέρωση, μακροπρόθεσμη αποθήκευση γνώσης.
Αυτή η πολυεπίπεδη προσέγγιση επιτρέπει στο μοντέλο να μάθει ουσιαστικά πώς να μαθαίνει, ένα σημαντικό βήμα πέρα από τα στατικά μοντέλα. Σημαίνει ότι εάν μπορείτε να βελτιστοποιήσετε οποιοδήποτε μέρος της στοίβας, θα κλιμακωθεί με υπολογισμό και έτσι θα ξεπεράσει οτιδήποτε θα μπορούσατε να κάνετε με το χέρι τελικά.
Ο όρος αυτο-τροποποίηση έχει προκαλέσει ενθουσιασμό, αλλά ορισμένοι ειδικοί προειδοποιούν κατά της υπερβολικής ερμηνείας. Αντί να ξαναγράψει κυριολεκτικά τον πηγαίο κώδικα, το μοντέλο προσαρμόζει τις εσωτερικές του παραμέτρους με διαφορετικές ταχύτητες.
Δεν υπάρχει «εσωτερική φωνή» που να επιθεωρεί τον εαυτό του ή να ξαναγράφει κυριολεκτικά τον δικό του πηγαίο κώδικα. Είναι βασικά ένα σύστημα που αποτελείται από εξαρτήματα που μαθαίνουν με διαφορετικές ταχύτητες. Αυτό του επιτρέπει να ενσωματώνει νέα δεδομένα χωρίς να αντικαθιστά τις βασικές γνώσεις.
Υποσχόμενα αποτελέσματα και παρατεταμένες ερωτήσεις
Τα αρχικά σημεία αναφοράς για την αρχιτεκτονική Hope, όπως περιγράφονται λεπτομερώς στο έγγραφο NeurIPS, είναι πολλά υποσχόμενα σε διάφορα μεγέθη μοντέλων. Η ερευνητική ομάδα εξέτασε εκδόσεις παραμέτρων 340M, 760M και 1,3B του Hope σε σύγκριση με σύγχρονα μοντέλα όπως το Transformer++, Retentive Network (RetNet) και Titans.
Στη μοντελοποίηση γλώσσας και τις εργασίες κοινής λογικής, η Hope επέδειξε σταθερά ισχυρή απόδοση. Για παράδειγμα, το μοντέλο παραμέτρων 1,3B, που εκπαιδεύτηκε σε 100 δισεκατομμύρια μάρκες, πέτυχε μέση βαθμολογία αναφοράς 57,23, υπερτερώντας των συγκρίσιμων μοντέλων Transformer++ (52,25) και Titans (56,82).
Έδειξε χαμηλότερη περπλοκότητα, ένα μέτρο του πόσο καλά ένα μοντέλο προβλέπει ένα δείγμα και μεγαλύτερη ακρίβεια σε μια σειρά δοκιμών, συμπεριλαμβανομένων των PIQA, HellaSwag και BoolQ.
Η εργασία υπογραμμίζει επίσης τις ανώτερες δυνατότητες διαχείρισης μνήμης της Hope, ιδιαίτερα σε μακροπρόθεσμους όρους εργασίας Needle-In-piece πληροφορίες μέσα σε μεγάλο όγκο κειμένου.
Οι συγγραφείς αποδίδουν αυτήν την επιτυχία στο Continuum Memory System (CMS), το οποίο επιτρέπει έναν πιο αποτελεσματικό και αποτελεσματικό τρόπο χειρισμού εκτεταμένων αλληλουχιών πληροφοριών.
Αυτή η ικανότητα δυναμικής διαχείρισης της μνήμης και ενημέρωσης της μάθησης με βάση το πλαίσιο είναι αυτό που διαφοροποιεί την αρχιτεκτονική από τα πιο στατικά μοντέλα, όπως αυτά τα τυπικά, ισχυρά αρχικά αποτελέσματα
pDespite>. δικαιολογείται, κυρίως λόγω των περιορισμένων εμπειρικών δεδομένων που παρέχονται στη δημόσια διαθέσιμη εργασία.
Οι συγγραφείς σημειώνουν στην ίδια την εργασία ότι η έκδοση NeurIPS”συνοψίστηκε εκτενώς ώστε να ταιριάζει στο όριο σελίδας”και κατευθύνει τους αναγνώστες σε μια πιο ολοκληρωμένη έκδοση στο arXiv για πλήρεις λεπτομέρειες.
Η προσέγγιση είναι συναρπαστική, αλλά το έγγραφο της Googlee είναι επίσης αρκετά σύντομο σε εμπειρικά αποτελέσματα.
Αυτό υπογραμμίζει ένα κρίσιμο χάσμα μεταξύ της θεωρητικής υπόσχεσης και της επαληθεύσιμης απόδοσης της νέας αρχιτεκτονικής. Θα πρέπει να περιμένουμε για τα λεπτομερή αποτελέσματα, ειδικά για τις εργασίες μεγάλου πλαισίου, όπου παρόμοιες καινοτόμες αρχιτεκτονικές στο παρελθόν δυσκολεύτηκαν να κλιμακωθούν αποτελεσματικά, προτού δηλώσουμε τη Nested Learning μια πραγματική ανακάλυψη.