Google Research vào ngày 7 tháng 11 năm 2025 đã giới thiệu một mô hình máy học mới có tên là Nested Learning, được thiết kế để giải quyết tình trạng quên nghiêm trọng trong các mô hình AI.

Vấn đề tồn tại lâu nay này khiến các mô hình xóa bỏ kiến ​​thức cũ khi học thông tin mới. Để chứng minh khái niệm, nhóm đã tiết lộ “Hope”, một kiến ​​trúc tự sửa đổi có thể liên tục học hỏi và thích ứng.

Phương pháp mới coi AI không phải là một chương trình đơn lẻ mà là một hệ thống gồm các quy trình học tập lồng nhau cập nhật ở các tốc độ khác nhau. Cách tiếp cận này mô phỏng cách hoạt động của bộ nhớ con người, nhằm tạo ra các hệ thống AI năng động và hiệu quả hơn, có thể cải thiện theo thời gian mà không cần đào tạo lại từ đầu.

Khắc phục chứng mất trí nhớ của AI: Thử thách của sự quên lãng thảm khốc

Điểm yếu cơ bản của nhiều mô hình AI tiên tiến là sự bất lực của chúng học tuần tự. Khi mạng lưới thần kinh được huấn luyện dựa trên dữ liệu mới, nó thường quên đột ngột và nghiêm trọng thông tin mà nó đã nắm giữ trước đó.

Hiện tượng này, được gọi là sự lãng quên thảm khốc hoặc sự can thiệp thảm khốc, là rào cản lớn trong việc tạo ra AI có thể thực sự phát triển với những trải nghiệm mới kể từ khi nó được các nhà nghiên cứu xác định lần đầu tiên vào cuối những năm 1980.

Vấn đề bắt nguồn từ cái mà các nhà khoa học về nhận thức gọi là “tình thế tiến thoái lưỡng nan về tính ổn định-dẻo dai”. Một hệ thống học tập hiệu quả phải đủ linh hoạt để tiếp thu kiến ​​thức mới nhưng cũng đủ ổn định để ngăn kiến ​​thức mới đó ghi đè lên những ký ức hiện có.

Hầu hết các mạng thần kinh tiêu chuẩn, đặc biệt là các mạng sử dụng lan truyền ngược, có tính linh hoạt cao. Các tham số hoặc trọng số bên trong của chúng được điều chỉnh để giảm thiểu lỗi trong các nhiệm vụ mới.

Tuy nhiên, do các mạng này sử dụng các biểu diễn phân tán, trong đó kiến ​​thức được lưu trữ trên một loạt các trọng số được chia sẻ. Việc cập nhật các trọng số này cho một nhiệm vụ mới chắc chắn sẽ làm gián đoạn các mẫu cần thiết để nhớ lại thông tin cũ.

Việc quên nghiêm trọng xảy ra khi các tham số không nên di chuyển, bị rung chuyển bởi độ dốc lớn đột ngột khi độ phức tạp tăng lên. Quá trình này chồng dữ liệu mới lên trên dữ liệu cũ một cách hiệu quả, dẫn đến mất hoàn toàn và nghiêm trọng nội dung học ban đầu.

Hạn chế này trái ngược hoàn toàn với khả năng học tập của con người, thường liên quan đến việc quên dần dần thay vì xóa sạch các kỹ năng hoặc kiến ​​thức một cách đột ngột.

Thông báo của Google có sự tương đồng mạnh mẽ với chứng mất trí nhớ anterograde, một tình trạng thần kinh mà một người không thể hình thành ký ức dài hạn mới. Các mô hình ngôn ngữ lớn (LLM) hiện tại cũng bị hạn chế tương tự; kiến thức của họ bị giới hạn trong dữ liệu khổng lồ trước khi đào tạo và thông tin tức thời được đưa vào cửa sổ ngữ cảnh.

Họ không thể tích hợp những trải nghiệm mới vào nền tảng kiến ​​thức cốt lõi của mình. Như blog của Google Research tuyên bố: “Khi nói đến việc không ngừng học hỏi và tự hoàn thiện bản thân, bộ não con người là tiêu chuẩn vàng”.

Rào cản này không chỉ là sự bất tiện về mặt lý thuyết; đó là một trở ngại thực tế đáng kể ngăn cản AI thích ứng với môi trường thế giới thực, năng động, nơi thông tin mới liên tục.

Học tập lồng nhau: Một mô hình mới thống nhất kiến ​​trúc và tối ưu hóa

Để giải quyết một trong những lỗ hổng dai dẳng nhất của AI, các nhà nghiên cứu của Google đã đề xuất một khuôn khổ mô phỏng lại chính cấu trúc của các mô hình học tập.

Mô hình mới, được gọi là Học tập lồng nhau (NL), vượt xa quan điểm truyền thống về xếp chồng các lớp. Thay vào đó, nó xử lý một mô hình không phải như một thực thể nguyên khối mà là một tập hợp các vấn đề tối ưu hóa đa cấp, được kết nối với nhau, chạy đồng thời.

Cách tiếp cận này về cơ bản hợp nhất kiến ​​trúc của mô hình và thuật toán đào tạo của nó, xem chúng là những”cấp”khác nhau của cùng một quy trình cốt lõi.

Mỗi cấp độ trong khung Nested Learning có”luồng ngữ cảnh”riêng biệt, luồng thông tin cụ thể mà nó học được từ đó. Nó cập nhật theo tần số riêng của nó. Thiết kế này được lấy cảm hứng từ quá trình xử lý đa thời gian được quan sát trong não người, nơi các mạch thần kinh khác nhau hoạt động ở tốc độ khác nhau, giống như sóng não.

Như bài viết nghiên cứu nêu rõ, “NL tiết lộ rằng các phương pháp học sâu hiện tại học từ dữ liệu thông qua việc nén luồng ngữ cảnh của riêng chúng và giải thích cách học trong ngữ cảnh xuất hiện trong các mô hình lớn.”

Điều này cho phép hình thức học tập chi tiết và hiệu quả hơn, trong đó một số phần của mô hình có thể thích ứng nhanh chóng với thông tin mới trong khi những phần khác củng cố kiến thức nhiều hơn. từ từ.

Thông tin chuyên sâu cốt lõi của Nested Learning là việc định hình lại các thành phần máy học tiêu chuẩn dưới dạng bộ nhớ liên kết. Bài viết chứng minh rằng bản thân quá trình truyền ngược có thể được mô hình hóa như một bộ nhớ kết hợp học cách ánh xạ một điểm dữ liệu tới “tín hiệu bất ngờ cục bộ” của nó, tức là lỗi hoặc độ dốc.

Tín hiệu này định lượng mức độ bất ngờ của dữ liệu. Đi xa hơn, khung này diễn giải lại các trình tối ưu hóa phổ biến, chẳng hạn như Adam hoặc SGD với Động lượng, dưới dạng “Trình tối ưu hóa sâu”.

Về cơ bản, đây là các mô-đun bộ nhớ học cách nén lịch sử của các gradient trong quá khứ để cung cấp thông tin cập nhật trong tương lai, thay vì chỉ là các công thức toán học tĩnh.

Mặc dù cách triển khai này còn mới lạ nhưng khái niệm học tập tự tham chiếu có nguồn gốc sâu xa trong nghiên cứu AI. Bản thân nhóm Google đã trích dẫn công trình nền tảng từ đầu những năm 1990, bao gồm một bài báo năm 1992 của Jürgen Schmidhuber về các mạng thần kinh về mặt lý thuyết có thể sửa đổi các quy tắc học tập của riêng họ.

Nested Learning nhằm mục đích cung cấp một khuôn khổ thực tế và mạch lạc để cuối cùng hiện thực hóa những tham vọng lý thuyết lâu nay này, tạo ra một lộ trình rõ ràng hướng tới các mô hình có thể học cách học một cách thực sự.

Hope on the Horizon: Một AI tự sửa đổi học cách học

Lấy cảm hứng từ cách bộ não con người xử lý bộ nhớ, kiến trúc’Hope’đóng vai trò là bằng chứng khái niệm đầu tiên cho Nested Learning mô hình.

Hope là một hệ thống tự sửa đổi được xây dựng như một biến thể của kiến trúc”Titans”trước đó của Google, một mô-đun bộ nhớ ưu tiên thông tin dựa trên mức độ”đáng ngạc nhiên”của nó.

Không giống như hệ thống tiền nhiệm, “Tuy nhiên, Hope là một kiến trúc lặp lại tự sửa đổi, có thể tận dụng các cấp độ học tập theo ngữ cảnh không giới hạn…”

Nó đạt được điều này thông qua Hệ thống bộ nhớ liên tục (CMS), trong đó các thành phần bộ nhớ khác nhau cập nhật ở các mức khác nhau tần số. Điều này tạo ra một phạm vi từ bộ nhớ ngắn hạn, cập nhật nhanh đến kho lưu trữ kiến ​​thức dài hạn, cập nhật chậm.

Cách tiếp cận theo lớp này cho phép mô hình học về cơ bản cách học, một bước quan trọng so với các mô hình tĩnh. Điều đó có nghĩa là nếu bạn có thể yêu cầu bất kỳ phần nào của ngăn xếp tự tối ưu hóa, thì phần đó sẽ mở rộng quy mô bằng tính toán và do đó cuối cùng sẽ hoạt động tốt hơn bất kỳ phần nào bạn có thể làm bằng tay.

Thuật ngữ tự sửa đổi đã tạo ra sự phấn khích, nhưng một số chuyên gia cảnh báo không nên diễn giải quá mức. Thay vì viết lại mã nguồn theo đúng nghĩa đen, mô hình sẽ điều chỉnh các tham số bên trong của nó ở các tốc độ khác nhau.

Không có “tiếng nói bên trong” nào tự kiểm tra hoặc viết lại mã nguồn của chính nó theo đúng nghĩa đen. Về cơ bản, nó là một hệ thống được tạo thành từ các bộ phận có khả năng học ở các tốc độ khác nhau. Điều này cho phép nó tích hợp các dữ kiện mới mà không ghi đè lên kiến ​​thức cốt lõi.

Kết quả đầy hứa hẹn và các câu hỏi còn đọng lại

Các điểm chuẩn ban đầu cho kiến ​​trúc Hope, như được trình bày chi tiết trong bài báo NeurIPS, đầy hứa hẹn trên nhiều kích cỡ mô hình. Nhóm nghiên cứu đã thử nghiệm các phiên bản tham số 340M, 760M và 1.3B của Hope dựa trên các mô hình hiện đại như Transformer++, Mạng lưu giữ (RetNet) href=”https://arxiv.org/abs/2501.00663″target=”_blank”>Titans.

Trong các nhiệm vụ lập mô hình ngôn ngữ và lý luận thông thường, Hope luôn thể hiện hiệu suất mạnh mẽ. Ví dụ: mô hình tham số 1,3B, được đào tạo trên 100 tỷ mã thông báo, đã đạt được điểm chuẩn trung bình là 57,23, vượt trội so với các mô hình Transformer++ (52,25) và Titans (56,82) có thể so sánh được.

Nó cho thấy mức độ bối rối thấp hơn, thước đo mức độ mô hình dự đoán một mẫu và độ chính xác cao hơn trên một mẫu bộ thử nghiệm bao gồm PIQA, HellaSwagBoolQ.

Bài viết cũng nêu bật khả năng quản lý bộ nhớ vượt trội của Hope, đặc biệt là trong các tác vụ Needle-In-Haystack (NIAH) trong ngữ cảnh dài, trong đó mô hình phải tìm thấy một phần thông tin cụ thể trong một lượng lớn văn bản.

Các tác giả cho rằng thành công này là nhờ Hệ thống bộ nhớ liên tục (CMS), cho phép một cách hiệu quả và hiệu quả hơn để xử lý các chuỗi thông tin mở rộng.

Khả năng quản lý bộ nhớ và cập nhật linh hoạt này. học tập dựa trên ngữ cảnh là điều khiến kiến trúc trở nên khác biệt so với các mô hình tĩnh hơn như Transformers tiêu chuẩn.

Bất chấp những kết quả ban đầu mạnh mẽ này, mức độ hoài nghi là hợp lý, chủ yếu là do dữ liệu thực nghiệm hạn chế được cung cấp trong bài báo được công bố rộng rãi.

Bản thân các tác giả lưu ý trong bài báo rằng phiên bản NeurIPS đã được”tóm tắt rộng rãi để phù hợp với giới hạn trang”và hướng người đọc đến một phiên bản toàn diện hơn trên arXiv để biết đầy đủ chi tiết. 

Cách tiếp cận này rất thú vị nhưng bài viết của Googlee cũng khá ngắn về kết quả thực nghiệm.

Điều này làm nổi bật một khoảng cách quan trọng giữa lời hứa về mặt lý thuyết và hiệu suất có thể kiểm chứng được của kiến ​​trúc mới. Chúng tôi sẽ phải chờ kết quả chi tiết, đặc biệt là đối với các nhiệm vụ có bối cảnh dài mà các kiến ​​trúc đổi mới tương tự trước đây gặp khó khăn trong việc mở rộng quy mô một cách hiệu quả, trước khi tuyên bố Nested Learning là một bước đột phá thực sự.

Categories: IT Info