Các nhà nghiên cứu tại Phòng thí nghiệm AI của Tencent đã tiết lộ một khung AI mới được thiết kế để phá vỡ giới hạn tốc độ của các mô hình ngôn ngữ lớn hiện tại.

Chi tiết trong một bài báo xuất bản trực tuyến trong tuần này, hệ thống này có tên là CALM, dành cho Mô hình ngôn ngữ tự động liên tục. Nó trực tiếp thách thức quy trình chậm rãi, từng mã thông báo, vốn hỗ trợ hầu hết AI tổng hợp hiện nay.

Thay vì dự đoán từng phần nhỏ của một từ, CALM học cách dự đoán một vectơ duy nhất đại diện cho toàn bộ đoạn văn bản. Phương pháp này có thể giúp việc tạo AI nhanh hơn và hiệu quả hơn nhiều, mở ra con đường mới cho các mô hình mở rộng quy mô.

Sự chuyên chế của mã thông báo: Nút thắt cổ chai tự hồi quy của AI

Một điểm yếu cơ bản của LLM hiện đại là sự phụ thuộc của chúng vào việc tạo ra từng mã thông báo, có tính tự hồi phục. Sự phụ thuộc tuần tự này là nút thắt cổ chai lớn nhất hạn chế tốc độ và khả năng mở rộng của AI.

Việc tạo một bài viết dài đòi hỏi hàng nghìn bước dự đoán tuần tự, khiến quá trình tính toán tốn kém và chậm chạp. Đây không chỉ là một vấn đề học thuật; đó là lý do tại sao việc sử dụng các mô hình mạnh mẽ lại tốn kém và việc tạo ra các mô hình dài, theo thời gian thực vẫn là một thách thức.

Vấn đề về hiệu quả này đã trở thành chiến trường trọng tâm của các nhà phát triển AI. Như Google Research đã lưu ý trước đây, “khi chúng tôi triển khai các mô hình này cho nhiều người dùng hơn, việc làm cho chúng nhanh hơn và ít tốn kém hơn mà không làm giảm chất lượng là một thách thức nghiêm trọng”.

Ngành này đã và đang khám phá nhiều giải pháp, từ các tầng suy đoán của Google cho đến các kỹ thuật nén mới. Giờ đây, công việc của Tencent đề xuất một giải pháp triệt để hơn.

Bài báo đề xuất một kế hoạch chi tiết cho một lớp mô hình ngôn ngữ cực kỳ hiệu quả mới và hạn chế tắc nghẽn do mã thông báo gây ra.

Mục tiêu là thay đổi căn bản đơn vị dự đoán từ một mã thông báo duy nhất, ít thông tin thành một thứ phong phú hơn nhiều.

Một mô hình mới: Dự đoán vectơ thay vì mã thông báo

Trong một thách thức trực tiếp đối với hiện trạng của AI tổng hợp, CALM điều chỉnh lại toàn bộ nhiệm vụ dự đoán. Các nhà nghiên cứu đề xuất một trục mở rộng quy mô mới cho LLM.

“Chúng tôi cho rằng việc khắc phục nút thắt cổ chai này đòi hỏi một trục thiết kế mới cho quy mô LLM: tăng băng thông ngữ nghĩa của từng bước tổng hợp”, họ viết trong bài báo.

Bằng cách tăng “băng thông ngữ nghĩa” này, mô hình có thể xử lý nhiều thông tin hơn trong một bước duy nhất. CALM đạt được điều này thông qua một quy trình hai giai đoạn đổi mới hoạt động trong một không gian liên tục chứ không phải rời rạc.

Trọng tâm thiết kế của CALM là bộ mã hóa tự động có độ chính xác cao. Thành phần này học cách nén một đoạn K mã thông báo – ví dụ: bốn mã thông báo – thành một vectơ liên tục dày đặc.

Điều quan trọng là nó có thể tái tạo lại các mã thông báo ban đầu từ vectơ này với độ chính xác hơn 99,9%. Sau đó, một mô hình ngôn ngữ riêng biệt sẽ thực hiện dự đoán tự hồi quy trong không gian vectơ mới này.

Theo tài liệu chính thức của dự án, “thay vì dự đoán từng mã thông báo riêng biệt tại một thời điểm, CALM học cách dự đoán một vectơ liên tục duy nhất đại diện cho toàn bộ khối mã thông báo K.”

Điều này làm giảm số bước tạo ra hệ số K, dẫn đến hiệu quả đáng kể lợi ích.

Bộ công cụ không có khả năng xảy ra: Cách CALM học và đo lường thành công

Việc chuyển từ mã thông báo rời rạc sang vectơ liên tục đặt ra một thách thức lớn: mô hình không còn có thể tính toán phân bổ xác suất rõ ràng trên tất cả các kết quả có thể xảy ra bằng cách sử dụng lớp softmax tiêu chuẩn.

Điều này khiến các phương pháp đánh giá và đào tạo truyền thống dựa trên khả năng tính toán trở nên không thể áp dụng được. Để giải quyết vấn đề này, nhóm Tencent đã phát triển một khuôn khổ toàn diện, không có khả năng xảy ra.

Để đào tạo, CALM sử dụng phương pháp Đào tạo dựa trên năng lượng, sử dụng quy tắc tính điểm phù hợp nghiêm ngặt để hướng dẫn mô hình mà không cần tính toán xác suất.

Để đánh giá, các nhà nghiên cứu đã giới thiệu một chỉ số mới có tên BrierLM. Thoát khỏi các số liệu truyền thống như độ phức tạp, BrierLM bắt nguồn từ điểm Brier, một công cụ dự báo xác suất.

Nó cho phép so sánh công bằng, dựa trên mẫu về các khả năng của mô hình bằng cách kiểm tra xem các dự đoán có phù hợp với thực tế hay không, một phương pháp hoàn toàn phù hợp với các mô hình có khả năng khó kiểm soát.

Trục mới cho việc mở rộng quy mô AI và cuộc đua về hiệu quả

Tác động thực tế của kiến trúc mới này là vượt trội. sự cân bằng giữa hiệu suất và tính toán.

Mô hình CALM giảm 44% yêu cầu tính toán trong đào tạo và giảm 33% khả năng suy luận so với đường cơ sở mạnh. Điều này chứng tỏ rằng việc mở rộng băng thông ngữ nghĩa của từng bước là một đòn bẩy mới mạnh mẽ để cải thiện hiệu quả tính toán.

Công việc này coi CALM là một đối thủ đáng kể trong cuộc đua toàn ngành nhằm xây dựng AI nhanh hơn, rẻ hơn và dễ tiếp cận hơn.

Google đã giải quyết vấn đề tốc độ AI bằng các phương pháp như phân tầng đầu cơ và Học tập lồng nhau. Các công ty khởi nghiệp khác, như Inception, đang khám phá những kiến ​​trúc hoàn toàn khác nhau như LLM dựa trên sự khuếch tán trong “Mercury Coder” để thoát khỏi “nút thắt cổ chai về cấu trúc” của quá trình tự hồi quy.

Cùng với nhau, những phương pháp tiếp cận đa dạng này nêu bật sự thay đổi trong quá trình phát triển AI. Ngành công nghiệp này đang chuyển từ tập trung thuần túy vào quy mô sang theo đuổi bền vững hơn về trí tuệ nhân tạo thông minh hơn, hiệu quả kinh tế hơn. Cách tiếp cận dựa trên vectơ của CALM đưa ra một hướng đi mới trên mặt trận đó.

Categories: IT Info