Một tập đoàn của các nhà nghiên cứu đại học và Amazon đã tiết lộ một kiến trúc AI mới, Transformer dựa trên năng lượng (EBT). Nó được thiết kế để trang bị cho các mô hình các kỹ năng phân tích giống con người hơn. Cách tiếp cận nhằm mục đích thấm nhuần tư duy hệ thống 2″vào AI, thường dựa vào nhận dạng mẫu nhanh, trực quan. Nó bắt đầu với một giải pháp ngẫu nhiên và dần dần cải thiện nó để giảm thiểu điểm số năng lượng được tính toán”. Mặc dù kết quả ban đầu cho thấy EBT có thể tiết kiệm dữ liệu hơn, phương pháp này đòi hỏi phải tính toán nhiều hơn. Điều này thách thức mô hình hiện tại của sự phát triển AI. Công việc có sẵn trên Trang dự án và
Mặt thứ hai là khả năng mô hình hóa sự không chắc chắn. Một cảnh quan năng lượng mượt mà với một tối thiểu rõ ràng cho thấy sự chắc chắn cao. Một cảnh quan gồ ghề với nhiều thung lũng địa phương cho thấy mô hình là không chắc chắn, vì nhiều câu trả lời hợp lý tồn tại. Điều này cung cấp một sự hiểu biết nhiều sắc thái hơn về sự tự tin của mô hình.
Thứ ba, kiến trúc bao gồm một cơ chế nội tại để xác minh dự đoán. Điểm năng lượng cuối cùng của một dự đoán đóng vai trò là một kiểm tra chất lượng tích hợp. Điểm thấp cho thấy một câu trả lời được xác minh, chất lượng cao, trong khi điểm cao báo hiệu cho một người nghèo, tất cả không cần một mô hình xác minh riêng biệt. Nó vượt ra ngoài việc tạo mẫu đơn giản sang một quá trình giải quyết vấn đề hoạt động, lặp đi lặp lại, đánh dấu một bước khái niệm quan trọng trong cuộc tìm kiếm trí tuệ nhân tạo có khả năng hơn. Mặc dù một máy biến áp tiêu chuẩn phải tìm hiểu đường dẫn trực tiếp đến câu trả lời, một EBT học cách ghi điểm chính xác của bất kỳ câu trả lời nào, một nhiệm vụ đơn giản hơn có vẻ khái quát hóa hiệu quả hơn. Bài báo của họ báo cáo rằng tỷ lệ EBTS hiệu quả hơn so với đường cơ sở Transformer ++ nâng cao, hiển thị tỷ lệ tỷ lệ cao hơn 35% so với dữ liệu.
Hiệu suất dữ liệu được cải thiện đặc biệt đáng chú ý. Nó cho thấy rằng ở quy mô, EBT có thể đạt được hiệu suất tương tự như một máy biến áp tiêu chuẩn trong khi đào tạo về dữ liệu ít hơn đáng kể. Trong thời đại mà ngành công nghiệp đang tiếp cận các giới hạn của dữ liệu đào tạo chất lượng cao có sẵn trên web, phát triển các kiến trúc tiết kiệm dữ liệu hơn là một mục tiêu chiến lược quan trọng để tiếp tục tiến trình AI. Đầu tiên, mô hình có thể thực hiện các bước sàng lọc lặp đi lặp lại nhiều hơn trên một dự đoán duy nhất, dành hiệu quả việc tính toán nhiều hơn cho một vấn đề khó khăn. Thứ hai, nó có thể tạo ra một số câu trả lời của ứng cử viên và sử dụng chức năng năng lượng bên trong của nó để tự xác định và chọn một câu trả lời có năng lượng thấp nhất, cho thấy khả năng tương thích cao nhất. Tăng hiệu suất này được phát âm rõ nhất về các nhiệm vụ ngoài phân phối (ood), các vấn đề khác với dữ liệu đào tạo. Bằng cách suy nghĩ của người Viking”lâu hơn khi suy luận, EBTS đã cải thiện hiệu suất nhiệm vụ ngôn ngữ lên tới 29%. Điều này cho thấy quá trình lặp lại cho phép họ suy luận mạnh mẽ hơn trong các tình huống mới lạ trong đó các mô hình tiêu chuẩn có thể dựa vào sự kết hợp mẫu thiếu sót. Đào tạo các mô hình này hiện đang yêu cầu từ 3,3 đến 6,6 lần hoạt động dấu phẩy động (FLOPS) so với các máy biến áp tiêu chuẩn. Chi phí đáng kể này không chỉ là một mối quan tâm lý thuyết; Nó đặt ra một rào cản đáng kể đối với việc áp dụng, có khả năng hạn chế nghiên cứu và phát triển EBT chỉ đối với các phòng thí nghiệm học thuật được tài trợ tốt nhất và các tập đoàn công nghệ lớn với các nguồn lực tính toán rộng lớn. Không giống như một mô hình tiêu chuẩn đơn lẻ chuyển tiếp, mỗi bước sàng lọc trong một EBT liên quan đến các tính toán gradient phức tạp để xác định hướng của ’suy nghĩ tiếp theo. Quá trình này, yêu cầu tính toán các dẫn xuất bậc hai (hoặc các xấp xỉ hiệu quả như các sản phẩm vectơ Hessian), về cơ bản là chuyên sâu hơn. Nhóm nghiên cứu thừa nhận đây là một lĩnh vực quan trọng để tối ưu hóa trong tương lai, vì việc làm cho quá trình suy nghĩ này rẻ hơn là điều cần thiết để triển khai thực tế. Đây là một phần nhỏ của kích thước của các hệ thống AI lớn nhất hiện nay, thường vượt quá hàng trăm tỷ tham số. Việc mở rộng một kiến trúc theo các đơn đặt hàng có độ lớn là khó khăn, thường tiết lộ những thách thức không lường trước như sự bất ổn đào tạo hoặc cảnh quan năng lượng trở nên quá phức tạp để điều hướng hiệu quả. Do đó, nó vẫn là một câu hỏi mở liệu các lợi ích hiệu suất được quan sát ở quy mô nhỏ hơn này sẽ giữ, hoặc thậm chí khuếch đại, khi được áp dụng cho các mô hình biên giới. Câu trả lời có thể sẽ phụ thuộc vào ứng dụng. Đối với các nhiệm vụ khoa học hoặc phân tích cao, giá có thể được chứng minh, nhưng đối với việc sử dụng đa năng, phân tích lợi ích chi phí vẫn là một vấn đề quan trọng và chưa được giải quyết. Một số công ty đang giải quyết thách thức này từ các góc độ khác nhau, nêu bật nhu cầu quan trọng để giảm chi phí lớn liên quan đến AI quy mô lớn.
Các phương pháp cạnh tranh này giải quyết hiệu quả ở các giai đoạn khác nhau. Multiverse từ compactifai nén chính mô hình tĩnh. Sakana sườn NAMMS tối ưu hóa bộ đệm KV động trong quá trình suy luận. IBM từ Bamba sử dụng kiến trúc lai để tăng tốc độ xử lý trình tự. Thay vì chỉ tối ưu hóa một mô hình đã hoàn thành hoặc bộ nhớ của nó, EBTS tích hợp một quá trình tư duy”trực tiếp vào cách mỗi dự đoán được hình thành, nhằm mục đích khái quát hóa và lý luận tốt hơn từ cơ bản. Giám đốc điều hành của nó, Enrique Lizaso Olmos, lưu ý, sự khôn ngoan phổ biến là các LLM bị thu hẹp phải trả giá. Multiverse đang thay đổi điều đó.”Trong khi đó, mô hình BAMBA của IBM, nhắm mục tiêu tốc độ suy luận. Những đổi mới khác, như hệ thống tối ưu hóa bộ nhớ Sakana AI, cũng nhằm mục đích làm cho máy biến áp hiệu quả hơn. Các nhà nghiên cứu của Sakana, đã phát hiện ra rằng sự tiến hóa của người Viking vốn đã vượt qua sự không khác biệt trong các hoạt động quản lý bộ nhớ của chúng ta, liên quan đến việc nhị phân ‘nhớ đến kết quả của hay.”Khi các mô hình phát triển, ngành công nghiệp đang chạy đua để tìm ra những cách bền vững để đào tạo và triển khai chúng. Các nhà nghiên cứu EBT tin rằng công việc của họ là một phần quan trọng của tương lai này, kết luận rằng, EBTS là một mô hình mới đầy hứa hẹn để mở rộng cả khả năng học tập và suy nghĩ của các mô hình.”