Các nhà nghiên cứu của Google đã phát triển một kỹ thuật mới có tên là Cascades đầu cơ”được thiết kế để tạo ra các mô hình ngôn ngữ lớn (LLM) nhanh hơn đáng kể, rẻ hơn và hiệu quả hơn. Target=”_ Blank”> Bài đăng trên blog của công ty trong tuần này , Phương pháp lai đã giải quyết chi phí tính toán to lớn và sự chậm chạp của AI suy luận, một thách thức quan trọng đối với ngành công nghiệp. Target=”_ Blank”> Cách tiếp cận Kết hợp tốt nhất trong hai kỹ thuật gia tốc hiện có, Cas Cascades”và giải mã đầu cơ của Hồi giáo”, trong khi tránh các điểm yếu chính của chúng. src=”https://winbuzzer.com/wp-content/uploads/2025/01/artificial-intellgence-text-science-multimodal.jpg”>

bằng cách sử dụng quy tắc trì hoãn năng động, linh hoạt. Các thí nghiệm cho thấy phương pháp này cung cấp tốc độ tăng tốc lớn cho các nhiệm vụ AI phổ biến. Quá trình tạo ra một phản ứng, được gọi là suy luận, nổi tiếng là chậm và tốn kém về mặt tính toán. Như Google Nghiên cứu lưu ý, khi chúng tôi triển khai các mô hình này cho nhiều người dùng hơn, khiến chúng nhanh hơn và ít tốn kém hơn mà không hy sinh chất lượng là một thách thức quan trọng.”Tham gia một cái lớn hơn, đắt tiền hơn. Mục tiêu là xử lý các truy vấn với giá rẻ, chỉ phát sinh chi phí cao của LLM lớn cho các nhiệm vụ thực sự phức tạp. Nhưng nếu đó không phải là, thời gian bị lãng phí chờ đợi nó kết thúc, chỉ để bắt đầu quá trình mô hình lớn từ đầu. Bottleneck cơ bản này có thể làm cho quá trình này chậm và không hiệu quả. Tuy nhiên, độ cứng của nó là điểm yếu lớn nhất của nó. Các nhà nghiên cứu Google Google minh họa điều này bằng một ví dụ đơn giản: một truy vấn cho ai là Buzz Aldrin?”Mô hình nhỏ có thể phác thảo Buzz Aldrin là một người Mỹ”, trong khi mô hình lớn thích của Ed Edwin’ Buzz, Aldrin,”Yêu cầu để phù hợp với mã thông báo lớn bằng cách buộc phải từ chối.”Điều này dẫn đến không tiết kiệm tính toán và làm nổi bật sự lãng phí vốn có của phương pháp. Nó sử dụng một mô hình nhỏ để phác thảo các phản hồi nhưng thay thế cho xác minh cứng nhắc, không có gì bằng cách sử dụng quy tắc trì hoãn thông minh hơn, linh hoạt hơn,”như chi tiết trong nhóm cơ sở, cho dù chấp nhận bản nháp mô hình nhỏ hay trì hoãn mô hình lớn. Điều này tránh cả nút cổ chai tuần tự của các tầng và sự từ chối nghiêm ngặt, tất cả hoặc không có gì của giải mã đầu cơ.

Sức mạnh của phương pháp này nằm ở khả năng thích ứng của nó. Không giống như việc xác minh cứng nhắc trong giải mã đầu cơ tiêu chuẩn, quy tắc trì hoãn có thể được điều chỉnh theo nhu cầu cụ thể, cung cấp cho các nhà phát triển kiểm soát chi tiết về sự đánh đổi giữa chi phí, tốc độ và chất lượng. Nó cũng có thể thực hiện kiểm tra so sánh, trì hoãn nếu mô hình lớn tự tin hơn đáng kể trong một câu trả lời khác. Tính linh hoạt này là cốt lõi của phương pháp Cascade đầu cơ. Như các nhà nghiên cứu đã giải thích, với việc giải mã đầu cơ, mặc dù mô hình nhỏ đã tạo ra một câu trả lời tốt, yêu cầu phù hợp với mã thông báo lớn bằng cách từ chối,”buộc phải từ chối ngay cả khi dự thảo hoàn toàn chấp nhận được. Các tầng đầu cơ được thiết kế để ngăn chặn sự kém hiệu quả này. href=”https://en.wikipedia.org/wiki/t5_(langle_model)”Target=”_ Blank”> T5 . Họ đã đo lường hiệu suất qua các nhiệm vụ khác nhau như tóm tắt, lý luận và mã hóa. Các kết quả rất hấp dẫn. Bằng cách cho phép các quyết định sắc thái hơn ở mỗi bước của quy trình tạo, hệ thống có thể tạo ra các câu trả lời chất lượng cao nhanh hơn và với chi phí tính toán ít hơn.

Trong khi công nghệ vẫn đang trong giai đoạn nghiên cứu, tiềm năng của nó rất rõ ràng. Google Nghiên cứu nói rằng cách tiếp cận lai này cho phép kiểm soát chi tiết đối với số dư chất lượng chi phí, mở đường cho các ứng dụng thông minh hơn và nhanh hơn.”

Công việc của Google là một phần của ngành công nghiệp rộng lớn hơn để giải câu đố hiệu quả AI. Các công ty đang khám phá các góc độ khác nhau để giảm nhu cầu phần cứng và chi phí vận hành của LLM. Một số, như các nhà phát triển của DFLOAT11, đang tạo ra các kỹ thuật nén không mất mát để thu hẹp kích thước mô hình. Các công ty khác đang giải quyết chi phí đào tạo cao. Ví dụ, khung ZeroSearch của Alibaba, việc cắt giảm chi phí đào tạo bằng cách dạy LLM để mô phỏng các tương tác của công cụ tìm kiếm, tránh các cuộc gọi API tốn kém.

Ví dụ, Sakana AI đã phát triển một hệ thống để tạo bộ nhớ hoạt động (bộ đệm KV) trong LLM hiệu quả hơn trong các tác vụ bối cảnh dài. Sự tập trung mạnh mẽ này vào việc tối ưu hóa nhấn mạnh mức độ hiệu quả quan trọng đối với làn sóng phát triển AI tiếp theo. Ngành công nghiệp đang chuyển từ một sự tập trung thuần túy vào quy mô sang sự theo đuổi bền vững hơn của AI thông minh hơn, dễ tiếp cận hơn và khả thi về mặt kinh tế.

Categories: IT Info