Google đã tung ra một sự tăng cường tiết kiệm chi phí đáng kể cho API Gemini của mình, giới thiệu bộ nhớ đệm ngầm cho các mô hình flash của Song Tử 2.5 Pro và Gemini 2.5. Thiết lập. nó Target=”_ Blank”> Google được giới thiệu lần đầu tiên vào tháng 5 năm 2024 . Mặc dù bộ nhớ đệm rõ ràng cung cấp một con đường giảm chi phí được đảm bảo, nhưng nó yêu cầu các nhà phát triển phải cấu hình và quản lý nội dung được lưu trong bộ nhớ cache. Bộ nhớ đệm ngầm, ngược lại, hoạt động mà không cần can thiệp trực tiếp. Google tuyên bố rằng họ trực tiếp vượt qua tiết kiệm chi phí bộ đệm cho các nhà phát triển mà không cần phải tạo bộ đệm rõ ràng.”
Để tối ưu hóa các khoản tiết kiệm tự động này, Google khuyên các nhà phát triển nên cấu trúc các lời nhắc của họ bằng cách đặt nội dung chung, ổn định ở đầu, sau đó là các yếu tố biến như câu hỏi dành riêng cho người dùng. Các nhà phát triển sử dụng các mô hình Gemini 2.5 giờ đây sẽ thấy một `bộ nhớ cache_content_token_count` trong siêu dữ liệu sử dụng API phản hồi, cho thấy mức độ của các mã thông báo được sử dụng được sử dụng và lập hóa đơn theo tỷ lệ giảm Bộ nhớ đệm rõ ràng so sánh
Chính thức Tài liệu API API Gemini Làm rõ thêm rằng bộ nhớ đệm sẽ được cho phép theo mặc định. Bên cạnh cấu trúc nhanh chóng, việc gửi các yêu cầu với các tiền tố tương tự liên tiếp cũng có thể làm tăng khả năng truy cập bộ đệm. Phương pháp này cho phép người dùng xác định nội dung cụ thể để lưu trữ và đặt thời gian để sống (TTL). Thanh toán cho bộ nhớ đệm rõ ràng phụ thuộc vào số lượng mã thông báo được lưu trong bộ nhớ cache và TTL được chọn. Như Google AI dành cho các nhà phát triển giải thích, ở một số khối lượng nhất định, sử dụng mã thông báo được lưu trong bộ nhớ cache có chi phí thấp hơn so với việc vượt qua cùng một nhóm mã thông báo.”Các mô hình AI.
Các công ty khác cũng đang giải quyết những thách thức này từ nhiều góc độ khác nhau. Chẳng hạn, nghiên cứu của IBM gần đây đã tiết lộ mô hình BAMBA-9B-V2 của mình, một kiến trúc máy biến áp lai được thiết kế để giải quyết các nhu cầu tính toán của các máy biến áp truyền thống, đặc biệt liên quan đến việc giảm bộ đệm KV. Raghu ganti từ IBM nhấn mạnh rằng đối với Bamba, thì mọi thứ đều quay trở lại với giảm bộ đệm KV, thông lượng hơn, độ trễ thấp hơn, độ dài bối cảnh dài hơn.”href=”https://arxiv.org/html/2505.04588v1″Target=”_ Blank”> Giấy khoa học , có thể cắt giảm chi phí đào tạo liên quan đến API tới 88%. Tuy nhiên, cách tiếp cận này yêu cầu các máy chủ GPU để mô phỏng. Phương pháp này tập trung vào việc giảm các yêu cầu bộ nhớ mô hình mà không làm thay đổi đầu ra, một yếu tố quan trọng đối với các ứng dụng trong đó độ chính xác bit bit là tối quan trọng, do đó tránh được sự phức tạp của một số người dùng cuối sẽ muốn tránh”Các mô hình bộ nhớ (NAMM), được thiết kế để nâng cao hiệu quả của máy biến áp lên tới 75%. NAMM tự động cắt giảm các mã thông báo ít quan trọng hơn từ bộ đệm KV trong quá trình suy luận, đặc biệt có lợi cho việc quản lý các cửa sổ bối cảnh dài. Hệ thống sử dụng các mạng thần kinh được đào tạo thông qua tối ưu hóa tiến hóa, một phương pháp, các nhà nghiên cứu Sakana AI cho biết, sự tiến hóa vốn đã vượt qua sự không phân biệt của các hoạt động quản lý bộ nhớ của chúng tôi, liên quan đến việc có thể sử dụng các kết quả của nó. Tùy thuộc vào các mẫu sử dụng cụ thể:
Hệ thống lưu trữ thủ công trước đây đã phải đối mặt với những lời chỉ trích đôi khi khó sử dụng và đôi khi dẫn đến chi phí được dự đoán cao hơn. Mặc dù có những cân nhắc này, bản chất tự động của bộ nhớ đệm ngầm là một bước rõ ràng để đơn giản hóa việc quản lý chi phí cho các nhà phát triển xây dựng với Song Tử. OpenTools mô tả khả năng Khi phát triển,”