Anthropic đã phát hành Claude Opus 4.5 ngay hôm nay, khẳng định điểm mã hóa hàng đầu trong ngành và giới thiệu một sự thay đổi kiến trúc quan trọng nhằm giảm chi phí.

Bằng cách giảm giá từ 66% xuống còn 5 USD trên mỗi triệu mã thông báo đầu vào và triển khai”Tìm kiếm công cụ”để giảm 85% chi phí ngữ cảnh, công ty đã trực tiếp tấn công vào rào cản kinh tế cơ bản đối với các tác nhân AI tự trị.

Mô hình này đạt được điểm 80,9% trên SWE-bench Trusted, thu gọn trong gang tấc. ra các bản phát hành gần đây của Google và OpenAI để giành lại đỉnh cao về hiệu suất cho các tác vụ kỹ thuật phần mềm phức tạp.

Cuộc chiến điểm chuẩn: Giành lại vương miện

Opus 4.5 xuất hiện với số điểm 80,9% trên SWE-bench Verify, tiêu chuẩn vàng hiện tại để đánh giá khả năng kỹ thuật phần mềm tự động. Vượt qua đối thủ cạnh tranh, điểm số này vượt qua phiên bản ra mắt Gemini 3 Pro của Google với 76,2% và GPT-5.1-Codex-Max với 77,9%.

Các đánh giá nội bộ cho thấy mô hình hiện đạt điểm cao hơn so với các ứng cử viên là con người trong các bài kiểm tra kỹ thuật tại nhà của chính Anthropic. “Opus 4.5 là một bước tiến về những gì hệ thống AI có thể thực hiện và là bản xem trước những thay đổi lớn hơn về cách thực hiện công việc”, công ty nêu rõ trong thông báo của mình.

Để cân bằng giữa chi phí và khả năng, tham số “nỗ lực” mới cho phép các nhà phát triển linh hoạt điều chỉnh độ sâu lý luận của mô hình trong các lệnh gọi API. Với nỗ lực “trung bình”, Opus 4.5 phù hợp với hiệu suất cao nhất của mẫu Sonnet 4.5 trước đó nhưng tiêu thụ mã thông báo đầu ra ít hơn 76%.

Đẩy mức trần của khả năng giải quyết vấn đề tự động, cài đặt nỗ lực “cao” vượt quá khả năng của Sonnet 4.5 tới 4,3 điểm phần trăm. Tháng 11 đã được chứng minh là một tháng sôi động trong lĩnh vực AI, khi cả ba phòng thí nghiệm lớn triển khai các mô hình mã hóa hàng đầu của họ từ ngày 18 đến ngày 24.

Sự thay đổi kinh tế: Định giá và Kiến trúc

Giải quyết những lo ngại của doanh nghiệp về khả năng tồn tại của các mô hình “lý luận” đắt tiền, Anthropic đã mạnh tay định giá lại mô hình ở mức 5 USD trên một triệu token đầu vào và 25 USD trên một triệu token đầu ra.

So với tháng trước Thế hệ Opus ($15/$75), mức giá mới mang lại mức giảm giá 66%, như được nêu chi tiết trong Giới thiệu Claude Opus 4.5.

Về cơ bản, kiến trúc này đã giải quyết được vấn đề “Bùng nổ bối cảnh”. Theo truyền thống, việc tải hơn 50 định nghĩa công cụ có thể tiêu tốn khoảng 55.000 mã thông báo trước khi một truy vấn của người dùng được xử lý.

Theo tài liệu sử dụng công cụ nâng cao, hệ thống mới về cơ bản thay đổi động này:

“Thay vì tải trước tất cả các định nghĩa công cụ, Công cụ Tìm kiếm Công cụ sẽ khám phá các công cụ theo yêu cầu. Claude chỉ nhìn thấy những công cụ mà nó thực sự cần cho nhiệm vụ hiện tại.”

“Điều này thể hiện việc giảm 85% mức sử dụng mã thông báo trong khi vẫn duy trì quyền truy cập vào thư viện công cụ đầy đủ của bạn. Thử nghiệm nội bộ cho thấy những cải thiện đáng kể về độ chính xác trong đánh giá MCP khi làm việc với các thư viện công cụ lớn.”

Bổ sung cho tính năng này là”Gọi công cụ theo chương trình”(PTC), cho phép mô hình viết mã điều phối thay vì dựa vào việc thực hiện lần lượt dựa trên trò chuyện.

Tài liệu kỹ thuật giải thích thêm về cơ chế của PTC:

“Thay vì Claude yêu cầu lần lượt từng công cụ và mỗi kết quả được trả về ngữ cảnh của nó, Claude viết mã gọi nhiều công cụ, xử lý kết quả đầu ra của chúng và kiểm soát thông tin nào thực sự đi vào cửa sổ ngữ cảnh của nó.”

“Claude vượt trội trong việc viết mã và bằng cách cho phép nó thể hiện logic điều phối trong Python thay vì thông qua các lời gọi công cụ ngôn ngữ tự nhiên, bạn sẽ có được luồng điều khiển chính xác, đáng tin cậy hơn.”

PTC loại bỏ sự cần thiết của các bước suy luận khứ hồi cho mọi hoạt động gọi công cụ riêng lẻ, giảm đáng kể độ trễ. Nhóm Kỹ thuật Anthropic lưu ý rằng việc xử lý các tập dữ liệu mở rộng, chẳng hạn như 200KB dữ liệu chi phí thô, trở nên khả thi vì mô hình chỉ trả về kết quả cuối cùng 1KB cho cửa sổ ngữ cảnh.

“Để xây dựng các tác nhân hiệu quả, chúng cần làm việc với các thư viện công cụ không giới hạn mà không cần phải đưa trước mọi định nghĩa vào ngữ cảnh”.

Mở rộng hệ sinh thái: Chrome, Excel và An toàn

Ngoài mô hình cốt lõi, “Claude Code” đã phát triển từ phiên bản beta đến phiên bản rộng rãi, cung cấp ứng dụng máy tính để bàn đầy đủ cho quy trình làm việc của nhà phát triển. Các hoạt động tích hợp mới cho phép mô hình điều khiển trực tiếp trình duyệt Chrome, vượt ra ngoài việc tạo văn bản đến nghiên cứu tích cực và thực hiện nhiệm vụ.

[nội dung nhúng]

Nhắm mục tiêu vào mô hình tài chính, tích hợp Excel chuyên dụng cho phép mô hình thao tác với các bảng tính có hàng nghìn hàng. 

Dianne Na Penn, Giám đốc Quản lý Sản phẩm Nghiên cứu tại Anthropic, nhấn mạnh tầm quan trọng của khả năng này: “Biết đúng chi tiết cần ghi nhớ thực sự quan trọng để bổ sung cho việc chỉ có một cửa sổ ngữ cảnh dài hơn.”

[nội dung được nhúng]

An toàn vẫn là trụ cột trung tâm của bản phát hành. Thẻ hệ thống Claude Opus 4.5 nêu bật những khoản đầu tư đáng kể vào việc giảm thiểu rủi ro Hóa học, Sinh học, Phóng xạ và Hạt nhân (CBRN).

Thẻ Hệ thống nêu rõ trạng thái căn chỉnh của mô hình:

“Opus 4.5 là mô hình được căn chỉnh mạnh mẽ nhất mà chúng tôi đã phát hành cho đến nay và chúng tôi nghi ngờ, mô hình biên giới phù hợp nhất với bất kỳ nhà phát triển nào.”

“Opus 4.5 khó bị lừa bằng cách tiêm nhanh hơn bất kỳ mô hình biên giới nào khác trong ngành.”

Thực tế thị trường: Kỷ nguyên đặc vụ

Bối cảnh ra mắt, “Cơn sốt AI tháng 11″ đã chứng kiến Google, OpenAI và Anthropic đồng thời hướng tới các tác nhân tự trị. Các câu chuyện đã chuyển từ”chatbot”thành”đại lý”có khả năng duy trì nhiệm vụ trong hơn 24 giờ.

Trong khi Anthropic dẫn đầu về điểm chuẩn thô (80,9%), biên độ rất mỏng, với chưa đến 5 điểm phần trăm cách biệt ba ứng cử viên hàng đầu. Một sự cân bằng quan trọng tồn tại trong kiến ​​trúc mới:”Tìm kiếm công cụ”giới thiệu một bước tìm kiếm có thể tăng thêm độ trễ so với việc tải sẵn tất cả các công cụ trong ngữ cảnh.

Không giống như tối ưu hóa gốc Windows của OpenAI với Codex-Max, Anthropic đang đặt cược vào cách tiếp cận máy tính để bàn không phụ thuộc vào nền tảng. Quản lý bộ nhớ đã nổi lên như một chiến trường mới, với OpenAI sử dụng tính năng”nén”và Anthropic triển khai”Tìm kiếm công cụ”để giải quyết nút thắt tương tự ở cửa sổ ngữ cảnh.

Categories: IT Info