Anthropic đã ra mắt Claude Sonnet 4.5, mô hình AI mới nhất của nó, mà công ty tuyên bố là mô hình tốt nhất và an toàn nhất thế giới để mã hóa và xây dựng các tác nhân phần mềm phức tạp. Claude Sonnet 4.5 thể hiện hiệu suất tiên tiến trên các điểm chuẩn trong ngành chính. Việc ra mắt bao gồm các nâng cấp chính cho các công cụ nhà phát triển nhân học, chẳng hạn như mở rộng mã vs và SDK đại lý mới, nhằm mục đích cho phép các nhiệm vụ tự trị lâu dài hơn, lâu dài. href=”https://www.anthropic.com/claude-sonnet-4-5-system-card”Target=”_ blank”> giảm thiểu rủi ro và giảm các hành vi có hại . Động thái này định vị nó là một đối tác AI đáng tin cậy và phù hợp hơn cho các nhà phát triển trong một chủng tộc công nghệ leo thang nhanh chóng. src=”Dữ liệu: Image/SVG+XML; Aiihdpzhropsixmjgwiibozwlnahq9ijcymcigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
Một chuẩn mực mới cho mã hóa AI và sức bền của tác nhân
Các tuyên bố về quyền lực tối cao được hỗ trợ bởi một số liệu ấn tượng của Sonnet 45. href=”https://www.anthropic.com/news/claude-sonnet-4-5″Target=”_ Blank”> Thông báo chính thức
Mô hình cũng thiết lập một bản ghi mới trên OSWorld, một bộ kiểm tra khả năng AI AI để thực hiện các tác vụ máy tính trong thế giới thực. Hiệu suất này đặt nó trước các đối thủ cạnh tranh như Google, Gemini 2.5 Pro và OpenaiTHER GPT-5 trên nhiều mặt trận, theo điểm chuẩn do công ty chia sẻ. Nó đáng chú ý là vượt qua mô hình hàng đầu đắt tiền hơn của Anthropic, Opus 4.1. Bằng cách cung cấp các khả năng vượt trội ở cùng một mức giá với Sonnet 4 cũ, Anthropic đang tạo ra một trường hợp mạnh mẽ cho hiệu quả và giá trị, cung cấp cho các nhà phát triển truy cập vào hiệu suất hàng đầu mà không có phí bảo hiểm chi phí. Các báo cáo nhân loại rằng Sonnet 4.5 có thể hoạt động trên các dự án phức tạp, nhiều bước trong hơn 30 giờ liên tục. Trong các thử nghiệm ban đầu, nhà nghiên cứu AI AI David Hershey nói với TechCrunch rằng ông đã xem mô hình không chỉ xây dựng một ứng dụng mà còn đứng lên các dịch vụ cơ sở dữ liệu, mua tên miền và thực hiện kiểm toán bảo mật SOC 2 trên công việc của chính mình. cho thấy chiều rộng lớn hơn. Phản hồi ban đầu từ các chuyên gia về tài chính, luật, y học và STEM cho thấy Sonnet 4.5 có kiến thức và lý luận cụ thể về miền tốt hơn đáng kể so với các mô hình trước đây. Như Hershey đã lưu ý, thật khó để nắm bắt được hiệu suất của Claude Sonnet 4.5 trên các điểm chuẩn, làm nổi bật khả năng của mô hình để giải quyết các thách thức trong thế giới thực, dài vượt ra ngoài việc tạo mã đơn giản. Hệ sinh thái nhà phát triển Anthropic. Công ty có Phần mở rộng mã bản địa vs , hiện đang bị beta. Điều này đưa các khả năng của Code Code trực tiếp vào IDE, cung cấp một giao diện đồ họa phong phú hơn với thanh bên chuyên dụng và các điểm khác nhau trong thời gian thực. href=”https://www.anthropic.com/news/context-man Quản lý”Target=”_ Blank”> Công cụ quản lý bối cảnh nâng cao . Cách tiếp cận hai con có tác động có thể đo lường được. Các thử nghiệm nội bộ cho thấy rằng việc kết hợp các công cụ này đã cải thiện hiệu suất của tác nhân đối với các nhiệm vụ phức tạp xuống 39% và giảm 84% mức tiêu thụ mã thông báo trong đánh giá tìm kiếm trên web 100 lần, cho phép các tác nhân hoàn thành các quy trình công việc mà nếu không sẽ thất bại. href=”https://anthropic.com/engineering/building-agents-with-the-laude-agent-sdk”target=”_ blank”> phát hành sdk đại lý claude . Đây không chỉ là một thư viện; Nó cho phép các nhà phát triển truy cập vào cùng một cơ sở hạ tầng cốt lõi cung cấp năng lượng cho mã Claude. Nó cho phép tạo ra các đại lý tùy chỉnh cho các quy trình công việc chuyên ngành, từ tuân thủ tài chính đến an ninh mạng.
Chiến lược này hỗ trợ trực tiếp cho tầm nhìn dài hạn của công ty. Như CEO Dario Amodei đã tuyên bố trước đây, chúng tôi đang hướng đến một thế giới nơi một nhà phát triển con người có thể quản lý một đội ngũ đại lý, nhưng tôi nghĩ rằng sự tham gia của con người sẽ rất quan trọng đối với kiểm soát chất lượng. Sonnet 4.5 là mô hình Frontier phù hợp nhất của nó”. Các chi tiết thẻ hệ thống chính thức của công ty, đào tạo an toàn rộng rãi đã dẫn đến việc giảm đáng kể các hành vi không mong muốn như sycophancy, lừa dối và tìm kiếm điện. Điều này bao gồm các bộ lọc triển khai được thiết kế để phát hiện và ngăn chặn việc tạo ra các đầu ra nguy hiểm tiềm tàng, đặc biệt là các bộ lọc liên quan đến vũ khí hóa học, sinh học, phóng xạ và hạt nhân (CBRN). Công ty tuyên bố Sonnet 4.5 ít bị các cuộc tấn công tiêm thuốc và các lỗ hổng khác đã gây khó chịu cho các mô hình AI trước đó. Đó là một động thái chiến lược trong một thị trường siêu cạnh tranh. Chỉ vài tuần trước, Openai đã ra mắt GPT-5-Codex, một mô hình chuyên dụng cho mã hóa tác nhân. Trưởng nhóm sản phẩm của nó, Alexander Embiricos, đã nhấn mạnh trí thông minh thích ứng của nó, nêu rõ, GPT-5-Codex có thể quyết định năm phút thành một vấn đề cần phải dành một giờ nữa.”Meta cũng đã bước vào cuộc cạnh tranh với mô hình Code World, một trình gỡ lỗi thần kinh của người Hồi giáo”tập trung vào việc hiểu logic mã thay vì chỉ viết nó. Phản hồi ban đầu từ các đối tác như Trình con trỏ và Windsurf là tích cực. Các nhiệm vụ chân trời dài hơn,”Trong khi Giám đốc điều hành của Windsurf, Jeff Wang gọi nó là một thế hệ mới của các mô hình mã hóa.”Để thể hiện sức mạnh của mình, Anthropic cũng đang cung cấp một bản xem trước nghiên cứu tạm thời có tên Hãy tưởng tượng với Claude, cho người đăng ký tối đa .