Khởi nghiệp AI Qodo đã tham gia vào cuộc chiến điểm chuẩn khốc liệt”để mã hóa quyền lực tối cao. Vào ngày 11 tháng 8, công ty đã công bố đại lý mới của mình, QODO Command, đã ghi được 71,2% ấn tượng trong bài kiểm tra được xác minh của Swech-Bench. Kết quả này đẩy Qodo trực tiếp vào một lĩnh vực cạnh tranh được thống trị bởi những người khổng lồ như Anthropic và Openai. Lệnh Qodo được xây dựng trên Langgraph và cho phép sử dụng các mô hình từ Openai, Anthropic và các mô hình khác cho các tác vụ mã hóa. Anthropic và Openai gần đây đã nhảy vọt lẫn nhau cho vị trí hàng đầu, tuyên bố điểm tương ứng là 74,5% và 74,9%. Cuộc đua không ngừng đối với sự thống trị của điểm chuẩn đang leo thang nhanh chóng. Các mô hình ghi điểm cao như Openai mới GPT-5 đã phải đối mặt với các buổi ra mắt công khai gặp khó khăn, đưa ra những câu hỏi quan trọng về việc thành công điểm chuẩn có thực sự chuyển sang hiệu suất đáng tin cậy, sẵn sàng sản xuất hay không.
Một loạt các thông báo nhanh chóng từ các phòng thí nghiệm hàng đầu của ngành công nghiệp nổi bật với được thiết kế từ đầu cho kỹ thuật phần mềm trong thế giới thực . Thay vì dựa vào một mô hình nguyên khối duy nhất, tác nhân lệnh Qodo được xây dựng trên Langgraph, một khung mạnh mẽ cho phép tạo ra các quy trình công việc mô-đun, trạng thái và chu kỳ. Nền tảng này cung cấp cả tốc độ và tính linh hoạt cần thiết để giải quyết các vấn đề phức tạp, nhiều bước.
Việc sử dụng Langgraph là một điểm khác biệt chính. Nó cho phép Qodo phối hợp các hoạt động phức tạp dưới dạng biểu đồ, trong đó mỗi bước là một nút có thể cấu hình. Mô-đun này không chỉ là một lợi thế lý thuyết; Nó cho phép nhóm sử dụng lại và mở rộng các thành phần đã được chứng minh từ phần mở rộng IDE hiện có của mình, Qodo Gen. Điều này bao gồm các mô-đun được thử nghiệm chiến đấu để phân tích mã, tóm tắt và quét bảo mật, có thể được sử dụng lại một cách dễ dàng trong tác nhân mới. Hệ thống Qodo, nhận ra rằng thành công trong các cơ sở mã phức tạp, nhiều tập tin đòi hỏi nhiều hơn là chỉ cung cấp các tệp thô cho một mô hình ngôn ngữ. Nó giải quyết vấn đề này bằng cách chưng cất mã được phân lớp đầu tiên thành các bản tóm tắt tín hiệu chính xác, có hiệu lực cao, đảm bảo LLM chỉ nhận được bối cảnh có liên quan và có cấu trúc nhất ở mỗi bước của quá trình lý luận. Trước khi viết bất kỳ mã nào, tác nhân phân tích sâu sắc mục tiêu của người dùng và phân tách nó thành một loạt các nhiệm vụ rõ ràng, có thể hành động. Điều này tạo ra một lộ trình đáng tin cậy để LLM tuân theo. Điều quan trọng, việc hoàn thành nhiệm vụ được đánh giá không chỉ bởi sản lượng cuối cùng mà bằng cách tuân thủ nghiêm ngặt kế hoạch ban đầu này. Bất kỳ khoảng trống được phát hiện nào cũng kích hoạt vòng lặp phản hồi và thử lại cho đến khi đạt được sự liên kết đầy đủ. Khi một cuộc gọi công cụ thất bại, tác nhân không chỉ đơn giản là dừng lại; nó thích nghi. Hệ thống tự động trích xuất phản hồi lỗi, gọi LLM để chẩn đoán lỗi, sau đó điều chỉnh thông minh các tham số hoặc cấu trúc của công cụ. Đại lý được trao quyền để thử lại một cuộc gọi lên tới ba lần và nếu một nghị quyết vẫn không thể, nó có thể xoay quanh các chiến lược thay thế để đảm bảo tiến trình tiếp tục. Bộ công cụ của nó bao gồm:
FileSystem: Các công cụ tiêu chuẩn để đọc, viết và chỉnh sửa các tệp. Nhận ra rằng ngay cả các mô hình hiện đại cũng có thể thất bại trên các kết hợp đường dẫn tệp chính xác, QoDO đã thực hiện một cơ chế dự phòng sử dụng khớp mờ để cải thiện tỷ lệ thành công của công cụ. Công cụ Shell: Điều này cung cấp cho tác nhân khả năng tương tác trực tiếp với vỏ hệ thống. Nó có thể chạy các tập lệnh xây dựng, thực hiện các bộ thử nghiệm và xác thực các giả thuyết của chính nó trong thời gian thực, bắt chước một quy trình làm việc tương tác của nhà phát triển. RIPGREP: Đối với sự hiểu biết về cơ sở mã sâu, tác nhân được thiết kế tự nhiên để sử dụng tối ưu hóa công cụ tìm kiếm đệ quy RIPGREP, cho phép nó nhanh chóng định vị các đoạn mã có liên quan trên các kho lưu trữ lớn. Tư duy tuần tự: Mặc dù không được bật theo mặc định, công cụ lý luận có cấu trúc này đã giúp đóng góp vào kết quả điểm chuẩn bằng cách chia các nhiệm vụ phức tạp thành các bước dễ quản lý hơn, có thể hành động.
Để chạy điểm chuẩn, Qodo lưu ý rằng công cụ tìm kiếm web của nó đã bị vô hiệu hóa để ngăn chặn bất kỳ rò rỉ dữ liệu tiềm năng nào trong các giải pháp, đảm bảo tính toàn vẹn của điểm số của nó. Cuối cùng, công ty nhấn mạnh sự hợp tác mạnh mẽ của mình với nhân học, xác nhận đó là Nó chỉ định rằng Claude 4 nổi lên như là mô hình lựa chọn của nó để đạt được kết quả Băng ghế SWE ấn tượng của mình. Mặc dù có điểm số thiết lập kỷ lục và những tuyên bố đầy tham vọng từ CEO Sam Altman rằng, đây là mô hình tốt nhất trên thế giới tại Coding, mô hình tốt nhất trên thế giới bằng văn bản, mô hình tốt nhất trên thế giới chăm sóc sức khỏe và một danh sách dài những thứ khác ngoài đó”Mô hình đã tạo ra các bản đồ với các trạng thái hư cấu, toán học cơ bản thất bại và phát minh ra các tổng thống Hoa Kỳ, dẫn đến sự chế giễu rộng rãi và làm hỏng uy tín của công ty. Anh ta thừa nhận rằng, một autoswitcher bị lỗi giữa các chế độ nội bộ của mô hình đã tạo ra nó trong một thời gian dài hơn ‘dường như là Dumber, so với dự định,”một lỗ hổng kỹ thuật làm cho mô hình có vẻ kém hơn nhiều so với dự định. Trong một sự đảo ngược đáng kể, Openai đã hứa sẽ