Openai Today đã ra mắt TATGPT Agent, trợ lý AI mạnh nhất của nó cho đến nay, nhằm tạo ra một công cụ tích cực hoàn thành công việc cho người dùng thay vì chỉ trả lời các câu hỏi. Đại lý mới vận hành một máy tính ảo của người Viking”để thực hiện các tác vụ phức tạp, nhiều bước. Sự ra mắt này leo thang cuộc đua giành quyền tối cao trong AI Agentic, đọ sức với Openai chống lại các sáng kiến từ Google, Anthropic và Microsoft. Nó thay thế công cụ vận hành của công ty, được giới thiệu lần đầu tiên vào tháng 1 năm 2025 với tư cách là một tác nhân dựa trên trình duyệt hạn chế hơn.

TALD Đó là Được cung cấp bởi một mô hình mới, không tên từ gia đình Openai O3 . Hệ thống này được thiết kế để giảm tải các tác vụ phức tạp từ người dùng, chẳng hạn như lập kế hoạch cho các sự kiện bằng cách kiểm tra lịch hoặc tạo sàn trượt. Tái cấu trúc nội bộ này nhấn mạnh tầm quan trọng chiến lược của việc vượt ra ngoài các chatbot đơn giản. Nó kết hợp một trình duyệt trực quan từ xa với thiết bị đầu cuối để thực thi mã, thực hiện phân tích dữ liệu và thậm chí tạo bảng tính. Các nguồn dữ liệu bên ngoài và các ứng dụng như Google Drive, một bước tiến đáng kể từ các dịch vụ trước đó. Trên Frontiermath, một bài kiểm tra toán đầy thách thức, đại lý đã đạt 27,4% khi sử dụng các công cụ của mình, một bước nhảy vọt lớn từ 6,3% đạt được bởi mô hình hàng đầu trước đó, O4-mini.

Openai thừa nhận công cụ không được xây dựng cho tốc độ. Trưởng nhóm nghiên cứu Isa Fulford lưu ý rằng người dùng aren có nghĩa là xem nó hoạt động, đóng khung nó như một trợ lý nền. Ngay cả khi mất 15 phút, nửa giờ, nó cũng tăng tốc độ lớn so với bạn sẽ mất bao lâu để làm điều đó”, cô nói, nhấn mạnh vai trò của nó trong việc xử lý các quá trình tốn thời gian. href=”https://cdn.openai.com/pdf/18A02B5D-6B67-4CEC-ab64-68CDFBDDEBCD Đây là một biện pháp phòng ngừa chống lạm dụng tiềm năng, đặc biệt là trong các lĩnh vực sinh học và hóa học, ngay cả khi không có bằng chứng trực tiếp về rủi ro.

Kiểm soát người dùng là một chủ đề trung tâm. Fulford đã xác nhận rằng, trước khi đại lý Chatgpt làm bất cứ điều gì ‘không thể đảo ngược, giống như gửi email hoặc đặt chỗ, nó xin phép trước.”Bước xác nhận người dùng này rất quan trọng đối với các hành động với hậu quả trong thế giới thực, dựa trên thiết kế đầu tiên an toàn của tác nhân vận hành trước đó. Tính năng này tự động tạm dừng việc thực thi đại lý trên các trang web nhạy cảm, như cổng tài chính, nếu người dùng điều hướng ra khỏi tab. Ngoài ra, OpenAI đã vô hiệu hóa tính năng bộ nhớ Chatgpt, khi ra mắt để giảm thiểu rủi ro giảm dữ liệu từ các cuộc tấn công tiêm kịp thời. Đó là một phản ứng trực tiếp cho các công cụ tương tự từ các đối thủ. Anthropic đã sớm có tính năng sử dụng máy tính”cho các mô hình Claude, được phát hành vào tháng 10 năm 2024. Microsoft cũng vậy, đang nhúng các tính năng giống như đại lý vào studio Copilot. Charles Lamanna, một VP của Microsoft, đã ghi lại một cách ngắn gọn mục tiêu: Nếu một người có thể sử dụng ứng dụng, đại lý cũng có thể.”Lịch sử này đặt ra một thanh cao cho tác nhân mới, có khả năng hơn. Một nghiên cứu gần đây của Carnegie Mellon cho thấy ngay cả các mô hình AI hàng đầu cũng đấu tranh với các nhiệm vụ tự động hóa kinh doanh, làm nổi bật các vấn đề với lẽ thường và duyệt web. Đại lý mới của Openai, sẽ được đo lường so với các điểm chuẩn hiệu suất trong thế giới thực này.

Categories: IT Info