OpenAI đã đẩy các mô hình O3 và O4-Mini của mình vào TATGPT để trả tiền cho các thuê bao vào khoảng ngày 16 tháng 4 năm 2025, chào mời họ như một bước hướng tới các trợ lý AI tự trị hơn. Các mô hình này được thiết kế với hành vi tác nhân sớm của người Viking,”có khả năng quyết định độc lập khi sử dụng các công cụ như duyệt web, thực thi mã hoặc phân tích tệp.
Bên cạnh việc ra mắt đã tiết lộ một xu hướng liên quan: trên điểm chuẩn của Openai, Personqa, được thiết kế để kiểm tra kiến thức về con người, O3 đã tạo ra thông tin không chính xác hoặc bịa đặt 33% thời gian. Mô hình O4-Mini đã tồi tệ hơn, ảo giác trong 48% trường hợp. Mặc dù thường cho thấy sự cải thiện về các điểm chuẩn lý luận và mã hóa so với các phiên bản cũ hơn, sự gia tăng cụ thể này trong chế tạo đặt ra câu hỏi về sự đánh đổi liên quan đến việc phát triển nhiều hệ thống tác nhân hơn. href=”https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini Lý thuyết rằng bởi vì các mô hình, đưa ra nhiều tuyên bố hơn,”chúng tạo ra cả tuyên bố chính xác và không chính xác hơn. Người phát ngôn của Openai Niko Felix nói với TechCrunch, Giải quyết ảo giác trên tất cả các mô hình của chúng tôi là một lĩnh vực nghiên cứu đang diễn ra và chúng tôi liên tục làm việc để cải thiện độ chính xác và độ tin cậy của chúng.”Phòng thí nghiệm nghiên cứu AI thay đổi các kết quả được công bố vào ngày 16 tháng 4 năm 2025, từ việc thử nghiệm phiên bản trước khi phát hành của O3 (`O3-2025-04-03`), chi tiết một mẫu của mô hình