Openai đã công bố một phương pháp đào tạo an toàn mới cho gia đình Model GPT-5 mới của mình có tên là Safe Safe Finemations.” Được công bố vào ngày 7 tháng 8 cung cấp các phản ứng hữu ích nhưng về cơ bản an toàn. Theo OpenAI, phương pháp tập trung đầu ra này làm cho mô hình trở nên hữu ích hơn đáng kể mà không ảnh hưởng đến ranh giới an toàn cốt lõi. Chiến lược cơ bản dường như là một phản ứng trực tiếp đối với một trong những thách thức dai dẳng nhất trong AI: tạo ra các mô hình vừa hữu ích và vô hại, đặc biệt là khi ý định của người dùng không rõ ràng. src=”Dữ liệu: Image/SVG+XML; gihdpzhropsixmjgwiibozwlnahq9iju3ocigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

Vấn đề nan giải sử dụng kép

Trọng tâm của phương pháp mới này là vấn đề sử dụng kép”. Openai sử dụng ví dụ về người dùng yêu cầu năng lượng cần thiết để đốt cháy pháo hoa, một truy vấn có thể dành cho một dự án trường học hoặc để xây dựng chất nổ. Sự mơ hồ này, nơi thông tin có cả tiềm năng lành tính và độc hại, là một thách thức cốt lõi đối với sự an toàn của AI. Các mô hình an toàn AI truyền thống, được đào tạo trên một logic”Tuân thủ nhị phân hoặc từ chối”, không được trang bị cho sắc thái này. Họ đưa ra một quyết định đơn giản dựa trên tác hại nhận thức của lời nhắc. Hệ thống này hoàn toàn tuân thủ, điều này rất nguy hiểm nếu ý định của người dùng là độc hại, hoặc nó đưa ra một sự từ chối chăn như là tôi xin lỗi, tôi có thể giúp đỡ với điều đó”, điều này không có ích cho người dùng hợp pháp. Khung nhị phân này không điều hướng khu vực màu xám rộng lớn về ý định của con người. Hạn chế đáng kể này là điều khiến Openai phát triển một phương pháp tinh vi hơn có thể cung cấp câu trả lời an toàn, cấp cao thay vì từ chối hoàn toàn. Target=”_ Blank”> Thông báo Openai, , về cơ bản, chuyển trọng tâm từ việc phân loại đầu vào của người dùng để đảm bảo sự an toàn của đầu ra mô hình. Thay vì đưa ra phán đoán nhị phân trên lời nhắc của người dùng, cách tiếp cận tập trung vào đầu ra này đào tạo mô hình để tạo ra phản ứng hữu ích nhất có thể vẫn tuân thủ các chính sách an toàn nghiêm ngặt.

theo

Nguyên tắc thứ hai là tối đa hóa sự hữu ích.”Đối với bất kỳ phản hồi nào được coi là an toàn, mô hình được khen thưởng dựa trên mức độ hữu ích của nó. Điều này bao gồm không chỉ trả lời câu hỏi trực tiếp của người dùng mà còn, như Openai giải thích, cung cấp từ chối thông tin với các lựa chọn thay thế hữu ích và an toàn”. Điều này đào tạo mô hình là một đối tác hữu ích ngay cả khi nó không thể tuân thủ đầy đủ với yêu cầu. OpenAI nói rằng việc hoàn thành an toàn tận dụng khả năng ngày càng tăng của AI để đạt được sự tích hợp sâu hơn của người Viking”về sự an toàn và hữu ích, sử dụng trí thông minh của chính mô hình để điều hướng các khu vực màu xám thay vì chỉ dựa vào các quy tắc bên ngoài. Theo dữ liệu điểm chuẩn từ người thử nghiệm bên ngoài, suy nghĩ GPT-5 cho thấy sự cải thiện rõ rệt về sự mạnh mẽ chống lại các cuộc tấn công đối nghịch, thiết lập một tiêu chuẩn hiệu suất hiện đại mới trong khả năng chống tiêm kịp thời. Thử nghiệm nội bộ cho thấy GPT-5 được đào tạo bằng phương pháp này vừa an toàn hơn vừa hữu ích hơn so với người tiền nhiệm của nó, Openai O3. Khi phải đối mặt với những lời nhắc mơ hồ, tốt hơn là cung cấp thông tin hữu ích mà không cần vượt qua các đường dây an toàn. Con số này thể hiện sự cải thiện rõ rệt so với người tiền nhiệm trực tiếp của nó, Openai O3 (62,7%) và dẫn đầu đáng kể so với các mô hình chính khác như Llama 3.3 70b (92,2%) và Gemini Pro 1.5 (86,4%). Nhóm Microsoft AI Red cũng kết luận rằng GPT-5 có một trong những hồ sơ an toàn mạnh nhất trong số các mô hình Openai, lưu ý rằng nó có khả năng chống lại một lần, bẻ khóa chung.”Trong một chiến dịch tập trung vào kế hoạch tấn công bạo lực, các chuyên gia đã đánh giá suy nghĩ GPT-5 là mô hình an toàn hơn”65,1% thời gian trong các so sánh mù với Openai O3. OpenAI thuộc tính điều này trực tiếp cho sắc thái được giới thiệu bởi khóa đào tạo hoàn thành an toàn” 

Lý do cải tiến này là rất quan trọng đối với việc áp dụng doanh nghiệp. Là một đối tác, Inditex, đã lưu ý, những gì thực sự đặt ra [GPT-5] là chiều sâu của lý luận của nó: câu trả lời đa dạng, nhiều lớp phản ánh sự hiểu biết của chủ đề thực sự.”Tình cảm này được lặp lại bởi Giám đốc điều hành Openai Sam Altman, người tuyên bố, GPT-5 là lần đầu tiên nó thực sự cảm thấy như nói chuyện với một chuyên gia cấp tiến sĩ.”Nó là một phần của một nỗ lực rộng lớn hơn, toàn ngành để giải quyết vấn đề an toàn và liên kết AI. Các đối thủ chính như Google và Anthropic gần đây cũng đã công khai các khung và chính sách an toàn rộng lớn của riêng họ.

Áp lực cạnh tranh này nhấn mạnh các cổ phần cao liên quan. Khi các mô hình AI trở nên mạnh mẽ hơn, đảm bảo chúng có thể được tin cậy là điều tối quan trọng để chấp nhận công cộng và phê duyệt theo quy định. Tuy nhiên, cách tiếp cận hoàn thành an toàn cũng là một canh bạc về khả năng AI AI để giải thích sắc thái của con người một cách chính xác. Một thách thức không được giải quyết. Công ty có kế hoạch tiếp tục dòng nghiên cứu này, nhằm mục đích dạy các mô hình của mình để hiểu các tình huống đầy thách thức với sự chăm sóc thậm chí còn lớn hơn.