OpenAI hôm thứ Tư đã phát hành gpt-oss-safeguard, một dòng mô hình AI có trọng lượng mở mới được thiết kế để cho phép các nhà phát triển thực thi các quy tắc an toàn nội dung của riêng họ.

Công ty đã cung cấp hai kích thước mô hình trên Hugging Face theo giấy phép Apache 2.0 cho phép, cho phép sử dụng thương mại miễn phí.

Không giống như các công cụ an toàn truyền thống, các mô hình này sử dụng lý luận để diễn giải và áp dụng bất kỳ chính sách nào mà nhà phát triển viết trong thời gian thực. Cách tiếp cận này cung cấp cho các nền tảng một phương pháp kiểm duyệt nội dung linh hoạt và minh bạch hơn.

Bản phát hành được đưa ra trong bối cảnh OpenAI nỗ lực tăng cường tính an toàn trên các sản phẩm của mình trong bối cảnh công chúng và cơ quan quản lý ngày càng giám sát chặt chẽ. Được đặt tên là gpt-oss-safeguard-120b và gpt-oss-safeguard-20b, các mẫu mới là phiên bản chuyên dụng của dòng gpt-oss của công ty, đánh dấu sự trở lại đấu trường hạng cân mở vào tháng 8.

Phương pháp tiếp cận mới: An toàn dựa trên lý luận cho Các nhà phát triển

Chuyển từ các phương pháp truyền thống, các mô hình mới giới thiệu cách tiếp cận dựa trên lý luận để phân loại nội dung. Bộ phân loại an toàn tiêu chuẩn thường được đào tạo dựa trên hàng nghìn ví dụ được gắn nhãn thủ công về nội dung an toàn và không an toàn.

Chúng học cách suy luận một chính sách nhưng không bao giờ trực tiếp nhìn thấy các quy tắc, khiến chúng trở nên cứng nhắc và khó cập nhật nếu không được đào tạo lại rộng rãi.

gpt-oss-safeguard hoạt động theo cách khác. Cần có hai yếu tố đầu vào cùng một lúc: chính sách do nhà phát triển viết và nội dung được đánh giá dựa trên chính sách đó.

Sử dụng quy trình suy nghĩ theo chuỗi, mô hình sẽ suy luận thông qua chính sách để đi đến phân loại. Các nhà phát triển có thể xem xét lý do này, cung cấp quy trình kiểm tra rõ ràng cho các quyết định kiểm duyệt. Điều này giúp hệ thống có khả năng thích ứng cao trước những thách thức về an toàn có nhiều sắc thái hoặc đang gia tăng nhanh chóng khi không có các tập dữ liệu được gắn nhãn lớn.

Ví dụ: một diễn đàn trò chơi có thể sử dụng hệ thống này để gắn cờ các cuộc thảo luận về gian lận hoặc một trang web đánh giá có thể sàng lọc các lời chứng thực giả mạo bằng cách sử dụng các tiêu chí riêng của họ.

OpenAI cho thấy phương pháp này đặc biệt hiệu quả khi độ trễ ít quan trọng hơn so với việc tạo ra các nhãn an toàn chất lượng cao, có thể giải thích được. Chọn giấy phép Apache 2.0 cũng là một động thái quan trọng vì tính chất dễ dãi của nó khuyến khích việc áp dụng rộng rãi và sử dụng thương mại, xóa bỏ các rào cản tồn tại với các giấy phép hạn chế hơn.

Hợp tác cộng đồng và Con đường dẫn đến An toàn Mở

Trong một động thái quan trọng đối với cộng đồng nguồn mở, OpenAI đã phát triển gpt-oss-safeguard phối hợp với một số tổ chức an toàn và tin cậy, bao gồm Discord, SafetyKit và ROOST (Công cụ an toàn trực tuyến mở mạnh mẽ). Phương pháp hợp tác này nhằm mục đích xây dựng công cụ an toàn với ý kiến ​​đóng góp trực tiếp từ những người thực hành sẽ sử dụng nó hàng ngày.

Là một phần của quá trình ra mắt, ROOST đang thành lập Cộng đồng mô hình ROOST (RMC), một sáng kiến ​​mới trên GitHub được thiết kế để gắn kết các nhà nghiên cứu và chuyên gia an toàn với nhau.

Mục tiêu của nó là chia sẻ các phương pháp hay nhất và cải tiến các mô hình AI nguồn mở để bảo vệ không gian trực tuyến. Vinay Rao, CTO tại ROOST, khen ngợi thiết kế của mô hình. “gpt-oss-safeguard là mô hình lý luận nguồn mở đầu tiên có thiết kế’đưa ra các chính sách và định nghĩa về tác hại của riêng bạn’.”

Ông nói thêm:”Trong thử nghiệm của chúng tôi, nó rất khéo léo trong việc hiểu các chính sách khác nhau, giải thích lý do và thể hiện sắc thái trong việc áp dụng các chính sách mà chúng tôi tin rằng sẽ có lợi cho các nhà xây dựng và các nhóm an toàn.”

Ý kiến này cũng được lặp lại bởi Chủ tịch ROOST, Camille François, người đã tuyên bố:”Khi AI trở nên mạnh mẽ hơn, các công cụ an toàn và nghiên cứu an toàn cơ bản phải phát triển nhanh chóng — và tất cả mọi người đều phải có thể truy cập được.”

Bối cảnh là chìa khóa: Bản phát hành kịp thời trong bối cảnh giám sát an toàn

Trước áp lực pháp lý gay gắt, việc công ty phát hành một công cụ an toàn mới đặc biệt kịp thời.

Chỉ một ngày sau khi OpenAI tiết lộ rằng hàng trăm nghìn người dùng của họ có các cuộc trò chuyện liên quan đến việc tự làm hại bản thân hoặc rối loạn tâm thần với ChatGPT mỗi tuần, buổi ra mắt trực tiếp giải quyết các yêu cầu về sự an toàn lớn cập nhật.

Với mức định giá 500 tỷ USD và cơ sở người dùng vượt quá 800 triệu người dùng hoạt động hàng tuần, quy mô thách thức về an toàn của OpenAI là rất lớn.

Đằng sau gpt-oss-safeguard là công nghệ không hoàn toàn mới đối với công ty. OpenAI tiết lộ rằng họ sử dụng một công cụ nội bộ tương tự, mạnh mẽ hơn có tên là Safety Reasoner làm thành phần cốt lõi trong hệ thống an toàn”phòng thủ theo chiều sâu”của riêng mình.

Hệ thống nội bộ này giúp bảo vệ các mẫu máy tiên tiến như GPT-5 và Sora 2 bằng cách đánh giá linh hoạt nội dung chống lại các chính sách đang phát triển trong thời gian thực.

Bằng cách phát hành phiên bản mở của phương pháp này, OpenAI đang cung cấp một phần quan trọng trong chiến lược an toàn nội bộ của mình cho hệ sinh thái nhà phát triển rộng lớn hơn.

Các hạn chế và The Road Ahead

Mặc dù có cách tiếp cận sáng tạo nhưng OpenAI vẫn minh bạch về những hạn chế của mô hình. Đối với các rủi ro phức tạp, công ty lưu ý rằng một bộ phân loại chuyên dụng được đào tạo trên hàng chục nghìn mẫu có nhãn chất lượng cao vẫn có thể đạt được hiệu suất cao hơn.

Quy trình lý luận cũng tốn nhiều thời gian và tính toán hơn so với các phương pháp truyền thống. Điều này có thể đặt ra thách thức cho các nền tảng cần kiểm duyệt khối lượng nội dung lớn ở độ trễ rất thấp.

Trong nội bộ, OpenAI giảm thiểu điều này bằng cách sử dụng các bộ phân loại nhỏ hơn, nhanh hơn để trước tiên xác định nội dung có vấn đề tiềm ẩn, sau đó được chuyển đến Safety Reasoner mạnh hơn để phân tích chi tiết. Cách tiếp cận theo cấp độ này là mô hình mà các nhà phát triển có thể áp dụng.

Hiện tại, việc phát hành gpt-oss-safeguard đánh dấu một bước quan trọng hướng tới việc xây dựng các hệ thống an toàn AI minh bạch, có khả năng thích ứng và hướng đến cộng đồng hơn, mang đến cho các nhà phát triển một công cụ mới mạnh mẽ trong cuộc chiến đang diễn ra vì an toàn trực tuyến.

Categories: IT Info