OpenAI đã giới thiệu GPT-4.5, xây dựng thương hiệu cho nó là mô hình rộng rãi và hiểu biết nhất mà công ty đã xây dựng cho đến nay. Nhưng có một người bắt bóng, Openai khẳng định đây không phải là một bước nhảy vọt công nghệ lớn. GPT-4.5, có sẵn như một bản xem trước nghiên cứu, cải thiện đối với người tiền nhiệm GPT-4O của nó nhưng không mang lại các loại tiến bộ sẽ phân loại nó như một hệ thống AI Frontier. Trong khi OpenAI tuyên bố GPT-4.5 cải thiện độ chính xác thực tế và tạo ra nhiều phản ứng tự nhiên hơn, công ty thừa nhận họ tụt hậu so với các mô hình lý luận chuyên biệt của mình ở một số khu vực. Openai mô tả nó là tính toán hiệu quả hơn GPT-4, đạt được hiệu suất tốt hơn mười lần trong sức mạnh xử lý. Tinh chỉnh (SFT) và học tập củng cố từ phản hồi của con người (RLHF). Cách tiếp cận này có nghĩa là làm cho các tương tác trở nên chất lỏng hơn, giảm thiểu các phản hồi không chính xác và cải thiện khả năng sử dụng trong các ứng dụng trong thế giới thực. Các mô hình khác như O1 và O3-Mini hoạt động tốt hơn trong các khu vực cụ thể, đặc biệt là trong các đánh giá giải quyết vấn đề và logic có cấu trúc. đang được trình bày như một mô hình ngôn ngữ đa năng mạnh mẽ và đa năng, thể hiện những cải tiến trong các lĩnh vực chính như giảm ảo giác và hiểu đa ngôn ngữ. Tuy nhiên, điểm chuẩn hiệu suất tiết lộ rằng trong khi nó vượt qua người tiền nhiệm của mình, GPT-4O, nhưng nó không đạt đến độ cao của một số mô hình chuyên dụng hơn về các nhiệm vụ yêu cầu lý luận và tự chủ nâng cao. Điều này cho thấy sự tập trung vào khả năng ứng dụng rộng rãi thay vì thúc đẩy sự cắt giảm của các khả năng cụ thể cao.
Một trong những cải tiến quan trọng nhất là trong lĩnh vực chính xác thực tế và giảm ảo giác. Trên điểm chuẩn PersonQA, trong đó trình bày các câu hỏi về các sự kiện có sẵn công khai về các cá nhân, GPT-4,5 cho thấy tỷ lệ chính xác cao hơn đáng kể (78%) so với GPT-4O (28%) và thậm chí vượt trội so với O1 (55%).
Hơn nữa, tốc độ ảo giác của nó, đo tần số thông tin bịa đặt, thấp hơn một chút so với người tiền nhiệm của nó. Điều này cho thấy một nền tảng mạnh mẽ hơn trong thực tế và xu hướng giảm thông tin.
Một lĩnh vực cải thiện quan trọng khác là hiệu suất đa ngôn ngữ. Openai đã đánh giá GPT-4.5 trên một phiên bản được dịch chuyên nghiệp của tiêu chuẩn MMLU (Hiểu ngôn ngữ đa nhiệm lớn). MMLU là một thử nghiệm toàn diện, đánh giá kiến thức mô hình trên một loạt các đối tượng, mô phỏng sự hiểu biết ở cấp độ con người trong nhiều ngành.
Điều quan trọng là sử dụng các dịch giả của con người cho đánh giá này, thay vì dịch máy, cung cấp một thước đo đáng tin cậy hơn về khả năng hiểu ngôn ngữ thực sự. Kết quả rất rõ ràng: GPT-4,5 vượt trội so với GPT-4O trên tất cả 14 ngôn ngữ được thử nghiệm, bao gồm tiếng Ả Rập, tiếng Bengal, tiếng Trung, tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Hindi, tiếng Indonesia, tiếng Ý, tiếng Nhật, tiếng Hàn, tiếng Tây Ban Nha Openai đã được đưa vào thử nghiệm bằng cách sử dụng các câu hỏi phỏng vấn nội bộ. Mô hình hoạt động tốt, phù hợp với điểm số của nghiên cứu sâu”về các câu hỏi mã hóa (độ chính xác 79%) và thực hiện tương tự như O1 và O3-Mini trên các phần trắc nghiệm (độ chính xác 80%) bởi GPT-4O và O1, với điểm số thời gian ước tính của thời gian”khoảng 30 phút, đó là thời gian của các nhiệm vụ mà mô hình có thể hoàn thành với độ tin cậy 50%. Tuy nhiên, nó vẫn tụt lại đáng kể so với mô hình nghiên cứu sâu sắc”, đạt được điểm số cao hơn đáng kể. Tương tự, trên một bộ sưu tập các nhiệm vụ tác nhân của Hồi giáo”được thiết kế để đánh giá việc thu thập tài nguyên và giải quyết vấn đề trong môi trường mô phỏng, GPT-4.5 điểm số khác nhau. liên quan đến việc giải quyết các cuộc thi Kaggle (Khoa học dữ liệu và các thách thức học máy), GPT-4.5 thực hiện ngang bằng với O1, O3-Mini và nghiên cứu sâu, tất cả đều đạt điểm tiêu chuẩn 11%.
Cuối cùng, trên swe-lancer, một nền tảng của các nhiệm vụ kỹ thuật phần mềm trong thế giới thực, được trả tiền, GPT-4.5 cho thấy những cải thiện nhỏ so với O1 trong cả hai nhiệm vụ đóng góp riêng lẻ (giải quyết 20% Ảo giác
OpenAI đã khiến GPT-4.5 phải chịu một pin nghiêm ngặt về các đánh giá an toàn, phản ánh tầm quan trọng ngày càng tăng của sự phát triển AI chịu trách nhiệm. Các hệ thống AI không thiên vị.
Trọng tâm chính của các đánh giá là ngăn chặn mô hình tạo ra nội dung không được phép. Trên các đánh giá chỉ có văn bản tiêu chuẩn, GPT-4.5 thực hiện ngang bằng với người tiền nhiệm, GPT-4O, từ chối tạo ra các đầu ra không an toàn.
Tuy nhiên, khi được trình bày với các đầu vào đa phương thức (kết hợp văn bản và hình ảnh), GPT-4.5 thể hiện xu hướng sử dụng quá mức cao hơn, có nghĩa là nó từ chối ngay cả các yêu cầu lành tính, có khả năng hạn chế tính hữu dụng của nó. Điều này nhấn mạnh sự đánh đổi: kiểm soát an toàn chặt chẽ hơn đôi khi có thể dẫn đến hành vi quá thận trọng.
Sự cố chi tiết của các đánh giá này, phân tách các phản ứng theo loại nội dung có hại (tình dục, ghét, tự làm hại, v.v.) cho thấy mức độ thành công trong việc từ chối các yêu cầu như vậy khác nhau tùy thuộc vào chủ đề. Một sự cải thiện nhỏ về sự mạnh mẽ so với GPT-4O. Phân cấp”cũng rất quan trọng cho sự an toàn. Điều này có nghĩa là đảm bảo rằng các hướng dẫn cấp hệ thống (được thiết kế để thúc đẩy hành vi an toàn) được ưu tiên hơn các yêu cầu người dùng có khả năng mâu thuẫn. GPT-4.5 thường vượt trội so với GPT-4O trong các hướng dẫn hệ thống sau trên các lời nhắc của người dùng, nhưng nó hơi đằng sau mô hình O1 trong một số kịch bản. Cụ thể, trong một kịch bản dạy kèm mô phỏng, GPT-4.5 dễ bị O1 hơn khi bị lừa để tiết lộ câu trả lời, mặc dù nó vẫn hoạt động tốt hơn GPT-4O. Xu hướng tương tự được quan sát trong các thử nghiệm được thiết kế để bảo vệ các cụm từ và mật khẩu cụ thể. GPT-4.5 thực hiện tốt hơn một chút so với GPT-4O trên một bộ đánh giá hợp tác màu đỏ đầy thách thức nhưng kém hơn cả nghiên cứu sâu sắc”và O1 ở một nghiên cứu khác, cho thấy rằng nó vẫn dễ bị tạo ra trong việc tạo ra nội dung có vấn đề dưới áp lực đối nghịch. Mô hình này được phân loại là rủi ro trung bình”Tổng thể. Cụ thể, nó đã nhận được mức rủi ro”thấp”đối với an ninh mạng, có nghĩa là nó không thúc đẩy đáng kể khả năng liên quan đến việc khai thác các lỗ hổng máy tính. Tuy nhiên, nó đã nhận được xếp hạng rủi ro trung bình”đối với cả tạo mối đe dọa hóa học và sinh học (CBRN) và thuyết phục. Trong danh mục CBRN, trong khi mô hình sau giảm thiểu từ chối tất cả các bước trong quá trình tạo mối đe dọa sinh học, mô hình trước khi giảm thiểu đã chứng minh một số khả năng cung cấp thông tin chính xác, đặc biệt là trong giai đoạn độ phóng đại”. Để thuyết phục, GPT-4.5 cho thấy hiệu suất tiên tiến về các đánh giá theo ngữ cảnh, có nghĩa là nó có thể có hiệu quả cao trong việc thuyết phục các mô hình AI khác (mô phỏng con người) thực hiện các hành động cụ thể, như thực hiện thanh toán hoặc nói một mã hóa. Xếp hạng rủi ro trung bình”này làm nổi bật những lo ngại đang diễn ra và nhu cầu tiếp tục cảnh giác. Tự chủ mô hình được tuyên bố là rủi ro thấp. Một bản phát hành có thể sớm nhất là vào tháng 5 năm 2025. Lặp đi lặp lại chính tiếp theo dự kiến sẽ có lý luận O3, một hệ thống nâng cao hơn mà OpenAI đã trêu chọc kể từ cuối năm 2024. Động cơ lý luận cho một hệ thống AI nâng cao. Chiến lược tích hợp mô hình AI. Đầu năm nay, công ty đã ra mắt O3-Mini, một mô hình lý do được cho là một chỉ số ban đầu về cách tiếp cận của Openai, để đào tạo đa mô hình. Quyết định cung cấp chủ yếu cho người dùng Chatgpt Pro tuân theo một mẫu mà công ty đã sử dụng cho các mô hình trước đó. Cách tiếp cận của Openai dường như là nâng cấp liên tục thay vì không thường xuyên, đại tu lớn ít nhất là cho đến khi bước nhảy vọt tiếp theo trong AI Lý luận xuất hiện.