OpenAI telah memperkenalkan GPT-4.5, penjenamaannya sebagai model yang paling luas dan berpengetahuan yang telah dibina oleh syarikat setakat ini. Tetapi ada tangkapan-Openai menegaskan ini bukan lompatan teknologi utama. GPT-4.5, yang boleh didapati sebagai pratonton penyelidikan, bertambah baik pada GPT-4O pendahulunya tetapi tidak membawa jenis kemajuan yang akan mengklasifikasikannya sebagai sistem AI Frontier.
Seperti GPT-4O, ia menyokong muat naik imej, chatgpt kanvas dan carian langsung.
Menurut Openai-CEO Sam Altman, GPT-4.5 adalah”model gergasi, mahal.”Src=”Data: Image/Svg+Xml; Nitro-empty-id=mty4odoxndu0-1; base64, phn2zyb2awv3qm94psiwidagmtaynca1nz ciihdpzhropssixmdi0iibozwlnahq9iju3nyigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
GPT-4.5 Sedia! href=”https://twitter.com/sama/status/189520365410351462?ref_src=twsrc%5etfw”> 27 Februari, 2025 Semua Model ini menyokong ciri-ciri utama seperti panggilan fungsi, output berstruktur, streaming, dan mesej sistem. Ia juga menyokong keupayaan penglihatan melalui input imej.
Walaupun OpenAI mendakwa GPT-4.5 meningkatkan ketepatan faktual dan menghasilkan lebih banyak tindak balas semulajadi, syarikat itu mengakui ia jatuh di belakang model penalaran khususnya di beberapa kawasan. Menapis ciri-ciri sedia ada dan meningkatkan kecekapan tindak balas. OpenAI menggambarkannya sebagai pengkomputeran lebih cekap daripada GPT-4, mencapai lebih dari sepuluh kali prestasi yang lebih baik dalam kuasa pemprosesan.
Untuk melatih model, OpenAI dicampur kaedah tradisional dengan teknik baru, termasuk penalaan halus (SFT) yang diselia dan pembelajaran tetulang dari maklum balas manusia (RLHF). Pendekatan ini bertujuan untuk membuat interaksi lebih cair, meminimumkan tindak balas yang salah, dan meningkatkan kebolehgunaan dalam aplikasi dunia sebenar.
Walaupun peningkatan ini, OpenAI menjelaskan bahawa GPT-4.5 bukan model yang paling berkebolehan dalam tugas pemikiran. Model-model lain seperti O1 dan O3-MINI melakukan lebih baik di kawasan tertentu, terutamanya dalam penyelesaian penyelesaian masalah dan penilaian logik berstruktur.
[Kandungan tertanam]
’24), pengekodan (SWE-bench yang disahkan dan berlian SWE-lancer), tugas berbilang bahasa (mmmlu), dan tugas multimodal (mmmU). Disahkan).
manakala O3-mini menunjukkan skor yang lebih rendah pada satu lagi tanda aras pengekodan (SWE-Lancer Diamond). Ini mengukuhkan kedudukan GPT-4.5 sebagai model tujuan umum yang kuat, memperbaiki pendahulunya tetapi tidak mengkhususkan diri dalam tugas-tugas penalaran peringkat tinggi di mana O3-mini cemerlang. Kad , model ini dibentangkan sebagai model bahasa tujuan umum yang teguh dan serba boleh, mempamerkan penambahbaikan dalam bidang utama seperti pengurangan halusinasi dan pemahaman berbilang bahasa. Ini menunjukkan tumpuan kepada kebolehgunaan yang luas dan bukannya menolak keupayaan yang sangat spesifik.
Salah satu penambahbaikan yang paling penting adalah dalam bidang ketepatan faktual dan mengurangkan halusinasi. Mengenai penanda aras PersonqA, yang membentangkan soalan mengenai fakta-fakta yang tersedia secara terbuka mengenai individu, GPT-4.5 menunjukkan kadar ketepatan yang jauh lebih tinggi (78%) berbanding dengan GPT-4O (28%) dan juga mengatasi O1 (55%) Ini menunjukkan asas yang lebih kuat dalam realiti dan kecenderungan yang dikurangkan untuk mencipta maklumat.
Satu lagi bidang peningkatan penting adalah prestasi berbilang bahasa. OpenAI menilai GPT-4.5 pada versi yang diterjemahkan secara profesional dari penanda aras MMLU (pemahaman bahasa multitask besar-besaran). MMLU adalah ujian yang komprehensif yang menilai pengetahuan model dalam pelbagai subjek, mensimulasikan pemahaman peringkat manusia dalam pelbagai disiplin. Hasilnya jelas: GPT-4.5 mengatasi GPT-4O di semua 14 bahasa yang diuji, menunjukkan keupayaannya untuk bekerja di pelbagai bahasa. Model ini dilakukan dengan baik, sepadan dengan skor penyelidikan yang mendalam mengenai soalan pengekodan (ketepatan 79%) dan melakukan sama dengan O1 dan O3-Mini pada bahagian pelbagai pilihan (ketepatan 80%). Ini menunjukkan kecekapan yang kuat dalam pengaturcaraan teras dan konsep pembelajaran mesin.
Penilaian METR menentukan prestasi GPT-4.5 pada autonomi dan tugas AI R & D. Model yang dilakukan di antara tahap yang dicapai oleh GPT-4O dan O1, dengan skor horizon masa yang dianggarkan sekitar 30 minit, yang merupakan tempoh tugas model dapat diselesaikan dengan kebolehpercayaan 50%.
Walau bagaimanapun, ia masih tertinggal dengan ketara di belakang model penyelidikan yang mendalam, yang mencapai skor yang lebih tinggi.
Pada MLE-Bench, yang melibatkan menyelesaikan pertandingan kaggle (sains data dan cabaran pembelajaran mesin), GPT-4.5 melakukan setanding dengan O1, O3-Mini, dan penyelidikan yang mendalam, semua mencatat 11%. Akhirnya, pada SWE-Lancer, platform dunia sebenar, tugas kejuruteraan perisian berbayar, GPT-4.5 menunjukkan sedikit penambahbaikan ke atas O1 dalam kedua-dua tugas penyumbang individu (20%) Src=”Data: Image/Svg+Xml; Nitro-empty-id=mtcynjoxnjq5-1; base64, phn2zyb2awv3qm94psiwidagmtaynca1nz ciihdpzhropssixmdi0iibozwlnahq9iju3nyigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> Sumber: OpenAI
Fokus Openai terhadap keselamatan dan mengurangkan halusinasi
OpenAI telah menundukkan GPT-4.5 ke bateri penilaian keselamatan yang ketat, yang mencerminkan kepentingan pembangunan AI yang semakin meningkat. Ujian ini menyiasat keupayaan model untuk mengendalikan permintaan yang berbahaya, menahan manipulasi, dan mengelakkan kecenderungan yang berterusan. Walaupun GPT-4.5 menunjukkan kemajuan tambahan di beberapa kawasan, hasilnya melukis gambar yang kompleks, yang menonjolkan cabaran yang berterusan dalam mewujudkan sistem AI yang benar-benar selamat dan tidak berat sebelah. Ini termasuk kategori seperti ucapan benci, nasihat haram, dan tanggapan yang melanggar privasi. Pada penilaian teks standard sahaja, GPT-4.5 melakukan setanding dengan pendahulunya, GPT-4O, dengan menolak untuk menghasilkan output yang tidak selamat. Ini menyoroti perdagangan: Kawalan keselamatan yang lebih ketat kadang-kadang boleh membawa kepada tingkah laku yang terlalu berhati-hati.
Sumber: Openai
Kerosakan terperinci mengenai penilaian ini, memisahkan tindak balas dengan jenis kandungan yang berbahaya (seksual, kebencian, kecederaan diri, dan lain-lain) mendedahkan bahawa tahap kejayaan dalam menolak permintaan tersebut berbeza-beza bergantung kepada topik. Mengenai percubaan jailbreak yang berasal dari manusia, GPT-4.5 menunjukkan sedikit peningkatan keteguhan berbanding dengan GPT-4O. Ini menunjukkan bahawa walaupun beberapa kemajuan telah dibuat, model ini tetap terdedah kepada beberapa jenis serangan yang canggih.
Keupayaan model untuk mematuhi hierarki arahan yang telah ditetapkan juga penting untuk keselamatan. Ini bermakna memastikan bahawa arahan peringkat sistem (direka untuk menggalakkan tingkah laku yang selamat) mengambil keutamaan atas permintaan pengguna yang berpotensi bercanggah.
GPT-4.5 umumnya mengatasi GPT-4O dalam arahan sistem berikut atas arahan pengguna, tetapi ia sedikit di belakang model O1 dalam beberapa senario. Khususnya, dalam senario tunjuk ajar simulasi, GPT-4.5 lebih mudah terdedah daripada O1 untuk ditipu untuk mendedahkan jawapan, walaupun ia masih berfungsi lebih baik daripada GPT-4O. Trend yang sama diperhatikan dalam ujian yang direka untuk melindungi frasa dan kata laluan tertentu.
Penilaian Teaming Red, yang melibatkan secara aktif cuba mendapatkan tindak balas yang berbahaya, memberikan pandangan lanjut. GPT-4.5 melakukan sedikit lebih baik daripada GPT-4O pada satu set penilaian reda yang mencabar tetapi kurang baik dalam penyelidikan yang mendalam dan O1 pada yang lain, menunjukkan bahawa ia masih mudah terdedah untuk menghasilkan kandungan yang bermasalah di bawah tekanan adversarial. href=”https://cdn.openai.com/openai-preparedness-framework-beta.pdf”> Rangka kerja kesediaan , yang menilai potensi risiko bencana. Model ini diklasifikasikan sebagai keseluruhan risiko sederhana. Khususnya, ia menerima penarafan risiko yang rendah untuk keselamatan siber, yang bermaksud ia tidak dapat memajukan keupayaan dengan ketara yang berkaitan dengan mengeksploitasi kelemahan komputer. Walau bagaimanapun, ia menerima penarafan risiko sederhana untuk penciptaan ancaman kimia dan biologi (CBRN) dan pujukan. Bermakna ia boleh menjadi sangat berkesan dalam meyakinkan model AI yang lain (mensimulasikan manusia) untuk mengambil tindakan tertentu, seperti membuat pembayaran atau mengatakan codeword. Penarafan risiko sederhana ini menyerlahkan kebimbangan berterusan dan keperluan untuk kewaspadaan yang berterusan. Autonomi model diisytiharkan sebagai risiko rendah. Ketua Pegawai Eksekutif Sam Altman telah membayangkan bahawa GPT-5 sudah dalam pembangunan, dengan kemungkinan pelepasan seawal Mei 2025. Peralihan utama seterusnya dijangka menampilkan penalaran O3, sistem yang lebih maju yang dibuka oleh Openai sejak akhir tahun 2024. Syarikat itu juga telah menguji cara untuk mengintegrasikan pelbagai model AI, menunjukkan bahawa versi masa depan dapat menggabungkan enjin penalaran untuk sistem AI yang lebih maju. Pendekatan Openai seolah-olah menjadi peningkatan berterusan dan bukannya jarang, pulih besar-sekurang-kurangnya sehingga lompatan besar seterusnya dalam penalaran AI tiba.