Penalaran matematiknya sangat kuat. Pada penanda aras matematik AIME 2025, GPT-5 Pro mencapai skor 100% yang sempurna apabila menggunakan penterjemah Python, dan 96.7% tanpa alat. Ini menunjukkan keupayaan yang mantap untuk penyelesaian masalah abstrak dan logik yang telah menjadi cabaran lama untuk AI. Src=”Data: Image/Svg+Xml; Nitro-emphy-id=mty2mjo3nzu=-1; base64, phn2zyb2awv3qm94psiwidagmtaxosa1odmi IHDPZHROPSIXMDE5IIBOZWLNAHQ9IJU4MYIGEG1SBNM9IMH0DHA6LY93D3CUDZMUB3JNLZIWMDAVC3ZNIJ48L3N2ZZ4=”>
Lonjakan ke hadapan dalam kebolehpercayaan dan ketepatan fakta
Mungkin peningkatan yang paling penting bagi pengguna sehari-hari adalah kebolehpercayaan yang dipertingkatkan GPT-5. Openai telah memberi tumpuan besar kepada mengurangkan halusinasi, kecenderungan model untuk mencipta fakta. Hasilnya menunjukkan pengurangan dramatik dalam kesilapan faktual di seluruh papan.
Menurut kad sistem `GPT-5-Thinking` membuat lebih daripada lima kali kesilapan faktual yang lebih sedikit daripada OpenAI O3 pada tanda aras sumber terbuka seperti Longfact dan Factscore. Apabila menganalisis trafik pengeluaran ChatGPT sebenar, model baru mempunyai 78% lebih sedikit tindak balas yang mengandungi sekurang-kurangnya satu kesilapan fakta utama berbanding pendahulunya.
Penambahbaikan ini amat penting di kawasan sensitif seperti penjagaan kesihatan. Mengenai Ujian Halucinasi Hardbench, GPT-5 mempunyai kadar halusinasi hanya 1.6%, pengurangan 8x dari 12.9%O3. Ketepatan yang meningkat ini adalah pusat untuk menolak OpenAI untuk lebih banyak dipercayai dan berguna pembantu AI.
Rintangan keselamatan dan penipuan yang dipertingkatkan
Di luar ketepatan, GPT-5 memperkenalkan sistem keselamatan yang lebih bernuansa yang disebut”Penyelesaian Selamat”. Daripada secara terang-terangan enggan menjawab pertanyaan yang samar-samar atau guna, model ini dilatih untuk memberikan respons yang membantu tetapi selamat, tinggi. Ini meningkatkan utiliti tanpa menjejaskan dasar keselamatan teras.
Model ini juga jauh lebih mantap terhadap penipuan dan jailbreaks. Dalam pasukan merah yang luas memberi tumpuan kepada perancangan serangan ganas, pakar manusia menilai GPT-5 sebagai model”lebih selamat”65.1% masa dalam perbandingan buta terhadap OpenAI O3. Kad sistem ini menyifatkan ini kepada latihan keselamatan baru dan respons yang lebih terperinci dan berhati-hati.
Selain itu, model ini kurang terdedah kepada penipuan. Apabila diuji keupayaannya untuk mengenali dan menjauhkan diri daripada menjawab soalan dengan premis palsu (mis., Menanyakan tentang imej yang tidak wujud), kadar penipuan GPT-5 adalah serendah 9%, peningkatan dramatik terhadap kadar Openai O3 yang sama. Keupayaan penalaran peringkat atas tersedia untuk pengguna ChatGPT percuma untuk kali pertama. Walaupun pengguna berbayar akan mendapat had penggunaan yang lebih tinggi, langkah ini mendemokrasikan akses kepada AI yang canggih.”Ini adalah salah satu cara yang saya teruja untuk menjalani misi, memastikan bahawa perkara ini benar-benar memberi manfaat kepada orang.”Pengguna kini boleh memilih dari empat personaliti pratetap, robot, pendengar, dan nerd-untuk menyesuaikan nada chatbot. Pengintegrasian baru juga akan membolehkan CHATGPT menyambung ke Gmail Pengguna dan Kalendar Google. Keluarga ini termasuk model `GPT-5` utama,` GPT-5-Mini` untuk tugas-tugas sensitif kos, dan `GPT-5-Nano` yang dioptimumkan untuk aplikasi latency rendah.
Pendekatan segmen ini adalah strategi yang jelas untuk bersaing di semua bidang. Ia mengimbangi model sumber terbuka yang lebih kecil, dengan versi `mini` dan` nano` untuk pemaju yang mengutamakan kelajuan dan kos. API juga menambah kawalan baru untuk usaha keliatan dan pemikiran, yang membolehkan penalaan prestasi dan latensi.
Harga untuk model asas `GPT-5` ditetapkan pada token input $ 1.25 per juta dan $ 10 per juta untuk output.
Pelancaran itu datang sebagai OpenAI dilaporkan melihat penilaian $ 500 bilion dan telah menawarkan bonus besar untuk mengekalkan bakat, memanfaatkan sumbernya untuk menjamin masa depannya. Seperti yang dikatakan Altman,”GPT-5 adalah kali pertama yang benar-benar merasakan seperti bercakap dengan pakar peringkat PhD.”Nick Turley menambah lebih mudah,”Getaran model ini benar-benar baik.”