コードエンジニアリングにおける支配
GPT-5は、複雑なプログラムの能力を扱う能力の有意なLEAPを示しています。ヒトで検証されたSWEベンチ検証テストでは、モデルは最初の試みで74.9%の成功率を達成し、GPT-4Oからの30.8%を超える大幅な改善、Openai O3から69.1%を大幅に改善しました。ソフトウェアエンジニアリングタスク。システムカードは、これは重要な焦点領域であり、最小限のプロンプトで複雑なコーディングを処理するようにモデルがトレーニングされていることを指摘しています。 PHDレベルの科学質問のテストであるGPQAダイヤモンドベンチマークでは、GPT-5 Proは88.4%を獲得し、XaiのGrok 4 Heavyをわずかに上回りました。
その数学的推論は特に強力です。 AIME 2025コンペティションの数学ベンチマークでは、GPT-5 Proは、Pythonインタープリターを使用するときに完璧な100%スコアを達成し、ツールなしで96.7%を達成しました。これは、AIの長年の課題である抽象的および論理的な問題解決の堅牢な能力を示しています。 src=”data:image/svg+xml; nitro-empty-id=mty0oto3nzu=-1; base64、phn2zyb2 awv3qm94psiwidagmtaxosa1odmi ihdpzhropsixmde5iibozwlnahq9iju4myigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
信頼性と事実上の正確性における前進
おそらく、日常のユーザーにとって最も重要な改善は、GPT-5の信頼性の向上です。 Openaiは、モデルが事実を発明する傾向である幻覚の減少に重点を置いています。結果は、ボード全体の事実上のエラーが劇的に減少したことを示しています。
システムカードによると、「GPT-5-Thinking」は、LongfactやFactScoreなどのオープンソースのベンチマークでOpenai O3よりも5倍少ない事実上の誤差をもたらします。実際のCHATGPTプロダクショントラフィックを分析する場合、新しいモデルの前任者と比較して少なくとも1つの主要な事実誤差を含む応答が78%少ない。 src=”data:image/svg+xml; nitro-empty-id=mty1mzoxmty3-1; base64、phn2zyb2awv3qm94psiwidagmti4mca0mzyi ihdpzhropsixmjgwiibozwlnahq9ijqzniigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
この改善は、ヘルスケアのような繊細な分野で特に厳しいものです。 Healthbench Hard Hallucinationsテストでは、GPT-5の幻覚率はわずか1.6%で、O3の12.9%から8倍減少しています。この精度の向上は、Openaiがより信頼できる有用なAIアシスタントを推進するための中心です。 src=”data:image/svg+xml; nitro-empty-id=mty1ntoxmtgy-1; base64、phn2zyb2awv3qm94psiwidagmti4mca0ndmi ihdpzhropsixmjgwiibozwlnahq9ijq0myigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
安全性と欺ception抵抗の強化
精度を超えて、GPT-5は「安全な完了」と呼ばれるより微妙な安全システムを導入します。曖昧なまたは二重の使用クエリに答えることを完全に拒否する代わりに、このモデルは役立つが安全で高レベルの反応を提供するように訓練されています。これにより、コアの安全性ポリシーを妥協することなく有用性が向上します。
モデルは、欺ceptionや脱獄に対しても大幅に堅牢です。暴力的な攻撃計画に焦点を当てた大規模な赤チームでは、人間の専門家はGPT-5を、OpenAI O3との盲目的な比較の「より安全な」モデル65.1%と評価しました。システムカードは、これを新しい安全トレーニングとより詳細な慎重な回答に起因します。
さらに、モデルは欺ceptionの傾向がありません。虚偽の前提(例えば、存在しない画像について尋ねる)で質問に答えることを認識して控える能力についてテストされた場合、GPT-5の欺ception率は9%と低く、同じテストでOpenai O3の87%のレートよりも劇的な改善がありました。初めてCHATGPTユーザーを無料で利用できる最大の推論機能を利用できます。有料ユーザーはより高い使用制限を取得しますが、この動きは最先端のAIへのアクセスを民主化します。 「これは、私がミッションを生きることに興奮している方法の1つにすぎません。このようなものが実際に人々に利益をもたらすことを確認してください。」
GPT-5ロールアウトと一緒に、ChatGPTインターフェイスはいくつかのアップグレードを取得しています。ユーザーは、Chatbotのトーンを調整するために、キャイク、ロボット、リスナー、オタクの4つのプリセットパーソナリティから選択できるようになりました。また、新しい統合により、ChATGPTはユーザーのGmailおよびGoogleカレンダーに接続できます。
開発者と企業向けのセグメント化された戦略
開発者と企業向けのGPT-5は、さまざまなニーズを提供するように設計された段階的な構造でAPIを介してリリースされています。家族には、メイン「GPT-5」モデル、コストに敏感なタスク用の「GPT-5-MINI」、低遅延のアプリケーション向けに最適化された「GPT-5-NANO」が含まれます。速度とコストを優先する開発者向けの「Mini」および「Nano」バージョンで、小規模なオープンソースモデルをカウントします。また、APIは、冗長性と推論の取り組みのための新しいコントロールを追加し、パフォーマンスとレイテンシの微調整を可能にします。
ベース「GPT-5`モデルの価格設定は、出力の100万ドルあたり1.25ドル、100万ドルあたり10ドルに設定されています。 Openaiは5,000億ドルの評価に注目していると伝えられており、才能を維持するための大規模なボーナスを提供し、その将来を確保するためにリソースを活用しています。 Altmanが言うように、「GPT-5は、PHDレベルの専門家と話すように感じるのは初めてです。」ニック・ターリーはもっと簡単に追加しました、「このモデルの雰囲気は本当に良いです。」