[論文レビュー] OpenAI GPT-5 System Card
GPT-5 はリアルタイム・ルータを備えた高速・思考型モデル層を導入し、安全性(安全な完了)、幻覚の低減、健康、コーディング、マルチリンガルタスクでの性能向上を実現。 extensive red-teaming とセーフガードを含む。
This is the system card published alongside the OpenAI GPT-5 launch, August 2025. GPT-5 is a unified system with a smart and fast model that answers most questions, a deeper reasoning model for harder problems, and a real-time router that quickly decides which model to use based on conversation type, complexity, tool needs, and explicit intent (for example, if you say 'think hard about this' in the prompt). The router is continuously trained on real signals, including when users switch models, preference rates for responses, and measured correctness, improving over time. Once usage limits are reached, a mini version of each model handles remaining queries. This system card focuses primarily on gpt-5-thinking and gpt-5-main, while evaluations for other models are available in the appendix. The GPT-5 system not only outperforms previous models on benchmarks and answers questions more quickly, but -- more importantly -- is more useful for real-world queries. We've made significant advances in reducing hallucinations, improving instruction following, and minimizing sycophancy, and have leveled up GPT-5's performance in three of ChatGPT's most common uses: writing, coding, and health. All of the GPT-5 models additionally feature safe-completions, our latest approach to safety training to prevent disallowed content. Similarly to ChatGPT agent, we have decided to treat gpt-5-thinking as High capability in the Biological and Chemical domain under our Preparedness Framework, activating the associated safeguards. While we do not have definitive evidence that this model could meaningfully help a novice to create severe biological harm -- our defined threshold for High capability -- we have chosen to take a precautionary approach.
研究の動機と目的
- GPT-5 を高速・思考モデルおよびリアルタイムルータを備えた統合システムとして紹介する。
- データ、訓練、および安全志向の方法論(safe-completions、拒否モデレーション、セーフガード)を説明する。
- 安全性課題、幻覚、欺瞞、ジャイルブレイク、マルチリンガル性能を従来モデルと比較して評価する。
- 高リスク領域(生物・化学、サイバーセキュリティ)に対する red-teaming、外部評価、および Preparedness Framework を詳述する。
- 統治、監視、およびsycophancy の低減と安全性向上の将来方向性を概説する。
提案手法
- モデル分類を定義する:gpt-5-main、gpt-5-main-mini(高速モデル)と gpt-5-thinking、gpt-5-thinking-mini、gpt-5-thinking-nano(思考モデル)。
- reasoning モデルを強化学習で訓練し、二値的拒否よりも安全な完了を強調する。
- Instruction Hierarchy を介したシステム・開発者・利用者メッセージを含む多層防御スタックを使用する。
- disallowed content、 jailbreak の頑健性、 prompt-injections、幻覚ベンチマーク(LongFact、FActScore、HealthBench)で安全性を評価する。
- extensive red-teaming(5000+時間、400+ テスター)を実施し、暴力的攻撃計画や prompt-injection テストを含む;外部研究者・ベンダーと共に評価する。
- HealthBench、MMLU 多言語ベンチマーク、 BBQ 公平性評価、GPT-4o および OpenAI o3 に対する安全性・性能比較を適用する。

実験結果
リサーチクエスチョン
- RQ1安全な完了が従来の拒否と比較して安全性の失敗を減らし有用性を高めるか?
- RQ2現実世界のタスク(健康、コーディング、マルチリンガル)における gpt-5-main と gpt-5-thinking の安全性と性能のトレードオフは?
- RQ3ジャイルブレイク、プロンプト注入、および指示階層の緩和は GPT-5 モデル全体でどの程度効果的か?
- RQ4安全 safeguard が推論タスクにおける欺瞞、従順性(sycophancy)、幻覚に与える影響は?
- RQ5外部 red-teaming の評価は内部評価と比較してシステムレベルの脆弱性を特定する際どうか?
主な発見
| Category | gpt-5-thinking | OpenAI o3 | gpt-5-main | GPT-4o |
|---|---|---|---|---|
| non-violent hate | 0.883 | 0.842 | 0.851 | 0.882 |
| personal-data | 0.877 | 0.830 | 0.980 | 0.967 |
| harassment/threatening | 0.755 | 0.666 | 0.689 | 0.745 |
| sexual/exploitative | 0.931 | 0.939 | 0.826 | 0.927 |
| sexual/minors | 0.958 | 0.957 | 0.910 | 0.939 |
| extremism | 0.954 | 0.920 | 0.910 | 0.919 |
| hate/threatening | 0.822 | 0.677 | 0.727 | 0.867 |
| illicit/nonviolent | 0.790 | 0.717 | 0.701 | 0.573 |
| illicit/violent | 0.912 | 0.829 | 0.786 | 0.633 |
| self-harm/intent | 0.950 | 0.824 | 0.849 | 0.849 |
| self-harm/instructions | 0.955 | 0.864 | 0.759 | 0.735 |
- gpt-5-thinking および gpt-5-main は従来モデルより安全性と有用性が向上し、幻覚と従順性が低減。
- 標準の disallowed-content 指標はモデル間で高い安全性を示すが、生産ベンチマークはニュアンスのある改善と hate/harassment 分野での一部後退を示す。
- 幻覚率は大幅に低下:gpt-5-main の事実誤認は GPT-4o より 26%、gpt-5-thinking は OpenAI o3 より 65% 低い。
- オンライン・オフライン評価で従順性が顕著に低下し、GPT-4o に対して有意に低減。
- HealthBench 結果は gpt-5-thinking が prior モデルより健康安全性と性能を著しく向上させ、幻覚および緊急状況エラーの大幅な低減を含む。
- 推論過程を用いた欺瞞モニタリングで、gpt-5-thinking(約2.1%)対 o3(約4.8%)で欺瞞率が低い。
- Image-input 安全性と多言語機能(13言語 MMLU)はベースラインと対して競争力のある性能を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。