[論文レビュー] Competitive Programming with Large Reasoning Models
強化学習駆動の大規模推論モデル(o1、o1-ioi、o3)は、競技プログラミングのパフォーマンスを大きく向上させ、領域特有の手作業で設計された戦略を凌駕し、IOI 2024で金メダルを獲得し Codeforces の上位に位置する。
We show that reinforcement learning applied to large language models (LLMs) significantly boosts performance on complex coding and reasoning tasks. Additionally, we compare two general-purpose reasoning models - OpenAI o1 and an early checkpoint of o3 - with a domain-specific system, o1-ioi, which uses hand-engineered inference strategies designed for competing in the 2024 International Olympiad in Informatics (IOI). We competed live at IOI 2024 with o1-ioi and, using hand-crafted test-time strategies, placed in the 49th percentile. Under relaxed competition constraints, o1-ioi achieved a gold medal. However, when evaluating later models such as o3, we find that o3 achieves gold without hand-crafted domain-specific strategies or relaxed constraints. Our findings show that although specialized pipelines such as o1-ioi yield solid improvements, the scaled-up, general-purpose o3 model surpasses those results without relying on hand-crafted inference heuristics. Notably, o3 achieves a gold medal at the 2024 IOI and obtains a Codeforces rating on par with elite human competitors. Overall, these results indicate that scaling general-purpose reinforcement learning, rather than relying on domain-specific techniques, offers a robust path toward state-of-the-art AI in reasoning domains, such as competitive programming.
研究の動機と目的
- 大規模推論モデルを用いて客観的に評価可能な難解なコーディング問題に取り組む動機づけ。
- 汎用的な RL 主導モデルと領域特化の手作業設計推論戦略を比較する。
- 複数の競技プログラミングベンチマーク(CodeForces、IOI)と実世界のソフトウェアタスクでの性能を評価する。
- RL 訓練のスケーリングが、人間が作成したテスト時ヒューリスティクスに依存する場合と比べ、最先端の結果に与える影響を評価する。
提案手法
- 推論中のコード実行を可能にするよう強化学習を用いて OpenAI o1 のコーディングおよび推論能力を高める。
- 追加のコーディング重視 RL および IOI 型タスクに特化したテスト時戦略を用いてバリアント o1-ioi を微調整する。
- 公式ライクな制約下で CodeForces コンテストをシミュレートして評価し、埋め込みを用いた汚染検査を実施する。
- 手作業のテスト時ヒューリスティクスなしのエンドツーエンド RL を検討するため、OpenAI o3 の早期チェックポイントと比較する。
- 公式ルール下および緩和された提出制限下で IOI 2024 の問題を評価し、テスト時戦略の効果を分離する。
- SWE-bench が検証し、HackerRank Astra を用いた実世界のコーディングタスクで推論能力の一般化をテストする。
実験結果
リサーチクエスチョン
- RQ1強化学習のスケーリングは、手作業で設計された推論パイプラインを超えてコーディングおよび推論性能を向上させるのか。
- RQ2競技プログラミングタスクにおいてドメイン特化のテスト時戦略はエンドツーエンドの RL と比較してどうか。
- RQ3o3 のような大規模推論モデルは、手作業のヒューリスティクスなしに標準的なコンテスト制約下で金レベルの性能を達成できるのか。
- RQ4競技プログラミングの改善は実世界のソフトウェア工学ベンチマークに翻訳されるのか。
主な発見
- o1-ioi は o1 より追加の RL および IOI 専用のテスト時戦略を取り入れることで改善し、完全なテスト時戦略を用いた場合の CodeForces レーティングは 1807(50 パーセンタイル)ではなく 62 番目のパーセンタイル、2214 は 98 番目のパーセンタイル。
- o3 は o1-ioi よりはるかに大きな RL 計算資源で訓練され、CodeForces レーティング 2724(99.8 パーセンタイル)および標準の提出制限下で 395.64 IOI ポイントを達成し、金閾値の目安 ~360 を上回る。
- IOI 2024 のライブでは、o1-ioi は 50 提出で 213 ポイント(49 パーセンタイル)を記録;制限緩和下では 362.14 ポイントが金閾値を超える。
- o3 はテスト時推論における自律的な自己改善を示し、人間が設計したヒューリスティクスなしで出力を検証するための brute-force 検証を生成することもある。
- SWE-bench および Astra の実世界のコーディングタスクでは、推論重視のモデルが意味のある改善を示す:o1-preview は GPT-4o に対して pass@1 を約 9.98 ポイント改善、RL 後の o1 は 63.92% の pass@1、o3 は SWE-bench で o1 より 22.8% の改善を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。