[論文レビュー] s1: Simple test-time scaling
この論文は最小限のテスト時スケーリング手法を提示します:1kの推論サンプルでモデルをファインチューニングし、予算 forcing を適用して思考時間を制御することで、OpenAI o1-preview と比較して競争力のある推論性能とデータ効率を実現します。オープンソースのコードとデータを提供します。
Test-time scaling is a promising new approach to language modeling that uses extra test-time compute to improve performance. Recently, OpenAI's o1 model showed this capability but did not publicly share its methodology, leading to many replication efforts. We seek the simplest approach to achieve test-time scaling and strong reasoning performance. First, we curate a small dataset s1K of 1,000 questions paired with reasoning traces relying on three criteria we validate through ablations: difficulty, diversity, and quality. Second, we develop budget forcing to control test-time compute by forcefully terminating the model's thinking process or lengthening it by appending "Wait" multiple times to the model's generation when it tries to end. This can lead the model to double-check its answer, often fixing incorrect reasoning steps. After supervised finetuning the Qwen2.5-32B-Instruct language model on s1K and equipping it with budget forcing, our model s1-32B exceeds o1-preview on competition math questions by up to 27% (MATH and AIME24). Further, scaling s1-32B with budget forcing allows extrapolating beyond its performance without test-time intervention: from 50% to 57% on AIME24. Our model, data, and code are open-source at https://github.com/simplescaling/s1
研究の動機と目的
- テスト時計算資源が言語モデルの推論性能を向上させ得る理由を動機づける。
- 多様で難易度の高い質問と推論過程を含む小規模で高品質な推論データセット (s1K) を作成する。
- 思考時間の長さを制御し回答を改善する単純なテスト時介入(budget forcing )を示す。
- 1Kサンプルでのファインチューニングが強力でデータ効率の高い推論性能をもたらすことを示す。
- 再現性とさらなる研究を可能にするオープンソースのデータ、モデル、コードを提供する。
提案手法
- 多様なソースから品質・難易度・多様性を選定基準とした59K質問プールを作成する。
- モデルベースの難易度評価とMSCベースのドメイン多様性を用いて、1Kの高品質・多様性・難易度の高いサンプル(s1K)へ絞り込む。
- s1K で Qwen2.5-32B-Instruct を SFT( supervised fine-tuning )でファインチューニングし、16 H100 GPU 上で 26 分で s1-32B を得る。
- テスト時に思考を制御するために budget forcing を導入する: (i) end-of-thinking トークンを追加して思考を終了させる、(ii) Wait を追加してより多く探査を促す。
- sequential(budget forcing)対 parallel(majority voting)アプローチでテスト時スケーリングを評価し、ベースラインと比較する。
- オープンソースのデータ、ウェイト、コードを、プロジェクトリポジトリで利用可能とする。
実験結果
リサーチクエスチョン
- RQ1最小限でデータ効率の高いアプローチは、推論タスクの強力なテスト時スケーリングを実現できるか。
- RQ2データセットの品質・難易度・多様性は、推論の指示に基づく微調整の有効性にどのように影響するか。
- RQ3 sequentialなテスト時スケーリング(budget forcing)は majority voting のような並列手法より効果的か。
- RQ4難易度の高い推論ベンチマークで、テスト時計算量が増えると budget forcing から得られる性能向上はどの程度か。
- RQ51Kサンプルの s1K データセットは、より大きなプールと比較してデータ効率と競争力のある性能をどの程度達成できるか。
主な発見
- 32B モデルの 1K サンプルによる supervised fine-tuning は、MATH および AIME24 で o1-preview に対して競争力のある性能を示す。
- Budget forcing は制御可能なテスト時計算を可能にし、モデルの検証とより長い探索を促して推論を改善する。
- s1-32B は強力なテスト時スケーリングを示し、より多くの思考トークンが許可されるほど性能が向上する(限界点まで、還元的な収穫前に頭打ちになる)。
- このアプローチはデータ効率が高く、1K サンプルでの学習は多くのベースラインを上回り、より大きなプールよりもはるかに少ない例で済む。
- 難易度・多様性・品質のバランスを取ったデータ選択が重要であり、ランダムまたは過度に長い推論過程だけでは、提案された三条件選択に比べて劣る。
- s1-32B は 1K サンプルで学習した場合、Gemini 2.0 Thinking on AIME24 にほぼ匹敵し、オープンソースのままである。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。