[論文レビュー] Large Language Monkeys: Scaling Inference Compute with Repeated Sampling
論文は繰り返しサンプリングを、LLMの推論計算をスケールさせる方法として検討し、タスクとモデルを跨ぐカバレッジの向上と、費用対効果および検証上の課題を分析する。
Scaling the amount of compute used to train language models has dramatically improved their capabilities. However, when it comes to inference, we often limit models to making only one attempt at a problem. Here, we explore inference compute as another axis for scaling, using the simple technique of repeatedly sampling candidate solutions from a model. Across multiple tasks and models, we observe that coverage -- the fraction of problems that are solved by any generated sample -- scales with the number of samples over four orders of magnitude. Interestingly, the relationship between coverage and the number of samples is often log-linear and can be modelled with an exponentiated power law, suggesting the existence of inference-time scaling laws. In domains like coding and formal proofs, where answers can be automatically verified, these increases in coverage directly translate into improved performance. When we apply repeated sampling to SWE-bench Lite, the fraction of issues solved with DeepSeek-Coder-V2-Instruct increases from 15.9% with one sample to 56% with 250 samples, outperforming the single-sample state-of-the-art of 43%. In domains without automatic verifiers, we find that common methods for picking from a sample collection (majority voting and reward models) plateau beyond several hundred samples and fail to fully scale with the sample budget.
研究の動機と目的
- 推論時の計算資源を単一試行を超えてスケーラブルな軸として繰り返しサンプリングを動機づける。
- 複数のタスクとモデルファミリーに渡って、サンプル予算を増やすとカバレッジ(解決済み問題の割合)がどのように改善するかを定量化する。
- 多数のサンプルを用いる際の費用影響と、より少ないサンプルのより強力なモデルと比較したモデル選択のトレードオフを評価する。
- 正しいサンプルを選択する際の精度/検証手法の限界を検討し、検証機を改善する方向性を特定する。
提案手法
- 問題ごとに正の温度でサンプリングして多くの候補解を生成する。
- 可能な場合には、ドメイン固有の検証手段(ユニットテスト、証明チェッカー)を用いて最終回答を選択する。
- バイアスのかからない推定量を用いて分散削減を図り、問題のいずれかのサンプルで解けたものの割合としてカバレッジ(pass@k)を測定する。
- カバレッジをサンプル数の対数関数としてフィットさせ、指数関数的なべき法則モデル c ≈ exp(a k^{-b}) を用いて推定する。
- FLOPsを推論コストに変換して費用対効果を比較し、より弱いモデルを多数サンプルとする場合と、より強いモデルを少数サンプルとする場合を比較する。

実験結果
リサーチクエスチョン
- RQ1問題ごとにサンプル数を増やすと、多様なタスクとモデルファミリにわたってカバレッジが信頼性をもって向上するか?
- RQ2繰り返しサンプリングはモデルサイズとデータ領域(コーディング、証明、数学ワード問題)とどう相互作用してカバレッジとコストに影響を与えるか?
- RQ3検証器(多数決、報酬モデル)は増えるサンプル予算に追いつけるか、どこで頭打ちになるか?
- RQ4繰り返しサンプリングを可能にする際の現実的な制限と故障モード( flaky tests、偽陰性など)は何か?
- RQ5観測されたカバレッジ曲線は推論時計算予算の指針となるスケーリング法則に従うのか?
主な発見
| モデル | 試行あたりのコスト(USD) | 試行回数 | 解決済み(%) | 総コスト(USD) | 相対総コスト |
|---|---|---|---|---|---|
| DeepSeek-V2-Coder-Instruct | 0.008 | 5 | 12 | 29.62 | 1x |
| GPT-4o | 0.13 | 1 | 39 | 24.00 | 3.25x |
| Claude 3.5 Sonnet | 0.17 | 1 | 51 | 26.70 | 4.25x |
- サポート五つのタスクと複数のモデルファミリにわたりサンプル数を増やすとカバレッジが向上し、SWE-bench Lite などの例では、より弱いモデルを用いて250サンプルで解けた割合が56%に達した。
- CodeContestsでは Gemma-2B の pass@1 が 10k サンプルで 0.02% から 7.1% に改善し、ベースラインから300倍のゲインを達成。
- カバレッジ対サンプル予算はしばしば対数線形または指数化されたべき法則形をとり、サンプリング規模の拡大に伴う利得を予測可能にする。
- 多くのサンプルを与えると、より弱いモデルが単一試行のより強力なモデルを上回ることがあり、費用対効果のあるトレードオフが生まれる(例: DeepSeekの5サンプル実行がGPT-4o/Claudeの単発より勝る場合がある)。
- 多数決や報酬モデルの精度手法は約100サンプル付近で頭打ちになり、自動検証が利用できない場合にはより良い検証手法の必要性を浮き彫りにする。
- 数学ワード問題では Llama-3 のカバレッジが10kサンプルで>95%に成長するが、一般的なサンプル選択手法は頭打ちとなり、カバレッジと最終回答の正確性の間にギャップがあることを示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。