[論文レビュー] The Larger the Better? Improved LLM Code-Generation via Budget Reallocation
固定計算予算の下で、小型LLMからの複数出力を生成する方が、コード生成タスクで大規模モデルからの単一出力よりも優れる可能性がある一方、ユニットテストなしのランク付けベースの選択は、直接的に大きなモデルを使用するより効果的ではない。
It is a common belief that large language models (LLMs) are better than smaller-sized ones. However, larger models also require significantly more time and compute during inference. This begs the question: what happens when both models operate under the same budget? (e.g., compute, run-time). To address this question, we analyze code generation LLMs of various sizes and make comparisons such as running a 70B model once vs. generating five outputs from a 13B model. We consider a standard unit-test setup, which can be used to select the correct output from the smaller model. Our findings reveal that the repeated use of smaller models can yield consistent improvements, with gains of up to 15% across five tasks. On the other hand, in scenarios where unit-tests are unavailable, a ranking-based selection of candidates from the smaller model falls short of the performance of a single output from larger ones. Our results highlight the potential of using smaller models instead of larger ones, and the importance of studying approaches for ranking LLM outputs.
研究の動機と目的
- 固定計算予算がコード生成タスクにおいて、単一出力の大規模モデル寄りか、それとも複数出力の小規模モデル寄りかを調査する。
- FLOPsとウォールタイムを用いて、Code Llamaモデルサイズ間の計算予算下での性能を定量化する。
- ユニットテストが利用できない場合のランキングベース選択の有効性を評価する。
- コード生成の予算認識的なモデル利用を支援する公開データを提供する。
提案手法
- 固定計算を介して異なるサイズのモデルを比較するため、予算が許すだけ多くの出力を生成することでpass@k評価を適用する。
- FLOPs/timeの制約に基づいてk出力を割り当てるpass@flopsとpass@timeを定義する(式2と式3)。
- HumanEval、MBPP、APPSベンチマーク上で、Code Llamaモデル(7B、13B、34B、70B)を指定されたプロンプティング戦略とデコード設定で使用する。
- 貪欲デコードとサンプリングを比較し、頑健性のためk = floor(n/2)でpass@kを報告する(Chen et al., 2021の手法)。
- 負の対数尤度をスコア付け方として用いるランク付け出力選択を検討し(式4–式6)、LLMをランカーとして評価する(式7)。
- 研究を支援するためlarge-scale出力(Code Llama 7B)を公開する。

実験結果
リサーチクエスチョン
- RQ1固定計算予算に matchedした場合、小型モデルはコード生成タスクで大きなモデルを上回ることができるのか?
- RQ2FLOPsベースとウォールタイムベースの予算は、異なるモデルサイズの相対性能にどのような影響を与えるのか?
- RQ3ユニットテストなしのランキングベース選択は、固定予算下で大規模モデルの性能に近づくのか?
- RQ4小型モデルの出力のために大規模モデルをランカーとして使用することの有効性はどの程度か?
- RQ5コード生成の予算対応モデルト deploymentを支援するデータと方針は何か?
主な発見
- 小型モデル(7B、13B)は、すべての計算予算でHumanEvalとMBPP上で大規模モデル(34B、70B)を上回る可能性があり、最大で15%の利得を達成する。
- APPSでは13Bモデルが一般に各予算で最も良い性能を示し、最も難しい競技分割で大規模モデルより約5%のマージンとなる。
- 固定予算下で、小型モデルは大規模モデルと同等かそれを上回る性能を、はるかに少ない計算で達成できる(例:7B/13Bはターゲットスコアへより早く到達)。
- ユニットテストなしのランキングベース選択は予算とランカーサイズとともに改善するが、同じ予算での単一の大規模モデル出力には依然として及ばない。
- 小型モデルの出力に対してランカーとしてLLMsを用いると性能が向上する可能性があるが、固定予算下では大きなモデルによる貪欲デコードが依然優れている。
- 著者らは研究を支援するためHumanEvalとMBPPのCode Llama 7B出力を100万件以上公開する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。