[論文レビュー] Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems
本論文は、1層 Voting Inference System における LLM 呼び出し回数が性能に与える影響を研究し、易問と難問の混合による非単調なスケーリングを示し、最適な呼び出し回数を予測するスケーリング則を提供する。
Many recent state-of-the-art results in language tasks were achieved using compound systems that perform multiple Language Model (LM) calls and aggregate their responses. However, there is little understanding of how the number of LM calls - e.g., when asking the LM to answer each question multiple times and taking a majority vote - affects such a compound system's performance. In this paper, we initiate the study of scaling properties of compound inference systems. We analyze, theoretically and empirically, how the number of LM calls affects the performance of Vote and Filter-Vote, two of the simplest compound system designs, which aggregate LM responses via majority voting, optionally applying LM filters. We find, surprisingly, that across multiple language tasks, the performance of both Vote and Filter-Vote can first increase but then decrease as a function of the number of LM calls. Our theoretical results suggest that this non-monotonicity is due to the diversity of query difficulties within a task: more LM calls lead to higher performance on "easy" queries, but lower performance on "hard" queries, and non-monotone behavior can emerge when a task contains both types of queries. This insight then allows us to compute, from a small number of samples, the number of LM calls that maximizes system performance, and define an analytical scaling model for both systems. Experiments show that our scaling model can accurately predict the performance of Vote and Filter-Vote systems and thus find the optimal number of LM calls to make.
研究の動機と目的
- LLM calls の回数を増やすことが、単純な複合システム(1層 Voting Inference System)の性能にどう影響するかを理解する。
- アイテム難易度(易しいクエリ vs 難しいクエリ)の役割をスケーリング挙動で特徴づける。
- 限られたサンプルからパラメータを推定するスケーリング則とアルゴリズムを導出する。
- 異なるタスク構成の下で、精度を最大化する最適な LLM 呼び出し回数を特定する。
提案手法
- 1) Majority voting(Algorithm 1)により K 回の LLM 呼び出しを統合する1層 Voting Inference System を定式化する。
- 2) item の難易度を2段階分布でモデル化する:易しいクエリは正答確率が p1、難しいクエリは p2、易アイテムの割合は alpha。
- 3) 性能 F(K;D) を導出し、ある難易度設定下で非単調なスケーリングを示す(Theorem 1)。
- 4) 易しいアイテムと難しいアイテムの寄与を指数形 g_p(K; c) で結合するスケーリング則 G(K;D) を提供する(Section 4.3)。
- 5) 少量の性能データサンプルからスケーリング則のパラメータを推定する Algorithm 2 を提案する。
- 6) GPT-3.5-turbo-0125 を用いた合成データおよび実データセットで予測を検証する(Section 5)。
実験結果
リサーチクエスチョン
- RQ1K の LLM 呼び出し回数が、異なるアイテム難易度分布を持つタスクで1層 Voting Inference System の精度にどう影響するか?
- RQ2K を増やすと、どの条件で非単調な性能(増加→低下、あるいはその逆)が生じるか?
- RQ3少数のサンプルからスケーリング則を用いて最適な K をどう予測できるか?
- RQ4提案されたスケーリング則は合成データから実データへ一般化し、真の最適呼び出し回数を特定できるか?
主な発見
- 性能は非単調となり得る:LLM 呼び出し回数を増やすと初期には精度が向上するが、易問・難問の混在により後半で精度が低下する可能性がある。
- 非単調な挙動はアイテム難易度により説明される;易しいクエリは呼び出し回数が増えると利点を得る一方で、難しいクエリは回数を増やすと悪化する(Theorem 1)。
- 特定の条件下で最適な LLM 呼び出し回数 K* が存在し、難易度パラメータから計算可能である(Theorem 2)。
- スケーリング則 G(K;D) は性能を正確に予測し、少数のサンプルから適合させられる(Figures 5–6, Table 2)。
- スケーリング則は実データセット(大学数学、ビジネス倫理、大学化学)で最適な K を正しく特定し、easy/hard サブセット全体の性能を予測する(Figure 7)を示す、GPT-3.5 を用いた。
- ゼロショット難易度予測器(GPT-4)は、適応的 K を可能にするクエリ難易度の分類に有望を示す(Table 3)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。