QUICK REVIEW

[論文レビュー] Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing

Dujian Ding, Ankur Mallick|arXiv (Cornell University)|Apr 22, 2024

Caching and Content Delivery被引用数 6

ひとこと要約

本論文は、訓練済みルータを用いて小型でコスト効率の良い LLM と大型で高品質な LLM の間でユーザーの質問をルーティングするハイブリッド推論フレームワークを提案し、品質の劣化をほとんど生じさせずに大規模モデルの呼び出しを最大で40%削減します。

ABSTRACT

Large language models (LLMs) excel in most NLP tasks but also require expensive cloud servers for deployment due to their size, while smaller models that can be deployed on lower cost (e.g., edge) devices, tend to lag behind in terms of response quality. Therefore in this work we propose a hybrid inference approach which combines their respective strengths to save cost and maintain quality. Our approach uses a router that assigns queries to the small or large model based on the predicted query difficulty and the desired quality level. The desired quality level can be tuned dynamically at test time to seamlessly trade quality for cost as per the scenario requirements. In experiments our approach allows us to make up to 40% fewer calls to the large model, with no drop in response quality.

研究の動機と目的

大規模 LLM の展開におけるコストと品質の課題を動機づけ、ハイブリッド推論がクラウドコストを削減する方法を示す。
クエリの難易度と品質ギャップを予測して、小型モデルまたは大型モデルへルーティングするルータを提案する。
ルーティング決定を改善するために、LLM の出力の非決定性を組み込む。
新しいデータ変換を用いてデータ不均衡とモデルペア間の顕著な性能差に対処する。
多様なLLMペアと MixInstruct ベンチマークを横断した広範な実証検証を提供する。

提案手法

各クエリを小型モデル S か大型モデル L に割り当てるルータ r を定義する。
DeBERTa-v3-large を基にしたルータを用いて、小型モデルにとって容易なクエリを示すスコア p_w(x) を予測する。
Deterministic および probabilistic なルータのバリアントを訓練して Pr[H(x) ≥ 0] を近似する。ここで H(x) = q(S(x)) − q(L(x))。
LLM の非決定性を考慮するため、複数のサンプルから推定されるソフトラベル y^prob_i を用いた確率的ルータを導入する。
データ変換 y^trans_i(t) = Pr[H(x_i) ≥ −t] を用いた確率的ルータを開発し、ラベル分布のバランスを取るために t* を最適化する。
3つのルーティング戦略 r_det（決定論的）、r_prob（確率的）、および r_trans（変換を用いた確率的）を評価する。
応答品質指標 q(·) とコスト優位性を、小型モデルへ送られたクエリの割合として用いる。
MixInstruct で、FLAN-T5 系、Llama-2 系、GPT-3.5-turbo を含むモデルペアを用いて実験を行う。

実験結果

リサーチクエスチョン

RQ1多様な NLP タスクにおいて、小型モデルが大型モデルと同等の品質で回答できる「易しい」クエリを、ルータが効果的に識別できるか。
RQ2小型と大型 LLM の間でルーティングした場合に達成されるコスト削減量（コスト優位性）と、それに対応する品質の影響はどの程度か。
RQ3モデルペア間の性能差が異なる場合に、決定論的、確率的、変換ラベルルーティングのバリアントはどのように比較されるか。
RQ4LLM の非決定性と易しい vs 難しいクエリのデータ不均衡に対して、ルーティング手法はどれほど堅牢か。
RQ5実運用のために、テスト時にはどの閾値を用いてコストと品質のバランスを取るべきか。

主な発見

ルータはクエリのかなりの割合を小型モデルへルーティングでき、品質の損失を最小限に抑えつつ、いくつかの設定で最大40%のコスト優位性を達成する。
確率的および変換ラベルのルータは、特にモデル間の性能差が大きい場合に、一般的に決定論的ルータよりも優れている。
小〜中程度の性能差の場合、約20%〜40%のコスト優位性を、非常に小さな品質低下または品質低下ゼロで達成できる。
変換ラベルルータ（r_trans）は、モデル間の乖離が大きくても堅実な性能を維持し、決定論的および標準的な確率的ルータより顕著な利得を提供する。
ルータの待機時間はLLM推論と比較してほとんど無視でき、ルータの遅延は約 0.036 秒、モデルの遅延は 0.46 秒から 14.61 秒の範囲。
カリブレーションセットで選択された経験的閾値はテストセットにもよく一般化し、類似のコスト品質トレードオフを生み出す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。