[論文レビュー] Breaking Model Lock-in: Cost-Efficient Zero-Shot LLM Routing via a Universal Latent Space
ZeroRouterはゼロショットのLLMルーティングを可能にするユニバーサル潜在空間を導入し、見かけ上の未確認モデル/データセットでも高い精度を低コスト・低遅延で達成します。
The rapid proliferation of Large Language Models (LLMs) has led to a fragmented and inefficient ecosystem, a state of ``model lock-in'' where seamlessly integrating novel models remains a significant bottleneck. Current routing frameworks require exhaustive, costly retraining, hindering scalability and adaptability. We introduce ZeroRouter, a new paradigm for LLM routing that breaks this lock-in. Our approach is founded on a universal latent space, a model-agnostic representation of query difficulty that fundamentally decouples the characterization of a query from the profiling of a model. This allows for zero-shot onboarding of new models without full-scale retraining. ZeroRouter features a context-aware predictor that maps queries to this universal space and a dual-mode optimizer that balances accuracy, cost, and latency. Our framework consistently outperforms all baselines, delivering higher accuracy at lower cost and latency.
研究の動機と目的
- 精度、コスト、待機遅延のバランスを取るためにLLM選択を自動化・最適化する。
- クエリ特性をモデルプロファイリングから切り離し、新しいモデルを再訓練なしでスムーズに導入できるようにする。
- ゼロショットルーティングのための普遍的で横断タスクな潜在空間と文脈認識予測子を開発する。
- 異なる運用優先度に適応できるポリシー駆動のルーティング枠組みを提供する。
提案手法
- 情報理論的アンカー選択(D最適性)によって調整された普遍的潜在空間を構築する。
- アンカーとバイナリクロスエントロピー最適化を用いて新しいモデルを潜在空間にマッピングする軽量プロファイリングを行う。
- ハイブリッド意味論・構造的クエリ特徴から潜在ベクトルを予測するマルチタスクネットワークを使用する。
- タスク認識的難易度指標と事前に校正された複雑性ビンを横断するルックアップを用いて出力長を推定する。
- ユーザー定義の重みに基づいて精度、コスト、遅延を最適化する多目的ILPとしてルーティングをモデル化する。
実験結果
リサーチクエスチョン
- RQ1普遍的潜在空間はクエリ特性をモデルプロファイリングから切り離してゼロショット導入を可能にするか。
- RQ2小さなアンカー集合で新しいモデルを効率的にプロファイルし、タスクやモデル間の性能を正確に予測できるか。
- RQ3文脈認識潜在空間予測子は分布外のクエリへ頑健な一般化を可能にするか。
- RQ4ルーティングを多目的最適化として捉え、異なるポリシー下で精度、コスト、遅延をバランスできるか。
主な発見
| Method | In-Domain | Out-of-Domain | Mean |
|---|---|---|---|
| Max-Acc (Small Models) | 0.45 | 0.28 | -0.32 |
| Min-Cost (Small Models) | -0.32 | -0.54 | -0.25 |
| Min-Lat (Small Models) | -0.27 | -0.54 | -0.23 |
| Max-Acc (Large Models) | 0.68 | 0.52 | -0.11 |
- ZeroRouterはモデル規模に関係なく、インディケーションデータセットおよびOODデータセットの両方で一貫してベースラインを上回る。
- 小型モデルではZeroRouterが最大精度0.45を達成し、ベースラインよりコストと遅延を低減。
- 大型モデルではZeroRouterが最大精度0.68を達成し、コストと遅延の実質的な削減を示す。
- ZeroRouterは強力なゼロショット一般化を提供し、OODデータセットで最高のMax-Accを達成(例:0.68)し、 rivalsより最小コスト・最小遅延値を低く抑える。
- 情報理論的アンカー選択(D最適性)は導入効率を著しく改善し、ランダム、差分ベース、ディスクベース戦略を上回る。
- アブレーション研究は潜在空間設計とタスク認識的難易度がルーティング性能と頑健性を向上させることを確認。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。