[論文レビュー] LLM Routing as Reasoning: A MaxSAT View
論文は言語条件付き LLM ルーティングを制約付き重み付き MaxSAT/MaxSMT 問題として再定義し、言語フィードバックがモデル選択を制約する一方で無フィードバックは安定した暗黙の先行知識を示すことを示している。25エンドポイントのベンチマークを分析し、フィードバック付きで高精度かつほぼ実現可能なショートリストを示し、無フィードバックでは先行知識に driven された堅牢なコアを示す。
Routing a query through an appropriate LLM is challenging, particularly when user preferences are expressed in natural language and model attributes are only partially observable. We propose a constraint-based interpretation of language-conditioned LLM routing, formulating it as a weighted MaxSAT/MaxSMT problem in which natural language feedback induces hard and soft constraints over model attributes. Under this view, routing corresponds to selecting models that approximately maximize satisfaction of feedback-conditioned clauses. Empirical analysis on a 25-model benchmark shows that language feedback produces near-feasible recommendation sets, while no-feedback scenarios reveal systematic priors. Our results suggest that LLM routing can be understood as structured constraint optimization under language-conditioned preferences.
研究の動機と目的
- 部分観測下での制約付き選択として言語条件付き LLM ルーティングを formalize する。
- ルータの挙動を論理的事後条件と MaxSAT/MaxSMT の解釈として表現する。
- 言語フィードバックと無フィードバック regimes を持つ 25-エンドポイント LLM ルーティングベンチマークを特徴づける。
提案手法
- エンドポイント上の hard および soft 制約式として言語フィードバックを注入する。
- 方向キーに条件づけられた式重み付き MaxSMT 最適化としてルーティングをモデル化する。
- LF モードで少なくとも1つ、かつ固定数のエンドポイントを出力する推奨予算を用いる。
- 事後条件 C を分析して出力を分類する(Zero, One, Some, All, Random, Fail)。
- 無フィードバックを虚偽の制約集合として扱い、暗黙の priors w(bot) を明らかにする。
- エンドポイントメタデータ上の述語ライブラリを用いて NF ランを疎な説明モデルに適合させる。

実験結果
リサーチクエスチョン
- RQ1言語フィードバックを LLM ルーティング問題のエンドポイント上で hard/soft 制約として表現できるか。
- RQ2無フィードバック時のルーティングはどうなるか、暗黙の priors が観測された非中立性を説明できるか。
- RQ325エンドポイントのモデル zoo にわたる出力と下流の性能を MaxSAT/MaxSMT の観点でどの程度説明できるか。
主な発見
| Direction Key | Zero (%) | One (%) | Case S (%) | All (%) | Count |
|---|---|---|---|---|---|
| I want a model with cheaper cached input. | 0 | 0 | 12 (100%) | 0 | 12 |
| I want a cheaper model. | 0 | 0 | 5 (100%) | 0 | 5 |
| I want a model with cheaper output prices. | 0 | 0 | 1 (100%) | 0 | 1 |
| NONE | 0 | 0 | 101 (51.01%) | 97 (48.99%) | 198 |
| NONE. | 0 | 0 | 10 (50%) | 10 (50%) | 20 |
- 言語フィードバックは LF 分析において高精度でほぼ実現可能なショートリストを生む(Case S)。
- 無フィードバックルーティングは、ランダム選択ではなく暗黙の priors によって駆動される堅牢なコアを示す。
- NF Case S の挙動を説明する疎な解釈可能な述語集合が、統計的に有意な AUC と重複を持つ。
- 8エンドポイントでは非中立的推奨率が明らかに優れており、安定した頑健性述語を示唆。
- NF の学習済み clause weights(w(bot))は、推論可能性、Large-Maxout、キャッシュ入力属性を影響力のある要因として浮き彫りにする。
- 暗黙の priors モデルは通常の NL プロンプトとランごとの比較で反証可能である。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。