QUICK REVIEW

[論文レビュー] LLM Routing as Reasoning: A MaxSAT View

Son Nguyen, Xinyuan Liu|arXiv (Cornell University)|Mar 13, 2026

Information Retrieval and Search Behavior被引用数 0

ひとこと要約

論文は言語条件付き LLM ルーティングを制約付き重み付き MaxSAT/MaxSMT 問題として再定義し、言語フィードバックがモデル選択を制約する一方で無フィードバックは安定した暗黙の先行知識を示すことを示している。25エンドポイントのベンチマークを分析し、フィードバック付きで高精度かつほぼ実現可能なショートリストを示し、無フィードバックでは先行知識に driven された堅牢なコアを示す。

ABSTRACT

Routing a query through an appropriate LLM is challenging, particularly when user preferences are expressed in natural language and model attributes are only partially observable. We propose a constraint-based interpretation of language-conditioned LLM routing, formulating it as a weighted MaxSAT/MaxSMT problem in which natural language feedback induces hard and soft constraints over model attributes. Under this view, routing corresponds to selecting models that approximately maximize satisfaction of feedback-conditioned clauses. Empirical analysis on a 25-model benchmark shows that language feedback produces near-feasible recommendation sets, while no-feedback scenarios reveal systematic priors. Our results suggest that LLM routing can be understood as structured constraint optimization under language-conditioned preferences.

研究の動機と目的

部分観測下での制約付き選択として言語条件付き LLM ルーティングを formalize する。
ルータの挙動を論理的事後条件と MaxSAT/MaxSMT の解釈として表現する。
言語フィードバックと無フィードバック regimes を持つ 25-エンドポイント LLM ルーティングベンチマークを特徴づける。

提案手法

エンドポイント上の hard および soft 制約式として言語フィードバックを注入する。
方向キーに条件づけられた式重み付き MaxSMT 最適化としてルーティングをモデル化する。
LF モードで少なくとも1つ、かつ固定数のエンドポイントを出力する推奨予算を用いる。
事後条件 C を分析して出力を分類する（Zero, One, Some, All, Random, Fail）。
無フィードバックを虚偽の制約集合として扱い、暗黙の priors w(bot) を明らかにする。
エンドポイントメタデータ上の述語ライブラリを用いて NF ランを疎な説明モデルに適合させる。

Figure 1: Coverage Percentage and Recommendation Precision of both LF groups

実験結果

リサーチクエスチョン

RQ1言語フィードバックを LLM ルーティング問題のエンドポイント上で hard/soft 制約として表現できるか。
RQ2無フィードバック時のルーティングはどうなるか、暗黙の priors が観測された非中立性を説明できるか。
RQ325エンドポイントのモデル zoo にわたる出力と下流の性能を MaxSAT/MaxSMT の観点でどの程度説明できるか。

主な発見

Direction Key	Zero (%)	One (%)	Case S (%)	All (%)	Count
I want a model with cheaper cached input.	0	0	12 (100%)	0	12
I want a cheaper model.	0	0	5 (100%)	0	5
I want a model with cheaper output prices.	0	0	1 (100%)	0	1
NONE	0	0	101 (51.01%)	97 (48.99%)	198
NONE.	0	0	10 (50%)	10 (50%)	20

言語フィードバックは LF 分析において高精度でほぼ実現可能なショートリストを生む（Case S）。
無フィードバックルーティングは、ランダム選択ではなく暗黙の priors によって駆動される堅牢なコアを示す。
NF Case S の挙動を説明する疎な解釈可能な述語集合が、統計的に有意な AUC と重複を持つ。
8エンドポイントでは非中立的推奨率が明らかに優れており、安定した頑健性述語を示唆。
NF の学習済み clause weights（w(bot)）は、推論可能性、Large-Maxout、キャッシュ入力属性を影響力のある要因として浮き彫りにする。
暗黙の priors モデルは通常の NL プロンプトとランごとの比較で反証可能である。

Figure 2: Percentile and Mean of NF set and model zoo on key objectives.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。