[論文レビュー] Neuro-Symbolic Verification on Instruction Following of LLMs
Nsvifは、プロンプト遵守を確認する普遍的なニューロ〜シンボリック検 verifier を提示。命令遵守を制約充足問題として定式化し、論理/意味的制約を統一ソルバーと組み合わせ、評価のためのVifBenchを導入。
A fundamental problem of applying Large Language Models (LLMs) to important applications is that LLMs do not always follow instructions, and violations are often hard to observe or check. In LLM-based agentic workflows, such violations can propagate and amplify along reasoning chains, causing task failures and system incidents. This paper presents NSVIF, a neuro-symbolic framework for verifying whether an LLM's output follows the instructions used to prompt the LLM. NSVIF is a universal, general-purpose verifier; it makes no assumption about the instruction or the LLM. NSVIF formulates instruction-following verification as a constraint-satisfaction problem by modeling user instructions as constraints. NSVIF models both logical and semantic constraints; constraint solving is done by a unified solver that orchestrates logical reasoning and semantic analysis. To evaluate NSVIF, we develop VIFBENCH, a new benchmark for instruction-following verifiers with fine-grained data labels. Experiments show that NSVIF significantly outperforms LLM-based approaches and provides interpretable feedback. We also show that feedback from NSVIF helps improve LLMs' instruction-following capability without post-training.
研究の動機と目的
- 信頼性の高いLLMの命令遵守検証の必要性を動機づけ、エージェント作業ワークフローでの違反の伝播を防ぐ。
- プロンプトを制約としてモデリングし、論理分析と意味分析を通じて出力を検証する普遍的検 verifier を提案。
- 違反している制約と出力のどの点で失敗しているかを特定することで、解釈可能なフィードバックを提供。
- ポストトレーニングなしで、LLMベースのジャッジよりも効果的であることを実証し、LLMの命令遵守向上の可能性を示す。
提案手法
- 命令遵守を一階述語論理のCSPとして式化し、制約とその関係をエンコードする。
- 制約を論理的(シンボリック)と意味的(ニューラル)制約に分解し、統一SMTソルバー(Z3)で実現可能性を検証。
- マルチエージェント体系を用意: formulate_agent(制約抽出とZ3プログラム作成)、checking_agent(制約チェッカーを生成)、solver_agent(CSPを実行)。
- 制約抽出・制約タイプ分類・意味的評価のためにLLMsを活用し、チェッカーコードを修正する自己反省ループを導入。
- 検証用に微細な制約レベルの注釈を持つキュレーションデータセットとしてVifBenchを導入。
- ポストトレーニングなしでLLMの命令遵守を改善するためのフィードバック機構を提供。
実験結果
リサーチクエスチョン
- RQ1普遍的なニューロ〜シンボリック検 verifier は、多様な命令と多様なLLMに対して、出力が指示に従っているかを正確に判断できるか?
- RQ2命令を論理制約と意味制約に分解することは、検証精度と解釈性にどのような影響を与えるか?
- RQ3Nsvif の制約レベルのフィードバックは、ポストトレーニングなしでLLMの命令遵守を改善するのに有効か?
- RQ4Nsvif はLLMベースのジャッジと比較して、モデル間での精度、適合率/再現率、頑健性においてどう差があるか?
- RQ5命令の複雑さは検証性能にどのような影響を与えるか?
主な発見
- Nsvifは、複数のモデルにおいてLLMをジャッジとして用いるベースラインをF1/適合率/再現率で有意に上回る。
- CSPベースのニューロ〜シンボリック手法は、失敗した制約と推論経路を特定することで解釈可能な結果を生み出す。
- Nsvifによる多回のフィードバックループは、ポストトレーニングなしでLLMsの命令遵守を改善する道を導く。
- VifBenchという微細な制約ラベルを備えた専用ベンチマークは、単一ラベル評価の限界を露呈し、より深い分析を可能にする。
- アブレーション研究では、シンボリック推論(SMTソルバー)は意味的チェックだけより検証性能を大幅に向上させ、意味分析の恩恵も受ける。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。