[論文レビュー] Solver-in-the-Loop: MDP-Based Benchmarks for Self-Correction and Behavioral Rationality in Operations Research
要約: ORにおける反復的自己訂正と行動的合理性を評価するための二つのソルバー・イン・ザ・ループ・ベンチマーク(OR-Debug-Bench と OR-Bias-Bench)を導入。ドメイン固有の訓練が最先端APIを上回り、カリキュラムがバイアスを低減します。
Operations Research practitioners routinely debug infeasible models through an iterative process: analyzing Irreducible Infeasible Subsystems (\IIS{}), identifying constraint conflicts, and systematically repairing formulations until feasibility is achieved. Yet existing LLM benchmarks evaluate OR as one-shot translation -- given a problem description, generate solver code -- ignoring this diagnostic loop entirely. We introduce two benchmarks that place the \textbf{solver in the evaluation loop}. \textbf{\ORDebug{}} evaluates iterative self-correction through 5,000+ problems spanning 9 error types; each repair action triggers solver re-execution and \IIS{} recomputation, providing deterministic, verifiable feedback. \textbf{\ORBias{}} evaluates behavioral rationality through 2,000 newsvendor instances (1,000 ID + 1,000 OOD), measuring systematic deviations from closed-form optimal policies. Across 26 models and 12,000+ samples, we find that domain-specific RLVR training enables an 8B model to surpass frontier APIs: 95.3\% vs 86.2\% recovery rate (+9.1\%), 62.4\% vs 47.8\% diagnostic accuracy (+14.6\%), and 2.25 vs 3.78 steps to resolution (1.7$\times$ faster). On \ORBias{}, curriculum training achieves the only negative ID$\rightarrow$OOD bias drift among models evaluated (-9.6\%), reducing systematic bias by 48\% (from 20.0\% to 10.4\%). These results demonstrate that process-level evaluation with verifiable oracles enables targeted training that outperforms scale.
研究の動機と目的
- ORにおける一問一解の問題解法ではなく、反復的なソルバーのフィードバックを通じたLLM評価の必要性を動機づけ、形式化する。
- 検証可能なソルバーのフィードバック(IIS)と閉形式ポリシーを用いる二つのベンチマーク(OR-Debug-Bench および OR-Bias-Bench)を定義する。
- 推論・訂正精度・バイアス一般化を改善するGRPOベースのRLとカリキュラム学習を用いた訓練手法を示す。
- ドメイン固有訓練と構造化評価の利益を定量化するために、26モデル・12,000件超のサンプルを横断的に総合評価する。
提案手法
- フェーズ1: OR-Debug-Bench は Gurobi IIS フィードバックによる反復的デバッグを評価。フェーズ2: OR-Bias-Bench は在庫決定を閉形式の最適ポリシーと照合。
- サボター機構に基づくデータ生成により、制御された非実行可能性タイプとグラウンドトゥルースの修復を含む実現可能なLPを作成。IISを検証のオラクルとして機能。
- 両ベンチマークのマルコフ決定過程(MDP)定式化:状態、行動空間、成果・診断・効率をバランスする複合報酬を包含。
- グループ相対ポリシー最適化(GRPO)とLoRAベースのファインチューニングを用いた複合報酬(成果・診断・効率)による RLVR 訓練;真実性ペナルティが根本原因のマスキングを防止。
- OR-Bias-Bench に対するカリキュラム学習により中心偏りの引張りを抑制し、OOD一般化を改善する段階的 CR 分布。
- PRM(プロセス報酬モデル)によるステップレベルの監督は、成果を犠牲にせず診断品質を向上させる。
実験結果
リサーチクエスチョン
- RQ1LLMは IIS フィードバックを利用した反復ループで非実行可能なOR定式化を自己訂正できるか?
- RQ2ドメイン固有訓練と構造化プロセス監督はORデバッグタスクにおいて一般的な最先端APIを上回るか?
- RQ3カリキュラム学習は分布内OODから分布外の在庫問題へ一般化する際の下流バイアスを軽減できるか?
- RQ4IISベースのデバッグにおける診断精度(DA)は最適な修正とどのように関連するか?
- RQ5ソルバー・イン・ザ・ループアプローチを用いたOR問題の効率性と一般化のトレードオフはどうなるか?
主な発見
| Model | RR | RR @5 | DA | Steps |
|---|---|---|---|---|
| Qwen3-8B - GRPO | 100% | 95.3% | 62.4% | 2.25 |
| Qwen3-8B - Curriculum | 100% | 94.0% | 61.7% | 2.22 |
| Qwen3-8B - DAPO | 100% | 93.8% | 60.4% | 2.31 |
| Qwen3-8B - SFT | 99.8% | 93.1% | 60.8% | 2.34 |
| o4-mini | 97.8% | 86.2% | 47.8% | 3.15 |
| claude-sonnet-4 | 100% | 86.2% | 50.1% | 3.71 |
- ドメイン固有の8Bモデルは回復と診断性能で最先端APIを上回る:RR @5 = 95.3% 対 86.2%、DA = 62.4% 対 47.8%。
- GRPOにより解決までのステップが2.25に短縮(APIモデルは3.78のため、約1.7倍の効率向上)。
- カリキュラム訓練は唯一の負のID→OOD バイアスのドリフトを生み出し(-9.6%)、バイアスを20.0%から10.4%へ低減し、OOD一般化を改善。
- PRMベースのステップレベル監督は診断精度を4.7%向上(68.0% → 72.7%)、ただし回復率に代償あり。
- 26モデル・12,000件超のサンプル全体で、ドメイン固有訓練は難易度の高い誤りタイプ(E–I)で大きな利益を生み、容易なタイプ(A–D)ではほぼ普遍的な堅牢性を具現化。
- 推論スケーリングでは、ドメイン固有モデルが API モデルより少ないトークンで高い回復を達成(1.87x のトークン効率)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。