[논문 리뷰] Solver-in-the-Loop: MDP-Based Benchmarks for Self-Correction and Behavioral Rationality in Operations Research
두 개의 solver-in-the-loop 벤치마크를 도입(OR-Debug-Bench와 OR-Bias-Bench)하여 OR에서 LLM의 반복적 자기수정 및 행태적 합리성을 평가하고, 도메인 특화 학습이 최전선 API를 능가하며 커리큘럼이 편향을 감소시킴.
Operations Research practitioners routinely debug infeasible models through an iterative process: analyzing Irreducible Infeasible Subsystems (\IIS{}), identifying constraint conflicts, and systematically repairing formulations until feasibility is achieved. Yet existing LLM benchmarks evaluate OR as one-shot translation -- given a problem description, generate solver code -- ignoring this diagnostic loop entirely. We introduce two benchmarks that place the extbf{solver in the evaluation loop}. extbf{\ORDebug{}} evaluates iterative self-correction through 5,000+ problems spanning 9 error types; each repair action triggers solver re-execution and \IIS{} recomputation, providing deterministic, verifiable feedback. extbf{\ORBias{}} evaluates behavioral rationality through 2,000 newsvendor instances (1,000 ID + 1,000 OOD), measuring systematic deviations from closed-form optimal policies. Across 26 models and 12,000+ samples, we find that domain-specific RLVR training enables an 8B model to surpass frontier APIs: 95.3\% vs 86.2\% recovery rate (+9.1\%), 62.4\% vs 47.8\% diagnostic accuracy (+14.6\%), and 2.25 vs 3.78 steps to resolution (1.7$ imes$ faster). On \ORBias{}, curriculum training achieves the only negative ID$ ightarrow$OOD bias drift among models evaluated (-9.6\%), reducing systematic bias by 48\% (from 20.0\% to 10.4\%). These results demonstrate that process-level evaluation with verifiable oracles enables targeted training that outperforms scale.
연구 동기 및 목표
- LLM을 OR에서 한 번에 문제를 해결하는 방식이 아니라 반복적 솔버 피드백을 통해 평가할 필요를 동기 부여하고 형식화한다.
- 두 벤치마크(OR-Debug-Bench 및 OR-Bias-Bench)를 정의하며 verifiable solver feedback(IIS)와 닫힌 형식 정책을 사용한다.
- GRPO 기반 RL과 프로세스 보상 및 커리큘럼 학습을 통한 학습 방법을 Demonstrate하며 추론, 수정 정확도, 편향 일반화의 향상을 보인다.
- 도메인 특화 학습 및 구조화된 평가를 통해 26개 모델과 12,000개 이상의 샘플에 걸친 포괄적 평가를 제공하여 이익을 정량화한다.
제안 방법
- 두 단계 벤치마크 프레임워크: 1단계 OR-Debug-Bench는 Gurobi IIS 피드백을 통한 반복 디버깅 평가; 2단계 OR-Bias-Bench는 재고 의사결정을 닫힌 형식의 최적 정책과 대조 평가한다.
- 사보타주 기반 데이터 생성을 통해 제어된 불충분성 유형과 Ground-truth 수정이 가능한 LP를 생성하며 IIS가 검증의 오라클 역할을 한다.
- 두 벤치마크 모두에 대해 상태, 행동 공간, 결과, 진단 및 효율성을 균형 잡은 합성 보상을 포함하는 마르코프 의사결정 프로세스(MDP) 공식화.
- Group Relative Policy Optimization(GRPO)와 LoRA 기반 미세 조정을 사용한 합성 보상(결과, 진단, 효율성)으로 RLVR 학습; 진실성 페널티는 근본 원인 은폐를 방지한다.
- Pull-to-center 편향을 완화하기 위한 OR-Bias-Bench의 커리큘럼 학습으로 OOD 일반화를 개선하는 단계별 CR 분포.
- PRM(Process Reward Model)이 결과를 희생하지 않으면서 진단 품질을 향상시키도록 단계 수준 감독을 제공한다.
실험 결과
연구 질문
- RQ1LLM이 결정론적 IIS 피드백을 활용하여 반복 루프에서 불 feasible한 OR 형식을 자기 수정할 수 있는가?
- RQ2도메인 특화 학습과 구조화된 프로세스 감독이 OR 디버깅 작업에서 일반 프런티어 API보다 우수한가?
- RQ3커리큘럼 학습이 모델이 분포 내 문제에서 분포 외 문제로 일반화할 때 하위 편향을 줄일 수 있는가?
- RQ4IIS 기반 디버깅에서 진단 정확도(DA)가 실제 최적 수정과 어떤 관련이 있는가?
- RQ5OR 문제에 solver-in-the-loop 접근 방식을 사용할 때의 효율성 및 일반화 트레이드오프는 무엇인가?
주요 결과
| 모델 | RR | RR @5 | DA | 단계 |
|---|---|---|---|---|
| Qwen3-8B - GRPO | 100% | 95.3% | 62.4% | 2.25 |
| Qwen3-8B - Curriculum | 100% | 94.0% | 61.7% | 2.22 |
| Qwen3-8B - DAPO | 100% | 93.8% | 60.4% | 2.31 |
| Qwen3-8B - SFT | 99.8% | 93.1% | 60.8% | 2.34 |
| o4-mini | 97.8% | 86.2% | 47.8% | 3.15 |
| claude-sonnet-4 | 100% | 86.2% | 50.1% | 3.71 |
- 도메인 특화 8B 모델이 회복 및 진단 성능에서 프런티어 API를 능가: RR @5 = 95.3% 대 86.2%, DA = 62.4% 대 47.8%.
- GRPO를 사용한 해 해결까지의 단계 수가 API 모델보다 2.25배 더 효율적(2.25 vs 3.78).
- 커리큘럼 학습은 유일하게 음의 ID→OOD 편향 드리프트(-9.6%)를 유발하며 편향을 20.0%에서 10.4%로 감소시키고 더 나은 OOD 일반화를 달성한다.
- PRM 기반 단계 수준 감독은 진단 정확도를 4.7% 증가시켜 68.0% → 72.7%로 향상시키는 데 일정 비용으로 회복률에 영향을 준다.
- 26개 모델과 12,000개 이상의 샘플에서 도메인 특화 학습은 더 어려운 오류 유형(E–I)에서 더 큰 이익을 나타내고 쉬운 유형(A–D)에서 거의 보편적 강건성을 보인다.
- 추론 확장은 도메인 특화 모델이 API 모델에 비해 더 적은 토큰으로 높은 회복을 달성하는 1.87배의 토큰 효율을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.