QUICK REVIEW

[논문 리뷰] Solver-in-the-Loop: MDP-Based Benchmarks for Self-Correction and Behavioral Rationality in Operations Research

Ruicheng Ao, Simchi-Levi, David|arXiv (Cornell University)|2026. 01. 28.

Formal Methods in Verification인용 수 0

한 줄 요약

두 개의 solver-in-the-loop 벤치마크를 도입(OR-Debug-Bench와 OR-Bias-Bench)하여 OR에서 LLM의 반복적 자기수정 및 행태적 합리성을 평가하고, 도메인 특화 학습이 최전선 API를 능가하며 커리큘럼이 편향을 감소시킴.

ABSTRACT

Operations Research practitioners routinely debug infeasible models through an iterative process: analyzing Irreducible Infeasible Subsystems (\IIS{}), identifying constraint conflicts, and systematically repairing formulations until feasibility is achieved. Yet existing LLM benchmarks evaluate OR as one-shot translation -- given a problem description, generate solver code -- ignoring this diagnostic loop entirely. We introduce two benchmarks that place the extbf{solver in the evaluation loop}. extbf{\ORDebug{}} evaluates iterative self-correction through 5,000+ problems spanning 9 error types; each repair action triggers solver re-execution and \IIS{} recomputation, providing deterministic, verifiable feedback. extbf{\ORBias{}} evaluates behavioral rationality through 2,000 newsvendor instances (1,000 ID + 1,000 OOD), measuring systematic deviations from closed-form optimal policies. Across 26 models and 12,000+ samples, we find that domain-specific RLVR training enables an 8B model to surpass frontier APIs: 95.3\% vs 86.2\% recovery rate (+9.1\%), 62.4\% vs 47.8\% diagnostic accuracy (+14.6\%), and 2.25 vs 3.78 steps to resolution (1.7$ imes$ faster). On \ORBias{}, curriculum training achieves the only negative ID$ ightarrow$OOD bias drift among models evaluated (-9.6\%), reducing systematic bias by 48\% (from 20.0\% to 10.4\%). These results demonstrate that process-level evaluation with verifiable oracles enables targeted training that outperforms scale.

연구 동기 및 목표

LLM을 OR에서 한 번에 문제를 해결하는 방식이 아니라 반복적 솔버 피드백을 통해 평가할 필요를 동기 부여하고 형식화한다.
두 벤치마크(OR-Debug-Bench 및 OR-Bias-Bench)를 정의하며 verifiable solver feedback(IIS)와 닫힌 형식 정책을 사용한다.
GRPO 기반 RL과 프로세스 보상 및 커리큘럼 학습을 통한 학습 방법을 Demonstrate하며 추론, 수정 정확도, 편향 일반화의 향상을 보인다.
도메인 특화 학습 및 구조화된 평가를 통해 26개 모델과 12,000개 이상의 샘플에 걸친 포괄적 평가를 제공하여 이익을 정량화한다.

제안 방법

두 단계 벤치마크 프레임워크: 1단계 OR-Debug-Bench는 Gurobi IIS 피드백을 통한 반복 디버깅 평가; 2단계 OR-Bias-Bench는 재고 의사결정을 닫힌 형식의 최적 정책과 대조 평가한다.
사보타주 기반 데이터 생성을 통해 제어된 불충분성 유형과 Ground-truth 수정이 가능한 LP를 생성하며 IIS가 검증의 오라클 역할을 한다.
두 벤치마크 모두에 대해 상태, 행동 공간, 결과, 진단 및 효율성을 균형 잡은 합성 보상을 포함하는 마르코프 의사결정 프로세스(MDP) 공식화.
Group Relative Policy Optimization(GRPO)와 LoRA 기반 미세 조정을 사용한 합성 보상(결과, 진단, 효율성)으로 RLVR 학습; 진실성 페널티는 근본 원인 은폐를 방지한다.
Pull-to-center 편향을 완화하기 위한 OR-Bias-Bench의 커리큘럼 학습으로 OOD 일반화를 개선하는 단계별 CR 분포.
PRM(Process Reward Model)이 결과를 희생하지 않으면서 진단 품질을 향상시키도록 단계 수준 감독을 제공한다.

실험 결과

연구 질문

RQ1LLM이 결정론적 IIS 피드백을 활용하여 반복 루프에서 불 feasible한 OR 형식을 자기 수정할 수 있는가?
RQ2도메인 특화 학습과 구조화된 프로세스 감독이 OR 디버깅 작업에서 일반 프런티어 API보다 우수한가?
RQ3커리큘럼 학습이 모델이 분포 내 문제에서 분포 외 문제로 일반화할 때 하위 편향을 줄일 수 있는가?
RQ4IIS 기반 디버깅에서 진단 정확도(DA)가 실제 최적 수정과 어떤 관련이 있는가?
RQ5OR 문제에 solver-in-the-loop 접근 방식을 사용할 때의 효율성 및 일반화 트레이드오프는 무엇인가?

주요 결과

모델	RR	RR @5	DA	단계
Qwen3-8B - GRPO	100%	95.3%	62.4%	2.25
Qwen3-8B - Curriculum	100%	94.0%	61.7%	2.22
Qwen3-8B - DAPO	100%	93.8%	60.4%	2.31
Qwen3-8B - SFT	99.8%	93.1%	60.8%	2.34
o4-mini	97.8%	86.2%	47.8%	3.15
claude-sonnet-4	100%	86.2%	50.1%	3.71

도메인 특화 8B 모델이 회복 및 진단 성능에서 프런티어 API를 능가: RR @5 = 95.3% 대 86.2%, DA = 62.4% 대 47.8%.
GRPO를 사용한 해 해결까지의 단계 수가 API 모델보다 2.25배 더 효율적(2.25 vs 3.78).
커리큘럼 학습은 유일하게 음의 ID→OOD 편향 드리프트(-9.6%)를 유발하며 편향을 20.0%에서 10.4%로 감소시키고 더 나은 OOD 일반화를 달성한다.
PRM 기반 단계 수준 감독은 진단 정확도를 4.7% 증가시켜 68.0% → 72.7%로 향상시키는 데 일정 비용으로 회복률에 영향을 준다.
26개 모델과 12,000개 이상의 샘플에서 도메인 특화 학습은 더 어려운 오류 유형(E–I)에서 더 큰 이익을 나타내고 쉬운 유형(A–D)에서 거의 보편적 강건성을 보인다.
추론 확장은 도메인 특화 모델이 API 모델에 비해 더 적은 토큰으로 높은 회복을 달성하는 1.87배의 토큰 효율을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.