Skip to main content
QUICK REVIEW

[논문 리뷰] Solver-in-the-Loop: MDP-Based Benchmarks for Self-Correction and Behavioral Rationality in Operations Research

Ruicheng Ao, Simchi-Levi, David|arXiv (Cornell University)|2026. 01. 28.
Formal Methods in Verification인용 수 0
한 줄 요약

두 개의 solver-in-the-loop 벤치마크를 도입(OR-Debug-Bench와 OR-Bias-Bench)하여 OR에서 LLM의 반복적 자기수정 및 행태적 합리성을 평가하고, 도메인 특화 학습이 최전선 API를 능가하며 커리큘럼이 편향을 감소시킴.

ABSTRACT

Operations Research practitioners routinely debug infeasible models through an iterative process: analyzing Irreducible Infeasible Subsystems (\IIS{}), identifying constraint conflicts, and systematically repairing formulations until feasibility is achieved. Yet existing LLM benchmarks evaluate OR as one-shot translation -- given a problem description, generate solver code -- ignoring this diagnostic loop entirely. We introduce two benchmarks that place the extbf{solver in the evaluation loop}. extbf{\ORDebug{}} evaluates iterative self-correction through 5,000+ problems spanning 9 error types; each repair action triggers solver re-execution and \IIS{} recomputation, providing deterministic, verifiable feedback. extbf{\ORBias{}} evaluates behavioral rationality through 2,000 newsvendor instances (1,000 ID + 1,000 OOD), measuring systematic deviations from closed-form optimal policies. Across 26 models and 12,000+ samples, we find that domain-specific RLVR training enables an 8B model to surpass frontier APIs: 95.3\% vs 86.2\% recovery rate (+9.1\%), 62.4\% vs 47.8\% diagnostic accuracy (+14.6\%), and 2.25 vs 3.78 steps to resolution (1.7$ imes$ faster). On \ORBias{}, curriculum training achieves the only negative ID$ ightarrow$OOD bias drift among models evaluated (-9.6\%), reducing systematic bias by 48\% (from 20.0\% to 10.4\%). These results demonstrate that process-level evaluation with verifiable oracles enables targeted training that outperforms scale.

연구 동기 및 목표

  • LLM을 OR에서 한 번에 문제를 해결하는 방식이 아니라 반복적 솔버 피드백을 통해 평가할 필요를 동기 부여하고 형식화한다.
  • 두 벤치마크(OR-Debug-Bench 및 OR-Bias-Bench)를 정의하며 verifiable solver feedback(IIS)와 닫힌 형식 정책을 사용한다.
  • GRPO 기반 RL과 프로세스 보상 및 커리큘럼 학습을 통한 학습 방법을 Demonstrate하며 추론, 수정 정확도, 편향 일반화의 향상을 보인다.
  • 도메인 특화 학습 및 구조화된 평가를 통해 26개 모델과 12,000개 이상의 샘플에 걸친 포괄적 평가를 제공하여 이익을 정량화한다.

제안 방법

  • 두 단계 벤치마크 프레임워크: 1단계 OR-Debug-Bench는 Gurobi IIS 피드백을 통한 반복 디버깅 평가; 2단계 OR-Bias-Bench는 재고 의사결정을 닫힌 형식의 최적 정책과 대조 평가한다.
  • 사보타주 기반 데이터 생성을 통해 제어된 불충분성 유형과 Ground-truth 수정이 가능한 LP를 생성하며 IIS가 검증의 오라클 역할을 한다.
  • 두 벤치마크 모두에 대해 상태, 행동 공간, 결과, 진단 및 효율성을 균형 잡은 합성 보상을 포함하는 마르코프 의사결정 프로세스(MDP) 공식화.
  • Group Relative Policy Optimization(GRPO)와 LoRA 기반 미세 조정을 사용한 합성 보상(결과, 진단, 효율성)으로 RLVR 학습; 진실성 페널티는 근본 원인 은폐를 방지한다.
  • Pull-to-center 편향을 완화하기 위한 OR-Bias-Bench의 커리큘럼 학습으로 OOD 일반화를 개선하는 단계별 CR 분포.
  • PRM(Process Reward Model)이 결과를 희생하지 않으면서 진단 품질을 향상시키도록 단계 수준 감독을 제공한다.

실험 결과

연구 질문

  • RQ1LLM이 결정론적 IIS 피드백을 활용하여 반복 루프에서 불 feasible한 OR 형식을 자기 수정할 수 있는가?
  • RQ2도메인 특화 학습과 구조화된 프로세스 감독이 OR 디버깅 작업에서 일반 프런티어 API보다 우수한가?
  • RQ3커리큘럼 학습이 모델이 분포 내 문제에서 분포 외 문제로 일반화할 때 하위 편향을 줄일 수 있는가?
  • RQ4IIS 기반 디버깅에서 진단 정확도(DA)가 실제 최적 수정과 어떤 관련이 있는가?
  • RQ5OR 문제에 solver-in-the-loop 접근 방식을 사용할 때의 효율성 및 일반화 트레이드오프는 무엇인가?

주요 결과

모델RRRR @5DA단계
Qwen3-8B - GRPO100%95.3%62.4%2.25
Qwen3-8B - Curriculum100%94.0%61.7%2.22
Qwen3-8B - DAPO100%93.8%60.4%2.31
Qwen3-8B - SFT99.8%93.1%60.8%2.34
o4-mini97.8%86.2%47.8%3.15
claude-sonnet-4100%86.2%50.1%3.71
  • 도메인 특화 8B 모델이 회복 및 진단 성능에서 프런티어 API를 능가: RR @5 = 95.3% 대 86.2%, DA = 62.4% 대 47.8%.
  • GRPO를 사용한 해 해결까지의 단계 수가 API 모델보다 2.25배 더 효율적(2.25 vs 3.78).
  • 커리큘럼 학습은 유일하게 음의 ID→OOD 편향 드리프트(-9.6%)를 유발하며 편향을 20.0%에서 10.4%로 감소시키고 더 나은 OOD 일반화를 달성한다.
  • PRM 기반 단계 수준 감독은 진단 정확도를 4.7% 증가시켜 68.0% → 72.7%로 향상시키는 데 일정 비용으로 회복률에 영향을 준다.
  • 26개 모델과 12,000개 이상의 샘플에서 도메인 특화 학습은 더 어려운 오류 유형(E–I)에서 더 큰 이익을 나타내고 쉬운 유형(A–D)에서 거의 보편적 강건성을 보인다.
  • 추론 확장은 도메인 특화 모델이 API 모델에 비해 더 적은 토큰으로 높은 회복을 달성하는 1.87배의 토큰 효율을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.