QUICK REVIEW

[논문 리뷰] Per-Domain Generalizing Policies: On Learning Efficient and Robust Q-Value Functions (Extended Version with Technical Appendix)

Nicola J. Müller, Moritz Oster|arXiv (Cornell University)|2026. 03. 18.

AI-based Problem Solving and Planning인용 수 0

한 줄 요약

바닐라 SL이 교사와 비교사 행동 구분 실패, 교사 대 비교사 행동 구별을 강제하는 명시적 및 휴리스틱 규제기를 도입, 규제된 Q-값 정책이 상태값 정책을 능가하고 10개 도메인 및 여러 GNN 아키텍처에서 LAMA-first와 경쟁적임을 보여준다.

ABSTRACT

Learning per-domain generalizing policies is a key challenge in learning for planning. Standard approaches learn state-value functions represented as graph neural networks using supervised learning on optimal plans generated by a teacher planner. In this work, we advocate for learning Q-value functions instead. Such policies are drastically cheaper to evaluate for a given state, as they need to process only the current state rather than every successor. Surprisingly, vanilla supervised learning of Q-values performs poorly as it does not learn to distinguish between the actions taken and those not taken by the teacher. We address this by using regularization terms that enforce this distinction, resulting in Q-value policies that consistently outperform state-value policies across a range of 10 domains and are competitive with the planner LAMA-first.

연구 동기 및 목표

계획 도메인에서 도메인별 일반화 정책 학습의 동기를 제시한다.
효율성을 위해 상태값 함수보다 Q-값 함수 학습을 옹호한다.
바닐라 지도 학습이 Q-값에서 실패하는 이유를 파악하고 이를 해결하기 위한 규제화를 도입한다.
여러 GNN 아키텍처와 도메인 전반에 걸친 확장성과 일반화 이점을 입증한다.

제안 방법

고전 계획 상태를 그래프로 표현하고 세 가지 GNN 아키텍처: R-GNN, OE, 및 OAE를 사용한다.
최적의 계획을 지도 감독으로 활용하여 Q-값을 감독학습으로 학습한다.
바닐라 SL이 교사 행동과 비교사 행동에 대해 구별되지 않는 Q-값을 산출함을 보인다.
Q(s,a_i) > Q(s,a*)를 강제하기 위해 명시적 규제와 휴리스틱 규제의 두 가지 규제기를 도입한다.
10개 도메인에 걸쳐 규제된 Q-값과 상태값, 그리고 LAMA-first를 비교한다.

실험 결과

연구 질문

RQ1최적의 계획에서 Q-값 함수를 학습하여 도메인별 정책을 일반화할 수 있는가?
RQ2바닐라 감독 학습이 Q-값에서 실패하는 이유는 무엇이며 규제화로 이를 해결할 수 있는가?
RQ3규제된 Q-값 정책이 도메인 전반에서 상태값 정책보다 규모 확장성과 일반화를 더 잘 달성하는가?
RQ4다양한 GNN 아키텍처가 규제된 Q-값 정책의 성능에 어떤 영향을 미치는가?

주요 결과

바닐라 SL로 학습된 Q-값 정책은 행동 간 거의 동일한 Q-값 때문에 일반화가 저조하여 무작위 행동 선택을 초래한다.
명시적 규제와 휴리스틱 규제 중 하나로 Q-값을 규제하면 비교사 행동이 교사 행동보다 더 높은 Q-값을 갖도록 강제하여 일반화를 극적으로 개선한다.
규제된 Q-값 정책은 10개 도메인에서 상태값 정책보다 우수하고 IPC’23 테스트 세트에서 LAMA-first와 경쟁적이다.
휴리스틱 규제는 종종 더 타이트한 경계(bound)를 형성하고 여러 도메인에서 명시적 규제보다 우수할 수 있다.
세 가지 GNN 아키텍처(R-GNN, OE, OAE)에서 규제된 Q-값 정책은 비규제 대조군에 비해 IPC’23 테스트에서 스케일링 동작과 커버리지가 향상된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.