QUICK REVIEW

[논문 리뷰] Q-learning with Adjoint Matching

Qiyang Li, Sergey Levine|arXiv (Cornell University)|2026. 01. 20.

Reinforcement Learning in Robotics인용 수 0

한 줄 요약

Adjoint Matching(QAM)을 이용한 Q-learning은 평가자 기울기를 활용해 표현력 있는 흐름/확산 정책을 학습하도록 adjoint matching을 도입하고, 안정적인 TD 기반 학습 및 오프라인 및 온라인 전환 RL에서 희소 보상과 긴 기간의 작업에서 우수한 성능을 가능하게 한다.

ABSTRACT

We propose Q-learning with Adjoint Matching (QAM), a novel TD-based reinforcement learning (RL) algorithm that tackles a long-standing challenge in continuous-action RL: efficient optimization of an expressive diffusion or flow-matching policy with respect to a parameterized Q-function. Effective optimization requires exploiting the first-order information of the critic, but it is challenging to do so for flow or diffusion policies because direct gradient-based optimization via backpropagation through their multi-step denoising process is numerically unstable. Existing methods work around this either by only using the value and discarding the gradient information, or by relying on approximations that sacrifice policy expressivity or bias the learned policy. QAM sidesteps both of these challenges by leveraging adjoint matching, a recently proposed technique in generative modeling, which transforms the critic's action gradient to form a step-wise objective function that is free from unstable backpropagation, while providing an unbiased, expressive policy at the optimum. Combined with temporal-difference backup for critic learning, QAM consistently outperforms prior approaches on hard, sparse reward tasks in both offline and offline-to-online RL.

연구 동기 및 목표

TD 기반 RL에서 불안정한 역전파 없이 비평가와 함께 표현력 있는 흐름/확산 정책을 공동 최적화해야 할 필요성에 대한 동기 부여.
adjoint matching을 제시하여 비평가의 행동 기울기를 정책 최적화를 위한 안정적이고 단계별의 목표로 변환.
학습된 정책이 다단계 흐름 모델의 표현성을 유지하면서 최적 행동 제약 정책으로 수렴하도록 보장.
오프라인 및 오프라인-온라인 설정에서 비평가 학습을 위한 TD_backups와의 간단한 통합 가능.

제안 방법

KL 유사 행동 제약으로서 pi* ∝ pi_beta exp(tau(s) Q(s,a))로 최적 정책을 형상화한다.
행동 정책을 흐름-매칭 정책 f_beta로 표현하고 denoising 과정을 역전파하지 않고 비평가의 기울기를 이용하여 미세 조정된 정책 f_theta를 학습한다.
경사 비편향적이고 안정적인 adjoint 매칭 목표 L_AM(theta)가 f_theta를 비평가-정보에 따른 최적 정책과 정렬되도록 경량 adjoint 상태를 적용한다.
여러 비평가의 앙상블과 비관적 타깃 백업을 사용하여 adjoint 매칭을 TD 기반 비평가 업데이트와 결합한다.
학습된 정책에 대한 Wasserstein 기반 근접성 제약을 통해 제약을 완화하는 두 가지 실용적 변형(QAM-FQL 및 QAM-EDIT)을 제공한다.
작업 메모리 없는 SDE를 사용한 행동 궤적과 adjoint 상태를 계산하기 위한 VJP 기반 역전파로 실용적인 학습을 구현한다.

실험 결과

연구 질문

RQ1adjoint matching이 TD 기반 RL에서 표현력 있는 흐름/확산 정책을 최적화하기 위해 비평가 기울기를 안정적으로 활용하도록 할 수 있는가?
RQ2QAM이 offline 및 offline-to-online 설정에서 흐름 정책의 표현성을 유지하면서 행동-정규화된 최적 정책을 회복하는가?
RQ3QAM 변형(QAM-FQL 및 QAM-EDIT)이 학습된 정책에 대한 Wasserstein 근접성 제약 하에서 행동 priors와 가치 가이드를 균형 있게 조절하는가?
RQ4TD 백업과 adjoint matching을 결합하면 gradient 정보를 버리거나 불안정한 역전파에 의존하는 기존 방법들보다 어려운 희소 보상 벤치마크에서 우수한 성능을 달성하는가?
RQ5 offline 데이터로 사전 학습하고 QAM으로 온라인으로 미세 조정할 때 오프라인-온라인 체제에서 얻는 실증적 이득은 무엇인가?

주요 결과

QAM은 오프라인 및 오프라인-온라인 RL의 어려운 희소 보상 과제에서 일관되게 이전 방법보다 우수한 성능을 보인다.
denoising 과정을 통한 역전파의 불안정을 피하면서 다단계 흐름 정책의 표현성을 보존한다.
adjoint 매칭은 비평가의 행동 기울기를 직접적이고 편향되지 않게 정책 속도장으로 이끌 수 있게 해준다.
두 가지 실용적 QAM 변형(QAM-FQL 및 QAM-EDIT)은 Wasserstein 제약 하에서 학습된 정책에 효과적인 근접 제어를 제공한다.
TD 기반 비평가 학습과 adjoint-매칭 정책 목표를 결합해 오프라인 RL 벤치마크에서 강력한 실증적 성능을 달성한다.
실증 연구는 긴 수평선과 희소 보상을 가진 10개 OGBench 도메인 전반에서 견고한 성능을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.