Skip to main content
QUICK REVIEW

[논문 리뷰] Unified Policy Value Decomposition for Rapid Adaptation

Cristiano Capone, Luca Falorsi|arXiv (Cornell University)|2026. 03. 18.
Reinforcement Learning in Robotics인용 수 0
한 줄 요약

정책과 가치가 저차원 게이팅 벡터 G를 공유하는 쌍선형(actor–critic) 프레임워크를 제시하여 새로운 작업에 대한 제로샷 적응과 G만 조정하는 빠른 온라인 업데이트를 가능하게 한다.

ABSTRACT

Rapid adaptation in complex control systems remains a central challenge in reinforcement learning. We introduce a framework in which policy and value functions share a low-dimensional coefficient vector - a goal embedding - that captures task identity and enables immediate adaptation to novel tasks without retraining representations. During pretraining, we jointly learn structured value bases and compatible policy bases through a bilinear actor-critic decomposition. The critic factorizes as Q = sum_k G_k(g) y_k(s,a), where G_k(g) is a goal-conditioned coefficient vector and y_k(s,a) are learned value basis functions. This multiplicative gating - where a context signal scales a set of state-dependent bases - is reminiscent of gain modulation observed in Layer 5 pyramidal neurons, where top-down inputs modulate the gain of sensory-driven responses without altering their tuning. Building on Successor Features, we extend the decomposition to the actor, which composes a set of primitive policies weighted by the same coefficients G_k(g). At test time the bases are frozen and G_k(g) is estimated zero-shot via a single forward pass, enabling immediate adaptation to novel tasks without any gradient update. We train a Soft Actor-Critic agent on the MuJoCo Ant environment under a multi-directional locomotion objective, requiring the agent to walk in eight directions specified as continuous goal vectors. The bilinear structure allows each policy head to specialize to a subset of directions, while the shared coefficient layer generalizes across them, accommodating novel directions by interpolating in goal embedding space. Our results suggest that shared low-dimensional goal embeddings offer a general mechanism for rapid, structured adaptation in high-dimensional control, and highlight a potentially biologically plausible principle for efficient transfer in complex reinforcement learning systems.

연구 동기 및 목표

  • 연속 제어에서 모놀리식 네트워크가 전달성 및 해석가능성을 저해하는 빠른 적응의 동기를 부여합니다.
  • 공유 저차원 게이팅 벡터 G를 갖는 공동 분해 이차선형(actor–critic) 아키텍처를 제안합니다.
  • 액터와 비평가 사이에서 G를 공유하면 효율성이 향상되고 제로샷 일반화가 지원된다는 것을 보여줍니다.
  • 기본 함수를 고정시키고 G만 업데이트하여 온라인 적응을 입증하고 빠른 작업 모듈화를 가능하게 합니다.
  • 게인 조절 유사성 및 해석가능한 G-공간의 해석성을 논의하는 생물학적 타당성 관점을 제공합니다.

제안 방법

  • Q(s,a,g) 및 정책 mu(s,g)을 공유 게이팅 벡터 G(s,g)로 이차 분해 형태로 표현합니다: Q(s,a,g)=sum_k G_k(s,g) phi_k(s,a) 및 mu(s,g)=sum_k G_k(s,g) Y_k(s).
  • 액터-비평가를 정렬된 그래디언트를 보장하는 공유 게이팅으로 Soft Actor–Critic 프레임워크 내에서 학습합니다.
  • 새 목표 기술자 g*에 대해 하나의 순전파로 조건화하는 제로샷 적응 프로토콜을 사용합니다(베이스 고정).
  • TD/오차 기반 규칙으로 G 만 업데이트하며 베이스를 고정한 채 온라인 적응 규칙을 개발합니다.
  • PCA를 통해 게이팅 다이나믹스를 분석하여 G 구성요소의 해석 가능한 단일 의미성 및 그 행동 영향의 해석 가능성을 보입니다.

실험 결과

연구 질문

  • RQ1공유된 저차원 게이팅 벡터 G가 성능을 유지하면서 actor와 critic 표현의 일관된 결합을 가능하게 할 수 있는가?
  • RQ2쌍선형 공분해가 학습 효율을 개선하고 보지 못한 방향/작업에 대한 빠른 제로샷 적응을 지원하는가?
  • RQ3온라인 적응이 베이스를 재훈련하거나 actor/critic의 그래디언트를 재학습하지 않고 오직 G만 업데이트하는 방식으로 달성될 수 있는가?
  • RQ4게이팅 공간 G가 해석 가능하여 고차원 제어에서 방향과 속도를 제어 가능하게 하는가?
  • RQ5MuJoCo Ant에서 새로운 작업 방향으로 전환할 때 제로샷 일반화 성능은 어떤가?

주요 결과

  • 공유 G를 가진 이차 분해가 학습 효율을 높이고 더 간단한 네트워크에서도 경쟁력 있는 성능을 유지한다.
  • 새로운 방향에 대한 제로샷 적응은 g*로 조건지어 파라미터 업데이트 없이도 경쟁력을 유지한다.
  • 개별 G_k 구성을 조작하면 운동 방향과 속도에 의미론적으로 의미 있는 변화가 발생한다.
  • 온라인 G-공간 업데이트는 베이스가 고정된 상태에서 정책-기울기 업데이트 없이 빠른 행동 적응을 가능하게 한다.
  • 배우와 비평가는 일관되고 상관된 G 인코딩을 발전시키며 통합 제어 인터페이스와 해석 가능한 잠재 공간을 뒷받침한다.
  • 이 프레임워크는 게인 유사 모듈레이션과 구조화된 표현을 통해 빠른 전달에 생물학적으로 타당한 메커니즘을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.