QUICK REVIEW

[논문 리뷰] Behavior Proximal Policy Optimization

Zifeng Zhuang, Kun Lei|arXiv (Cornell University)|2023. 02. 22.

Reinforcement Learning in Robotics인용 수 8

한 줄 요약

BPPO는 추가 제약 없이 PPO 기반의 간단한 온-폴리시와 유사한 방법으로 오프라인 강화 학습을 해결할 수 있음을 보여주며, 오프라인 데이터를 통해 행동 정책을 단조롭게 개선함으로써 D4RL에서 강력한 결과를 달성합니다.

ABSTRACT

Offline reinforcement learning (RL) is a challenging setting where existing off-policy actor-critic methods perform poorly due to the overestimation of out-of-distribution state-action pairs. Thus, various additional augmentations are proposed to keep the learned policy close to the offline dataset (or the behavior policy). In this work, starting from the analysis of offline monotonic policy improvement, we get a surprising finding that some online on-policy algorithms are naturally able to solve offline RL. Specifically, the inherent conservatism of these on-policy algorithms is exactly what the offline RL method needs to overcome the overestimation. Based on this, we propose Behavior Proximal Policy Optimization (BPPO), which solves offline RL without any extra constraint or regularization introduced compared to PPO. Extensive experiments on the D4RL benchmark indicate this extremely succinct method outperforms state-of-the-art offline RL algorithms. Our implementation is available at https://github.com/Dragon-Zhuang/BPPO.

연구 동기 및 목표

오프라인 데이터를 사용하여 행동 정책의 단조로운 개선으로 오프라인 RL의 동기를 부여한다.
온라인 온-폴리시 알고리즘(예: PPO)이 추가 제약 없이 자연스럽게 오프라인 RL을 해결할 수 있음을 보인다.
오프라인 데이터에 의존하면서 PPO를 닮은 간단한 오프라인 알고리즘 BPPO를 제안한다.
Gym, Adroit, Kitchen, Antmaze를 포함한 D4RL 벤치마크에서 강력한 실험적 성능을 입증한다.

제안 방법

Performance Difference Theorem를 이용하여 오프라인 단조 정책 개선을 형식화한다.
온라인 상태 분포를 오프라인 데이터셋 분포로 대체하여 PPO를 닮은 실용적인 BPPO 목표를 도출한다.
업데이트된 정책과 현재 정책 사이의 발산 제약을 부과하여 단조로운 개선을 보장하고, 클리핑된 대리 손실을 통해 구현한다.
현재 정책으로 오프라인 데이터 기반의 어드밴티지를 재가중하기 위해 중요 샘플링을 사용한다.
행동 정책에 연결된 오프-policy Q 및 V 추정치를 사용하여 이점 A_pi_k를 근사하고 계산한다.
제어된 업데이트를 허용하면서 학습된 정책을 행동 정책에 고정시키기 위해 clip 비율 감소를 포함한다.

실험 결과

연구 질문

RQ1명시적 정규화 없이도 온라인 온-폴리시 알고리즘이 오프라인 RL에서 단조로운 개선을 달성할 수 있는가?
RQ2PPO 유사한 BPPO 접근법이 표준 오프라인 RL 벤치마크에서 우수하거나 경쟁력 있는 성능을 내는가?
RQ3실제로 BPPO가 한 단계 및 반복/오프-policy 오프라인 방법들과 어떻게 비교되는가?
RQ4어드밴티지 추정, 클립 스케줄링과 같은 구현 선택이 오프라인 설정에서 BPPO의 효과에 어떤 영향을 미치는가?

주요 결과

BPPO는 D4RL 벤치마크에서 최첨단 오프라인 RL 방법들과 경쟁적이거나 우수한 성능을 달성한다.
BPPO는 Behavior Cloning 기준선보다 현저히 개선되며 Adroit와 Kitchen 작업에서 강력한 결과를 보인다.
실험 결과 BPPO가 종종 Onestep RL보다 우수하며 여러 작업에서 반복적/오프-정책 방법들과 경쟁력 있거나 더 낫다.
오프라인 데이터에서 PPO 유사 손실을 통해 단조로운 개선을 도입하면 PPO에 있는 추가 정규화 항을 넘지 않고도 강력한 성능을 얻는다.
클립 비율 감소와 신중한 어드밴티지 추정은 안정적인 BPPO 성능에 중요하다.
BPPO는 Antmaze와 같은 희소 보상 작업에서 강력한 성능을 보여 여러 기초 방법들보다 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.