QUICK REVIEW

[논문 리뷰] Keep Doing What Worked: Behavioral Modelling Priors for Offline Reinforcement Learning

Noah Siegel, Jost Tobias Springenberg|arXiv (Cornell University)|2020. 02. 19.

Reinforcement Learning in Robotics참고 문헌 33인용 수 48

한 줄 요약

본 논문은 offline 강화학습을 안정시키기 위해 데이터에서 현재 과제에 성공할 가능성이 높은 행동에 편향되도록 정책을 유도하는 advantage-weighted behavior model (ABM) 프라이어를 도입하여 이종 데이터 소스로부터 안정적 학습을 가능하게 한다.

ABSTRACT

Off-policy reinforcement learning algorithms promise to be applicable in settings where only a fixed data-set (batch) of environment interactions is available and no new experience can be acquired. This property makes these algorithms appealing for real world problems such as robot control. In practice, however, standard off-policy algorithms fail in the batch setting for continuous control. In this paper, we propose a simple solution to this problem. It admits the use of data generated by arbitrary behavior policies and uses a learned prior -- the advantage-weighted behavior model (ABM) -- to bias the RL policy towards actions that have previously been executed and are likely to be successful on the new task. Our method can be seen as an extension of recent work on batch-RL that enables stable learning from conflicting data-sources. We find improvements on competitive baselines in a variety of RL tasks -- including standard continuous control benchmarks and multi-task learning for simulated and real-world robots.

연구 동기 및 목표

온라인 상호작용이 불가능하거나 비용이 큰 상황에서 고정 배치 데이터로부터 학습하려는 동기.
데이터가 지원하지 않는 행동을 피하면서 임의의 행동 데이터를 활용하는 방법을 개발.
학습된 데이터 기반 프라이어에 가까운 업데이트를 제한하여 정책 개선의 안정성을 확보.
연속 제어 벤치마크 및 다중 작업 로봇 작업에서의 안정성 및 성능 향상을 입증.

제안 방법

정책이 학습된 프라이어에 가깝게 유지되도록 제약하에 정책을 개선하는 정책 반복 프레임워크를 제안.
데이터-지원적이고 과제-관련한 행동을 강조하는 간단한 행동 모델(BM) 또는 ABM으로 프라이어 정책을 학습.
V 타깃에 대해 현재 정책으로 TD 오차 최소화를 통해 Q를 평가하되 오프라인 설정에서 액션 최대화(max-over-actions)를 피함.
정책 개선 단계에서 프라이어에 대해 KL 제약을 갖고 기대 Q를 최대화: Eτ[ Ea~π(a|s)[Q̂πi(s,a)] ] subject to KL(π(·|s) || π_prior(·|s)) ≤ ε.
선택적으로 EM 스타일 최적화(MPO에서 영감을 받은) 또는 확률적 가치 그래디언트 최적화를 구현하여 제약된 목적함수를 풀이.
ABM 목적함수는 그 실현된 이점 R(τt:N) − V̂πi(st)의 함수로 데이터 스니펫의 가중치를 매겨 유익한 행동에 집중하되 데이터 지원 범위를 벗어나지 않도록 한다.

실험 결과

연구 질문

RQ1적응형이고 데이터 기반의 프라이어가 혼합된 행동 데이터와 다중 작업에서 오프라인 RL의 안정화를 가능하게 할 수 있는가?
RQ2정책 개선을 학습된 프라이어로 제약하는 것이 고정 배치 RL에서 과대추정 및 외삽 오류를 방지하는가?
RQ3이점 가중 프라이어(ABM)가 충돌하는 데이터나 다모달 데이터를 처리하는 데 단순한 행동 모델 프라이어에 비해 어떠한가?
RQ4오프라인 데이터에서 로봇 조작의 다중 작업 학습 및 전이를 달성할 수 있는가?
RQ5오프라인 데이터와 함께 정책 반복 체계를 사용할 때 정책 평가 단계가 학습의 안정화를 충분히 보장하는가?

주요 결과

ABM 프라이어는 배치 데이터에서의 안정적 학습을 가능하게 하고 강력한 오프라인 기준선과 비교하여 연속 제어 벤치마크에서 성능을 향상시킨다.
BM 프라이어는 간단한 도메인에서 도움이 되지만 ABM은 Hopper와 Quadruped 작업에서 보이는 충돌하는 데이터와 다모달 행동을 더 잘 처리한다.
ABM-강화 방법은 컨트롤-슈트(task)에서 BEAR 및 BCQ 기준선에 대해 경쟁력 있거나 우수한 결과를 달성하며 시뮬레이션에서 다중 작업 로봇 조작에도 적용된다.
ABM+MPO가 관련 궤적 데이터를 포함하는 새로운 작업을 학습하고 로그 데이터로부터 Sawyer 로봇의 7개 작업을 재학습하는 데 걸리는 시간 감소를 보여준다.
오프라인 MPO와 함께 ABM을 사용하면 시뮬레이션 및 실제 로봇 실험 모두에서 다중 작업 학습과 데이터 기반 작업 전이가 가능해진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.