QUICK REVIEW

[논문 리뷰] Off-Policy Evaluation via Off-Policy Classification

Alexander Irpan, Kanishka Rao|arXiv (Cornell University)|2019. 01. 01.

Reinforcement Learning in Robotics인용 수 15

한 줄 요약

이 논문은 희소한 이진 보상이 있는 연속 제어 환경에서 딥 강화 학습을 위한 새로운 오프-폴리시 평가(OPE) 방법을 제안한다. OPE를 환경 모델이나 중요도 샘플링에 의존하지 않고, 양성-무 nhãn(PU) 분류 문제로 재정의함으로써 성능 예측의 정확도를 향상시킨다. 특히 이미지 기반 로봇 조작 작업에서 시뮬레이션에서 실제 환경으로의 전이 시나리오에서 뛰어난 성능을 보인다.

ABSTRACT

In this work, we consider the problem of model selection for deep reinforcement learning (RL) in real-world environments. Typically, the performance of deep RL algorithms is evaluated via on-policy interactions with the target environment. However, comparing models in a real-world environment for the purposes of early stopping or hyperparameter tuning is costly and often practically infeasible. This leads us to examine off-policy policy evaluation (OPE) in such settings. We focus on OPE of value-based methods, which are of particular interest in deep RL with applications like robotics, where off-policy algorithms based on Q-function estimation can often attain better sample complexity than direct policy optimization. Furthermore, existing OPE metrics either rely on a model of the environment, or the use of importance sampling (IS) to correct for the data being off-policy. However, for high-dimensional observations, such as images, models of the environment can be difficult to fit and value-based methods can make IS hard to use or even ill-conditioned, especially when dealing with continuous action spaces. In this paper, we focus on the specific case of MDPs with continuous action spaces and sparse binary rewards, which is representative of many important real-world applications. We propose an alternative metric that relies on neither models nor IS, by framing OPE as a positive-unlabeled (PU) classification problem. We experimentally show that this metric outperforms baselines on a number of tasks. Most importantly, it can reliably predict the relative performance of different policies in a number of generalization scenarios, including the transfer to the real-world of policies trained in simulation for an image-based robotic manipulation task.

연구 동기 및 목표

실제 딥 강화 학습 응용에서 온-폴리시 평가의 높은 비용과 비현실성 문제를 해결하기 위해.
희소한 이진 보상이 존재하는 연속 행동 공간에서 가치 기반 방법에 대한 신뢰할 수 있는 오프-폴리시 평가 지표를 개발하기 위해.
고차원 관측값(예: 이미지)에서 안정적이거나 구현이 어려운 환경 모델이나 중요도 샘플링에 의존하지 않기 위해.
실제 환경 배포 이전에 시뮬레이션에서 효과적인 모델 선택, 하이퍼파ram터 튜닝 및 조기 정지가 가능하도록 하기 위해.
시뮬레이션에서 실제 환경으로 전이되는 로봇 조작 작업에 대한 정책의 일반화 성능 예측을 향상시키기 위해.

제안 방법

모의된 궤적을 양성으로, 나머지를 무 nhãn으로 간주하여 오프-폴리시 평가를 양성-무 nhãn(PU) 분류 문제로 재구성한다.
상태-행동 쌍에서 추출한 특징을 사용하여, 주어진 궤적이 목표 정책에 의해 생성되었을 확률을 추정하는 분류기를 사용한다.
분류기의 성능 향상을 위해 특징 표현의 품질을 향상시키기 위해 대비 학습 대상 목표를 도입하여, 온-폴리시와 오프-폴리시 궤적 간의 구분 능력을 강화한다.
분류를 통한 궤적의 상대적 순위 기반으로 중요도 샘플링이나 환경 모델 피팅을 회피함으로써, 순수하게 궤적 간의 상대적 순위에 의존한다.
온-폴리시 및 오프-폴리시 궤적을 행동 정책에서 수집한 후, 지도 학습에 사용되는 것은 궤적의 상대적 성능 순서 뿐이며, 실제 보상 값은 사용하지 않는다.
최종 OPE 점수는 분류기가 온-폴리시 궤적에 대해 예측한 확률에서 유도되며, 기대 수익의 대체 지표로 기능한다.

실험 결과

연구 질문

RQ1환경 모델이나 중요도 샘플링을 사용하지 않고도 PU 분류 기반 지표가 정책의 상대적 성능을 신뢰성 있게 추정할 수 있는가?
RQ2이러한 방법은 이미지 기반 로봇 조작 작업에서 시뮬레이션에서 실제 환경으로의 전이에 얼마나 잘 일반화되는가?
RQ3고차원적이고 연속적인 제어 환경에서 진정한 온-폴리시 성능과의 상관관계 측면에서 기존의 OPE 기준선보다 우수한가?
RQ4연속 행동 공간에서 희소한 이진 보상과 분포 이탈에 대해 이 방법은 얼마나 강인한가?
RQ5이 방법은 실제 강화 학습 배포 파이프라인에서 효과적인 하이퍼파ram터 튜닝 및 조기 정지를 지원할 수 있는가?

주요 결과

제안된 PU 기반 OPE 방법은 기존 기준선 대비 진정한 온-폴리시 성능과 더 높은 상관관계를 보이며, 특히 이미지 입력과 같은 고차원 관측 환경에서 뛰어난 성능을 발휘한다.
이 방법은 로봇 조작 작업의 시뮬레이션에서 실제 환경으로의 전이와 같은 다양한 일반화 시나리오에서 정책의 상대적 성능을 성공적으로 예측한다.
연속 행동 공간과 희소한 이진 보상 환경에서 모델 기반 및 중요도 샘플링 기반 OPE 방법보다 안정성과 정확도 측면에서 뛰어나다.
분류기 기반 접근법은 분포 이탈에 대해 강인하며, 행동 정책이 목표 정책과 크게 다를 경우에도 신뢰할 수 있는 성능을 유지한다.
이 방법은 시뮬레이션에서 효과적인 모델 선택과 조기 정지를 가능하게 하여, 고비용의 실제 환경 롤아웃이 줄어들게 한다.
실증 결과는 PU 분류 지표가 표기 환경과 연속 제어 환경 모두에서 실제 수익과 강한 상관관계를 보임을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.