Skip to main content
QUICK REVIEW

[논문 리뷰] Critic Regularized Regression

Ziyu Wang, Alexander Novikov|arXiv (Cornell University)|2020. 06. 26.
Reinforcement Learning in Robotics참고 문헌 34인용 수 90
한 줄 요약

CRR은 학습된 비평가를 사용하여 행동을 필터링하고 고정된 데이터셋에서 정책 학습을 안내하는 오프라인 강화학습 알고리즘으로, 다양한 고차원 작업에서 여러 최첨단 오프라인 RL 방법을 능가합니다.

ABSTRACT

Offline reinforcement learning (RL), also known as batch RL, offers the prospect of policy optimization from large pre-recorded datasets without online environment interaction. It addresses challenges with regard to the cost of data collection and safety, both of which are particularly pertinent to real-world applications of RL. Unfortunately, most off-policy algorithms perform poorly when learning from a fixed dataset. In this paper, we propose a novel offline RL algorithm to learn policies from data using a form of critic-regularized regression (CRR). We find that CRR performs surprisingly well and scales to tasks with high-dimensional state and action spaces -- outperforming several state-of-the-art offline RL algorithms by a significant margin on a wide range of benchmark tasks.

연구 동기 및 목표

  • 데이터 수집 비용과 안전성 문제를 해결하기 위해 고정된 오프라인 데이터셋에서 정책 학습을 촉진한다.
  • 표준 actor-critic 프레임워크와 호환되는 간단하고 구현 가능한 오프라인 RL 방법을 개발한다.
  • 학습된 비평가를 통해 행동을 필터링하여 외삽 및 과대평가 문제를 완화한다.
  • CRR이 고차원 상태/행동 공간과 다양한 데이터 품질에 확장될 수 있음을 보인다.

제안 방법

  • 정책 학습을 현재 정책보다 Q-value가 더 우수하지 않은 데이터 행동에 대해 정책이 학습되는 비평가-필터링 회귀로 형식화한다.
  • Q로 증가하는 음수 아닌 필터 f를 사용하여 분포al Q-함수와 함께 데이터-지원 행동에 정책 업데이트를 제한한다.
  • 추정된 이점(advantage)을 기반으로 이진 가중치 및 지수 가중치를 포함한 다양한 필터링 함수 f를 탐색한다.
  • 딥 네트워크, 타깃 네트워크, 분포형 크리틱으로 CRR을 구현하여 학습을 안정화한다.
  • 테스트 시 행동의 재가중치를 통해 Q-value로 행동 선택을 개선하는 Critic Weighted Policy(CWP)를 도입한다.
  • CRR 업데이트를 위한 알고리즘적 절차(Algorithm 1)를 제공하고 지수 가중치(Eq. 4)가 단순 BC 유사 필터링보다 갖는 이점을 논의한다.

실험 결과

연구 질문

  • RQ1CRR이 오프라인 RL에서의 잘못된 Q 추정치를 피하기 위해 정책 업데이트를 오프라인 데이터셋의 지지에 효과적으로 제한할 수 있는가?
  • RQ2다양한 advantage 추정치와 필터링 함수가 오프라인 RL에서 성능에 어떤 영향을 미치는가?
  • RQ3CRR이 고차원 상태/행동 공간과 다양한 데이터 품질에 확장될 수 있는가?
  • RQ4표준 CRR에 비해 테스트 시점 성능에 Critic Weighted Policy(CWP)가 어떤 영향을 미치는가?

주요 결과

  • CRR은 광범위한 벤치마크 과제에서 여러 최첨단 오프라인 RL 알고리즘을 능가한다.
  • CRR은 고차원 상태 및 행동 공간에 확장되며 다양한 또는 저품질 데이터 세트를 처리한다.
  • 다양한 CRR 변형(exp, binary, binary max)은 다양한 과제에서 견고하게 작동하며, 일부 변형은 더 쉽거나 더 어려운 도메인에서 우수하다.
  • CWP는 도메인에 걸쳐 테스트 시점에 일반적으로 CRR 성능을 향상시킨다.
  • CRR은 도전적인 조작 및 보행 작업에서 자주 D4PG, BCQ, ABM 및 행동 클로닝을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.