Skip to main content
QUICK REVIEW

[논문 리뷰] Batch Value-function Approximation with Only Realizability

Tengyang Xie, Nan Jiang|arXiv (Cornell University)|2020. 08. 11.
Reinforcement Learning in Robotics참고 문헌 39인용 수 30
한 줄 요약

이 논문은 BVFT를 통해 realizability하에서 탐색적이고 다항 크기의 데이터로부터 Q*를 학습하기 위한 다항 샘플 복잡도를 달성하는 배치 강화학습 알고리즘을 제시합니다. 후보 가치 함수 간의 쌍대 토너먼트와 부분 구간 상수화 추상화 전략을 사용합니다.

ABSTRACT

We make progress in a long-standing problem of batch reinforcement learning (RL): learning $Q^\star$ from an exploratory and polynomial-sized dataset, using a realizable and otherwise arbitrary function class. In fact, all existing algorithms demand function-approximation assumptions stronger than realizability, and the mounting negative evidence has led to a conjecture that sample-efficient learning is impossible in this setting (Chen and Jiang, 2019). Our algorithm, BVFT, breaks the hardness conjecture (albeit under a stronger notion of exploratory data) via a tournament procedure that reduces the learning problem to pairwise comparison, and solves the latter with the help of a state-action partition constructed from the compared functions. We also discuss how BVFT can be applied to model selection among other extensions and open problems.

연구 동기 및 목표

  • 실현 가능성(realizability) 아래 배치 RL에서 다항 샘플 복잡도를 가능하게 하는 최소 함수 근사 가정을 결정한다.
  • 더 강한 함수 근사 가정 없이 exploratory 배치 데이터에서 Q*를 학습하는 알고리즘을 개발한다.
  • 부분 구간 상수 추상화와 토너먼트 메커니즘을 통해 구조화되지 않은 함수 클래스에서도 다항 샘플 분석 프레임워크를 제공한다.
  • 모델 선택 및 가정 완화와 같은 확장에 대해 논의하고 한계점을 분석한다.

제안 방법

  • Candidate 함수의 출력을 이산화하여 부분 구간 상수 초집합을 형성하는 Batch Value-Function Tournament (BVFT)를 도입한다.
  • 함수들이 상수인 상태-행동 공간의 분할을 구성하여 L-무한대 노름에서 감마 수축을 갖는 투영 벨만 연산자를 가능하게 한다.
  • 이산화된 투영 벨만 업데이트를 기반으로 데이터 의존 통계치를 사용하여 모든 후보 함수 간의 쌍대 비교를 수행한다.
  • 모든 쌍대 비교를 견뎌낸 함수가 학습된 q-함수로 출력되어 그리디 정책을 산출한다.
  • Assumption 1(탐색적 데이터로 인한 수렴 가능성 계수를 통한) 다항 샘플 경계를 제공한다.
  • |F|가 큰 경우 계산 비효율성에도 불구하고 모델 선택 및 기타 확장에 대해 이 접근법을 확장할 수 있음을 논의한다.

실험 결과

연구 질문

  • RQ1실현 가능성만으로도 배치 RL에서 다항 크기의 데이터 집합 하에 Q*를 학습할 수 있는가?
  • RQ2강하지 않은 근사 가정 없이 실현 가능하되 임의의 함수 클래스를 활용하여 Q*를 식별할 수 있는가?
  • RQ3함수 클래스의 부분 구간 상수 증가를 사용할 때 근접 최적 정책의 샘플 복잡도는 어떠한가?
  • RQ4BVFT의 한계는 무엇이며 이를 모델 선택 및 다른 문제들로 확장하거나 완화할 수 있는가?

주요 결과

  • BVFT는 Assumption 1 하에서 다항 샘플 학습 보장을 달성하고, 높은 확률로 근사 최적 정책을 산출한다.
  • 출력을 이산화하고 부분 구간 상수 클래스에서 투영 벨만 연산자를 사용함으로써 학습을 쌍대 비교로 축소한다.
  • 제로 이산화 오차 하에서 부분 구간 상수 추상화는 투영 벨만 연산자를 감마 수축으로 만들고 고유 고정점이 Q*에 해당한다.
  • 함수 클래스의 근사 오차를 epsilon_F 항으로 처리하고 이 realizability 격차를 포함하는 경계를 제공한다.
  • BVFT는 전체 함수 클래스를 열거하며 클래스 크기가 다항일 때 실행 가능하며 모델 선택에 사용할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.