QUICK REVIEW

[논문 리뷰] Batch Value-function Approximation with Only Realizability

Tengyang Xie, Nan Jiang|arXiv (Cornell University)|2020. 08. 11.

Reinforcement Learning in Robotics참고 문헌 39인용 수 30

한 줄 요약

이 논문은 BVFT를 통해 realizability하에서 탐색적이고 다항 크기의 데이터로부터 Q*를 학습하기 위한 다항 샘플 복잡도를 달성하는 배치 강화학습 알고리즘을 제시합니다. 후보 가치 함수 간의 쌍대 토너먼트와 부분 구간 상수화 추상화 전략을 사용합니다.

ABSTRACT

We make progress in a long-standing problem of batch reinforcement learning (RL): learning $Q^\star$ from an exploratory and polynomial-sized dataset, using a realizable and otherwise arbitrary function class. In fact, all existing algorithms demand function-approximation assumptions stronger than realizability, and the mounting negative evidence has led to a conjecture that sample-efficient learning is impossible in this setting (Chen and Jiang, 2019). Our algorithm, BVFT, breaks the hardness conjecture (albeit under a stronger notion of exploratory data) via a tournament procedure that reduces the learning problem to pairwise comparison, and solves the latter with the help of a state-action partition constructed from the compared functions. We also discuss how BVFT can be applied to model selection among other extensions and open problems.

연구 동기 및 목표

실현 가능성(realizability) 아래 배치 RL에서 다항 샘플 복잡도를 가능하게 하는 최소 함수 근사 가정을 결정한다.
더 강한 함수 근사 가정 없이 exploratory 배치 데이터에서 Q*를 학습하는 알고리즘을 개발한다.
부분 구간 상수 추상화와 토너먼트 메커니즘을 통해 구조화되지 않은 함수 클래스에서도 다항 샘플 분석 프레임워크를 제공한다.
모델 선택 및 가정 완화와 같은 확장에 대해 논의하고 한계점을 분석한다.

제안 방법

Candidate 함수의 출력을 이산화하여 부분 구간 상수 초집합을 형성하는 Batch Value-Function Tournament (BVFT)를 도입한다.
함수들이 상수인 상태-행동 공간의 분할을 구성하여 L-무한대 노름에서 감마 수축을 갖는 투영 벨만 연산자를 가능하게 한다.
이산화된 투영 벨만 업데이트를 기반으로 데이터 의존 통계치를 사용하여 모든 후보 함수 간의 쌍대 비교를 수행한다.
모든 쌍대 비교를 견뎌낸 함수가 학습된 q-함수로 출력되어 그리디 정책을 산출한다.
Assumption 1(탐색적 데이터로 인한 수렴 가능성 계수를 통한) 다항 샘플 경계를 제공한다.
|F|가 큰 경우 계산 비효율성에도 불구하고 모델 선택 및 기타 확장에 대해 이 접근법을 확장할 수 있음을 논의한다.

실험 결과

연구 질문

RQ1실현 가능성만으로도 배치 RL에서 다항 크기의 데이터 집합 하에 Q*를 학습할 수 있는가?
RQ2강하지 않은 근사 가정 없이 실현 가능하되 임의의 함수 클래스를 활용하여 Q*를 식별할 수 있는가?
RQ3함수 클래스의 부분 구간 상수 증가를 사용할 때 근접 최적 정책의 샘플 복잡도는 어떠한가?
RQ4BVFT의 한계는 무엇이며 이를 모델 선택 및 다른 문제들로 확장하거나 완화할 수 있는가?

주요 결과

BVFT는 Assumption 1 하에서 다항 샘플 학습 보장을 달성하고, 높은 확률로 근사 최적 정책을 산출한다.
출력을 이산화하고 부분 구간 상수 클래스에서 투영 벨만 연산자를 사용함으로써 학습을 쌍대 비교로 축소한다.
제로 이산화 오차 하에서 부분 구간 상수 추상화는 투영 벨만 연산자를 감마 수축으로 만들고 고유 고정점이 Q*에 해당한다.
함수 클래스의 근사 오차를 epsilon_F 항으로 처리하고 이 realizability 격차를 포함하는 경계를 제공한다.
BVFT는 전체 함수 클래스를 열거하며 클래스 크기가 다항일 때 실행 가능하며 모델 선택에 사용할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.