QUICK REVIEW

[논문 리뷰] Scalable Bilinear $π$ Learning Using State and Action Features

Yichen Chen, Lihong Li|arXiv (Cornell University)|2018. 04. 27.

Reinforcement Learning in Robotics참고 문헌 29인용 수 22

한 줄 요약

이 논문은 상태 및 행동 특징을 사용하여 가치 함수와 상태-행동 분포를 이차형 모델을 통해 근사하는 스케일러블하고 모델에 의존하지 않는 강화학습 알고리즘인 이차형 π 학습을 제안한다. 이는 벨만 최적화 문제를 해결하는 원-대안 스토하스틱 최적화 프레임워크를 통해 MDP 크기와 무관하게 특징 차원에 대해 선형 표본 복잡도를 가지며 표본 효율적이고 온라인 정책 최적화를 달성한다.

ABSTRACT

Approximate linear programming (ALP) represents one of the major algorithmic families to solve large-scale Markov decision processes (MDP). In this work, we study a primal-dual formulation of the ALP, and develop a scalable, model-free algorithm called bilinear $π$ learning for reinforcement learning when a sampling oracle is provided. This algorithm enjoys a number of advantages. First, it adopts (bi)linear models to represent the high-dimensional value function and state-action distributions, using given state and action features. Its run-time complexity depends on the number of features, not the size of the underlying MDPs. Second, it operates in a fully online fashion without having to store any sample, thus having minimal memory footprint. Third, we prove that it is sample-efficient, solving for the optimal policy to high precision with a sample complexity linear in the dimension of the parameter space.

연구 동기 및 목표

크고 복잡한 상태 공간과 행동 공간을 가진 대규모 MDP에 대해 스케일러블하고 모델에 의존하지 않는 강화학습 알고리즘을 개발한다.
주어진 상태 및 행동 특징과 샘플링 오라클만을 사용하여 효율적인 정책 최적화를 가능하게 한다.
특징 기반의 압축 표현을 활용하여 MDP 크기와 무관하게 낮은 계산 및 메모리 복잡도를 달성한다.
대규모 MDP에서 정책 학습에 대해 표본 효율성과 수렴 보장을 강력하게 제공한다.

제안 방법

벨만 방정식을 바탕으로 정책 최적화를 원-대안 최적화 문제로 공식화한다.
상태 특징 φ(s) ∈ ℝ^D 와 행동 특징 ψ(a) ∈ ℝ^U 를 사용하여 가치 함수와 상태-행동 분포를 이차형 모델로 표현한다.
한 개의 전이만을 처리하는 스토하스틱 원-대안 업데이트를 적용하여 최소한의 메모리로 온라인 학습을 가능하게 한다.
상태-행동 분포를 상태 및 행동 특징의 이차형 함수로 모델링하는 압축된 파rameterization을 도입한다.
근사 선형 프로그래밍(ALLP)의 맥락에서 결합된 원-대안 동역학을 분석하여 수렴 보장을 유도한다.
강력한 이중성 원리를 활용하여 가치 함수와 정책 업데이트를 결합함으로써 안정적이고 효율적인 최적화를 보장한다.

실험 결과

연구 질문

RQ1특징 기반의 압축 표현을 활용하여 정책 최적화의 원-대안 공식화를 스케일러블하고 표본 효율적으로 만들 수 있는가?
RQ2상태 및 행동 특징의 이차형 모델을 어떻게 사용하여 고차원 가치 함수와 상태-행동 분포를 근사할 수 있는가?
RQ3이 방법을 사용할 때 ϵ-최적 정책을 학습하는 데 필요한 표본 복잡도는 얼마이며, 이는 특징 차원에 따라 어떻게 변화하는가?
RQ4대규모 MDP에서 고정밀도 정책 학습을 달성하면서도 낮은 계산 및 메모리 복잡도를 유지할 수 있는가?
RQ5가치 함수 및 상태-행동 분포 모델의 근사 오차는 학습된 정책의 최적성 갭에 어떤 영향을 미치는가?

주요 결과

이차형 π 학습 알고리즘은 ϵ-최적 정책을 찾는 데 O(DU / ϵ²)의 표본 복잡도를 가지며, 특징 차원 D와 U에 대해 선형이다.
알고리즘의 런타임 및 메모리 복잡도는 |S|나 |A|에 의존하지 않고 D와 U에만 의존하므로 대규모 MDP로의 확장이 가능하다.
이 방법은 완전히 온라인이며 과거 샘플의 저장이 필요 없어 최소한의 메모리 사용량을 확보한다.
벨만 원-대안 문제의 해와 진정한 벨만 방정식 사이의 차이는 함수 근사기의 ℓ∞ 및 ℓ1 오차로 제한된다.
실현 가능 케이스(근사 오차가 0인 경우)에서는 원-대안 문제를 푸는 것이 원래의 벨만 방정식을 푸는 것과 동일하다.
다른 많은 ADP 방법이 발산하거나 진동할 수 있는 것과 달리, 이 알고리즘은 유한 표본 속도로 증명 가능한 안정적 수렴을 보장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.