QUICK REVIEW

[논문 리뷰] A Geometric Perspective on Optimal Representations for Reinforcement Learning

Marc G. Bellemare, Will Dabney|arXiv (Cornell University)|2019. 01. 31.

Reinforcement Learning in Robotics참고 문헌 72인용 수 26

한 줄 요약

이 논문은 정적 정책의 모든 가치 함수에 걸쳐 근사 오차를 최소화하는 방식으로 강화학습에서 최적의 표현 학습을 위한 기하학적 프레임워크를 제안한다. 이는 네트워크 흐름 최적화를 기반으로 유도된 극단적 가치 함수인 적대적 가치 함수(Adversarial Value Functions, AVFs)가 표현 학습을 위한 핵심 부분임을 규명하며, 보조 과제로 AVFs를 예측하는 것이 더 우수하고 구조적인 표현을 얻는 데 기여함을 실험적으로 검증한다. 이는 사각형 방 네 개로 이루어진 격자 세계에서 검증되었다.

ABSTRACT

We propose a new perspective on representation learning in reinforcement learning based on geometric properties of the space of value functions. We leverage this perspective to provide formal evidence regarding the usefulness of value functions as auxiliary tasks. Our formulation considers adapting the representation to minimize the (linear) approximation of the value function of all stationary policies for a given environment. We show that this optimization reduces to making accurate predictions regarding a special class of value functions which we call adversarial value functions (AVFs). We demonstrate that using value functions as auxiliary tasks corresponds to an expected-error relaxation of our formulation, with AVFs a natural candidate, and identify a close relationship with proto-value functions (Mahadevan, 2005). We highlight characteristics of AVFs and their usefulness as auxiliary tasks in a series of experiments on the four-room domain.

연구 동기 및 목표

값 함수 공간의 기하학적 성질을 통해 강화학습에서 표현 학습을 공식화한다.
최적의 표현 품질을 결정짓는 최소한의 핵심 값 함수 집합인 적대적 가치 함수(Adversarial Value Functions, AVFs)를 규명한다.
최적의 표현 학습 공식화의 완화를 통해 가치 함수 예측을 보조 과제로 사용하는 것을 정당화한다.
AVFs가 무작위나 표준 가치 함수보다 더 풍부하고 구조적인 표현을 제공함을 실험적으로 검증한다.

제안 방법

주어진 MDP에서 정적 정책의 모든 가치 함수에 걸쳐 선형 근사 오차를 최소화하는 방식으로 최적의 표현 학습을 공식화한다.
가장 나쁜 경우의 근사 오차가 네트워크 흐름 최적화 기반의 이면 함수 δ에 기반한 적대적 가치 함수(AVFs)에 해당함을 도출한다.
AVFs가 자연스러운 목표가 되는 바, 가치 함수 예측을 보조 과제로 사용하는 것이 최적의 표현 문제의 완화임을 보여준다.
주성분 분석을 통해 AVFs의 주성분을 이용해 상태 표현을 생성하고, 프로토-가치 함수 및 무작위 정책과 비교한다.
기울기 기반 최적화를 사용해 딥 네트워크를 통해 AVFs를 예측하고, 하류 정책 성능을 통해 표현 품질을 평가한다.
학습 안정성과 분산 감소를 위해 의사역행렬 스케일링과 반복 업데이트를 적용한다.

실험 결과

연구 질문

RQ1최적의 표현 품질을 결정짓는 가치 함수 공간의 기하학적 구조는 무엇인가?
RQ2표현 학습에서 가장 나쁜 경우의 근사 오차를 포괄하는 가치 함수의 부분집합은 무엇인가?
RQ3적대적 가치 함수를 예측하는 것이 다른 보조 과제와 비교해 어떻게 더 구조적인 표현을 학습하는가?
RQ4AVFs는 강화학습에서 표현 학습을 위한 원칙적이고 이론적으로 타당한 보조 과제로 기능할 수 있는가?

주요 결과

적대적 가치 함수(Adversarial Value Functions, AVFs)는 표현 학습에서 가장 나쁜 경우의 근사 오차를 결정짓는 핵심 가치 함수 집합이다.
AVFs는 이면 함수 δ에 기반한 네트워크 흐름 최적화를 통해 유도되며, 각 상태에서 기대 수익을 극대화하거나 극소화하는 결정적 정책에 해당한다.
AVFs의 주성분 분석을 통해 학습된 표현은 네 방 격자 환경에서 장거리 구조를 잘 포착하며, 무작위 정책이나 프로토-가치 함수로부터 얻은 표현보다 뛰어난 성능을 보인다.
딥 네트워크를 통해 AVFs를 보조 과제로 예측하는 것은 하류 정책 성능을 향상시키며, 수렴 속도가 빠르고 분산이 낮다.
샘플 크기와 관계없이 AVF 기반 표현은 안정적인 구조를 보이며, 작은 AVF 집합(20~1000개)에서도 안정된 구조가 나타난다.
AVFs는 가치 예측을 보조 과제로 사용하는 것에 대해 원칙적이고 이론적으로 타당한 근거를 제공하며, 최적 표현 문제와 연결한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.