QUICK REVIEW

[논문 리뷰] Policy Gradient Methods for Reinforcement Learning with Function Approximation and Action-Dependent Baselines

Philip S. Thomas, Emma Brunskill|arXiv (Cornell University)|2017. 06. 20.

Reinforcement Learning in Robotics참고 문헌 2인용 수 43

한 줄 요약

이 논문은 함수 근사와 함께 강화 학습에서 행동에 의존하는 기준값을 허용하기 위해 정책 기울기 정리의 범위를 확장한다. 여기서 편향이 발생하지 않도록 하기 위해, 호환 가능한 함수 근사기가 잔차(상태-행동 가치와 기준값 간의 차이)를 추정해야 한다는 점을 보여준다. 핵심 기여는 행동에 의존하는 기준값을 사용할 수 있도록 하는 비편향 정책 기울기 추정을 가능하게 하는 수정된 손실 함수이다. 이는 정책 최적화에서 더 효과적인 분산 감소를 가능하게 한다.

ABSTRACT

We show how an action-dependent baseline can be used by the policy gradient theorem using function approximation, originally presented with action-independent baselines by (Sutton et al. 2000).

연구 동기 및 목표

함수 근사와 함께 행동에 의존하는 기준값이 정책 기울기 방법에 도입하는 편향을 해결하기 위해.
기준값이 상태와 행동에 모두 의존하도록 허용함으로써 정책 학습에서 더 효과적인 분산 감소를 가능하게 하기 위해.
행동에 의존하는 기준값을 사용하면서도 정책 기울기 추정의 비편향성을 유지하는 이론적으로 타당한 방법을 개발하기 위해.
함수 근사 목표를 재정의함으로써 정책 기울기 정리를 행동에 의존하는 기준값을 수용할 수 있도록 일반화하기 위해.

제안 방법

함수 근사기 fw(s,a)와 잔차 (qθ(s,a) − b(s,a)) 사이의 제곱 오차를 최소화하는 수정된 손실 함수 ˜L(w)를 제안한다. 이는 qθ(s,a)가 아니라 잔차를 대상으로 한다.
˜L(w)를 최소화하는 최적의 가중치 벡터 ew⋆를 정의하여, 기준값을 뺀 후 잔차를 학습할 수 있도록 보장한다.
w⋆ 대신 ew⋆를 사용하는 새로운 정책 기울기 정리를 유도하며, 기준값 b(s,a)가 행동에 의존할 경우에도 기울기가 비편향이 되도록 보여준다.
정책 기울기를 상태-행동 쌍에 대한 기대값으로 표현하며, 정책 기울기와 (f̃w⋆(s,a) + b(s,a))의 곱으로 나타낸다.
b(s,a)를 전문 지식이나 데이터로부터 추정할 수 있도록 하는 프레임워크를 도입하며, fw(s,a)와 함께 통합된 함수 근사기 ˆqw,x(s,a) = fw(s,a) + bx(s,a)로 조합한다.
행동에 의존하는 기준값을 사용할 경우 정책 기울기 추정에 편향이 발생하지 않도록 보장하는 이론적 조건을 수립한다.

실험 결과

연구 질문

RQ1함수 근사와 함께 행동에 의존하는 기준값을 사용할 경우 비편향이 유지되는가?
RQ2행동에 의존하는 기준값을 사용할 때 비편향 정책 기울기 추정을 유지하기 위해 함수 근사 목표에 어떤 수정이 필요한가?
RQ3상태-행동 가치와 기준값 간의 잔차를 직접 추정하도록 호환 가능한 함수 근사기를 어떻게 재정의할 수 있는가?
RQ4기준값이 상태와 행동에 모두 의존할 경우 정책 기울기의 이론적 형태는 무엇인가?
RQ5기준값을 데이터나 전문 지식으로부터 학습하면서도 정책 기울기의 비편향성을 유지할 수 있는가?

주요 결과

호환 가능한 함수 근사기가 qθ(s,a)가 아니라 (qθ(s,a) − b(s,a))를 추정할 경우, 행동에 의존하는 기준값을 포함한 정책 기울기 정리의 확장이 편향 없이 가능하다.
수정된 손실 ˜L(w)를 최소화하는 최적의 가중치 벡터 ew⋆는 행동에 의존하는 기준값이 존재하더라도 정책 기울기가 비편향임을 보장한다.
정책 기울기는 (f̃w⋆(s,a) + b(s,a))와 정책 기울기의 곱에 대한 기대값으로 표현되며, 원래의 기울기 형태를 유지한다.
행동에 따라 조정되는 기준값을 통해 더 효과적인 분산 감소가 가능해져 정책 학습의 샘플 효율성이 향상된다.
fw(s,a)와 함께 bx(s,a)를 함께 학습할 수 있도록 프레임워크를 제공하여 통합된 함수 근사기 ˆqw,x(s,a)의 엔드 투 엔드 학습을 가능하게 한다.
이론적 기반은 행동에 의존하는 기준값을 활용하는 새로운 알고리즘 설계를 가능하게 하며, 함수 근사를 통한 딥 강화 학습에 응용할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.