Skip to main content
QUICK REVIEW

[논문 리뷰] Hyperbolic Discounting and Learning over Multiple Horizons

William Fedus, Carles Gelada|arXiv (Cornell University)|2019. 02. 19.
Mathematical and Theoretical Analysis참고 문헌 67인용 수 52
한 줄 요약

논문은 강화 학습에서 지수적으로 할인된 Q-값을 다수의 시야(horizons)에서 합산하여 실용적인 방법으로 하이퍼볼릭(비지수) 할인 구현하고, 다중 시야 학습이 보조 과제로서 성능을 향상시킨다는 사실을 보여준다.

ABSTRACT

Reinforcement learning (RL) typically defines a discount factor as part of the Markov Decision Process. The discount factor values future rewards by an exponential scheme that leads to theoretical convergence guarantees of the Bellman equation. However, evidence from psychology, economics and neuroscience suggests that humans and animals instead have hyperbolic time-preferences. In this work we revisit the fundamentals of discounting in RL and bridge this disconnect by implementing an RL agent that acts via hyperbolic discounting. We demonstrate that a simple approach approximates hyperbolic discount functions while still using familiar temporal-difference learning techniques in RL. Additionally, and independent of hyperbolic discounting, we make a surprising discovery that simultaneously learning value functions over multiple time-horizons is an effective auxiliary task which often improves over a strong value-based RL agent, Rainbow.

연구 동기 및 목표

  • RL에서 단일 지수 할인 사용을 의문시하고, 실증적 하이퍼볼릭 할인과 일치하는 시간 선호 모델을 고무한다.
  • TD-학습 내에서 지수 할인들의 적분으로 하이퍼볼릭 할인 지불을 근사할 수 있음을 보인다.
  • 다중-시야 Q-함수를 통해 하이퍼볼릭 Q-값을 계산하는 실제적이고 심층 학습 기반의 접근 방식을 제시한다.
  • hazard-prior(위험률 사전)와 할인 함수 간의 등가성 및 위험 기반 해석을 조사한다.
  • 복잡한 환경에서 기본 RL 에이전트를 향상시키기 위한 다중-시야 보조 과제의 잠재력을 평가한다.

제안 방법

  • 위험과 할인 함수의 등가성을 형식화하여 할인(discounting)을 위험에 대한 강건성으로 정당화한다.
  • 감마 값의 연속체에 걸친 지수 Q-값들의 적분으로 하이퍼볼릭 Q-값을 도출한다.
  • 유한한 감마 값 집합과 리만 합과 유사한 가중치를 사용한 실용적 근사를 제안한다.
  • 다양한 감마로 할인되지만 매개변수를 공유하는 여러 Q-값을 학습하는 데 심층 네트워크를 사용한다.
  • 지수 가중 조건을 확립하여 하이퍼볼릭 할인뿐만 아니라 일반화를 가능하게 한다.
  • Pathworld 및 ALE에서 이 접근법을 적용하여 성능 향상과 보조 과제의 이점을 평가한다.

실험 결과

연구 질문

  • RQ1표준 TD-학습에서 지수 할인 값을 집계하여 하이퍼볼릭 및 기타 비지수 할인들이 계산될 수 있는가?
  • RQ2다양한 시야에 걸쳐 여러 Q-값을 학습하는 것이 Rainbow와 같은 강력한 베이스라인을 넘어서는 유익한 보조 과제로 작용하는가?
  • RQ3위험 불확실성이나 비자명한 시차 간 거래에서 하이퍼볼릭 할인은 언제 유리한가?
  • RQ4MDP에서 hazard priors와 할인 함수 간의 등가성은 무엇이며, 이것이 강건한 정책 학습을 어떻게 이끄는가?
  • RQ5고차원 RL 도메인에서 유한 시한 감마 근사가 하이퍼볼릭 할인링을 얼마나 잘 포착하는가?

주요 결과

  • 하이퍼볼릭 할인은 지수 할인들의 적분으로 계산될 수 있어 TD 방법이 비지수적 선호를 근사하게 한다.
  • 적절한 가중치를 결합한 유한한 지수 할인 Q-값 집합은 실제로 하이퍼볼릭 Q-값을 근사할 수 있다.
  • 다양한 시야에 걸쳐 여러 Q-값을 학습하는 것은 효과적인 보조 과제로 작용하여 ALE에서 강력한 베이스라인 대비 성능을 향상시킨다.
  • Pathworld 환경은 위험 불확실성과 비자명한 시차 간 선택에서 하이퍼볼릭 할인의 이점을 보여준다.
  • Hazard priors는 특정 할인 함수에 대응하며, RL에서 위험 모델링과 할인 간의 원칙적 연결을 제공한다.
  • 이 접근 방식은 환경이 불확실한 위험과 보상 실현 위험을 나타낼 때 강건한 정책을 산출한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.