Skip to main content
QUICK REVIEW

[논문 리뷰] Deep Reinforcement Learning with Attention for Slate Markov Decision Processes with High-Dimensional States and Actions

Peter Sunehag, Evans, Richard|arXiv (Cornell University)|2015. 12. 03.
Reinforcement Learning in Robotics참고 문헌 13인용 수 32
한 줄 요약

이 논문은 고차원 상태 및 행동 공간을 가진 슬레이트 마르코프 결정 과정(slate-MDPs)을 위한 딥 강화학습 프레임워크를 제안한다. 이 프레임워크는 어텐션 메커니즘과 위험 선호 학습을 활용하여 행동의 조합을 최적화한다. 순차적이고 조합적인 가치를 함께 모델링함으로써, 최대 2000차원의 행동을 가진 추천 시스템에서 기존의 기준보다 뛰어난 성능을 보인다.

ABSTRACT

Many real-world problems come with action spaces represented as feature vectors. Although high-dimensional control is a largely unsolved problem, there has recently been progress for modest dimensionalities. Here we report on a successful attempt at addressing problems of dimensionality as high as $2000$, of a particular form. Motivated by important applications such as recommendation systems that do not fit the standard reinforcement learning frameworks, we introduce Slate Markov Decision Processes (slate-MDPs). A Slate-MDP is an MDP with a combinatorial action space consisting of slates (tuples) of primitive actions of which one is executed in an underlying MDP. The agent does not control the choice of this executed action and the action might not even be from the slate, e.g., for recommendation systems for which all recommendations can be ignored. We use deep Q-learning based on feature representations of both the state and action to learn the value of whole slates. Unlike existing methods, we optimize for both the combinatorial and sequential aspects of our tasks. The new agent's superiority over agents that either ignore the combinatorial or sequential long-term value aspect is demonstrated on a range of environments with dynamics from a real-world recommendation system. Further, we use deep deterministic policy gradients to learn a policy that for each position of the slate, guides attention towards the part of the action space in which the value is the highest and we only evaluate actions in this area. The attention is used within a sequentially greedy procedure leveraging submodularity. Finally, we show how introducing risk-seeking can dramatically improve the agents performance and ability to discover more far reaching strategies.

연구 동기 및 목표

  • 실제 응용 분야인 추천 시스템과 같이 고차원 조합적 행동 공간에서의 강화학습 문제를 다루기.
  • 슬레이트에서 유일하게 실행되는 행동이 하나뿐인 슬레이트 마르코프 결정 과정(slate-MDPs)을 정식화하여 전체 슬레이트를 최적화하도록 하는 것.
  • 행동를 독립적으로 다루거나 모든 슬레이트를 완전히 평가하는 방식으로 한계를 가지는 표준 RL 에이전트의 한계를 극복하기.
  • 전체 열거 없이도 높은 가치를 가진 행동 영역에 집중할 수 있도록 어텐션과 딥 Q-학습을 활용한 확장 가능한 방법 개발.
  • 보상 변환을 통해 위험 선호 학습(risk-seeking training)을 도입함으로써 장기적이고 높은 보상을 얻는 전략을 탐색할 수 있도록 하는 것.

제안 방법

  • 에이전트가 슬레이트(순서가 지정된 행동의 튜플)를 선택하지만 환경에서 유일하게 실행되는 행동이 하나뿐인 문제를 위한 형식적 프레임워크로 슬레이트-MDPs를 제안한다.
  • 상태와 행동의 특징 표현을 기반으로, 어텐션을 활용한 딥 Q-네트워크를 사용하여 전체 슬레이트의 가치를 학습한다.
  • 하나의 행동 부분집합에 대해 평가를 집중하기 위해 어텐션을 활용한 순차적 탐욕 절차를 구현하며, 효율성을 위해 하위모듈라리티(submodularity)를 활용한다.
  • 행동 공간의 높은 가치 영역을 향해 어텐션을 유도하기 위해 딥 디터민리스틱 정책 기반 강화학습(DDPG)을 사용해 파rameterized 정책 네트워크를 훈련한다.
  • 프로스펙트 이론을 영감으로 삼아 보상을 $ r^\alpha $ 형태로 변환함으로써 위험 선호 행동을 도입하며, 이는 고분산·고수익 경로 탐색을 장려한다.
  • 계산 비용을 줄이면서도 성능을 유지하기 위해 근접 이웃 검색과 제한된 후보 집합에 대한 가치 함수 평가를 결합한다.

실험 결과

연구 질문

  • RQ1행동 공간이 최대 2000차원인 슬레이트-MDPs에서, 슬레이트에서 유일하게 실행되는 행동 하나만을 고려할 때 딥 강화학습이 효과적으로 최적화할 수 있는가?
  • RQ2조합적 슬레이트 환경에서 어텐션 기반 가치 함수 근사가 독립적인 행동 가치 추정보다 우월한가?
  • RQ3어텐션과 디터민리스틱 정책 기반 강화학습에 의해 유도된 정책 네트워크는 전체 열거 없이도 높은 가치를 가진 행동 부분집합에 효율적으로 집중할 수 있는가?
  • RQ4보상 변환 $ r^\alpha $를 통한 위험 선호 학습이 표준 학습보다 장기적인 최적 전략을 발견하는 데 도움이 되는가?
  • RQ5다양한 슬레이트 크기와 행동 공간 차원에서 전체 슬레이트 에이전트의 성능이 단순한 상위-K 기준보다 어떻게 다를까?

주요 결과

  • 모든 슬레이트 크기와 행동 공간 차원에서 전체 슬레이트 에이전트는 단순한 상위-K 기준보다 뚜렷하게 뛰어난 성능을 보이며, 슬레이트 크기가 커질수록 그 격차가 더 커진다.
  • 슬레이트 크기가 1인 경우 전체 슬레이트 에이전트와 상위-K 에이전트가 동일해지며, 모든 행동이 평가되기 때문에 이 경우 기준과 동치임을 확인한다.
  • 후보 행동의 10%만 평가하는 에이전트가 모든 행동을 평가하는 에이전트와 거의 동일한 성능을 보이며, 어텐션 기반 정제의 효과를 입증한다.
  • 근접 이웃 에이전트는 다소 낮은 성능과 더 높은 변동성을 보이지만, 더 높은 변동성 덕분에 탐색 능력이 뛰어나 특정 시나리오에서는 다른 에이전트를 능가한다.
  • $ \alpha > 1 $인 위험 선호 학습은 가장 큰 환경(N=13138)에서 놀라운 성능 향상을 가져오며, 최적의 단기적 정책을 초월한다.
  • N=13138 환경에서 위험 선호 학습을 적용한 에이전트는 표준 학습보다 훨씬 높은 장기 보상을 달성하며, 비단기적 탐색의 가치를 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.