[논문 리뷰] On Reward-Free Reinforcement Learning with Linear Function Approximation
이 논문은 선형 함수 근사를 사용하는 보상-없는 강화학습을 분석하고, 선형 MDP에서 다항 상한을, 선형 Q*에서 지수 하한을 입증하며, 모델 기반과 가치 기반 가정 간의 명시적 난이도 분리를 제시한다.
Reward-free reinforcement learning (RL) is a framework which is suitable for both the batch RL setting and the setting where there are many reward functions of interest. During the exploration phase, an agent collects samples without using a pre-specified reward function. After the exploration phase, a reward function is given, and the agent uses samples collected during the exploration phase to compute a near-optimal policy. Jin et al. [2020] showed that in the tabular setting, the agent only needs to collect polynomial number of samples (in terms of the number states, the number of actions, and the planning horizon) for reward-free RL. However, in practice, the number of states and actions can be large, and thus function approximation schemes are required for generalization. In this work, we give both positive and negative results for reward-free RL with linear function approximation. We give an algorithm for reward-free RL in the linear Markov decision process setting where both the transition and the reward admit linear representations. The sample complexity of our algorithm is polynomial in the feature dimension and the planning horizon, and is completely independent of the number of states and actions. We further give an exponential lower bound for reward-free RL in the setting where only the optimal $Q$-function admits a linear representation. Our results imply several interesting exponential separations on the sample complexity of reward-free RL.
연구 동기 및 목표
- 선형 함수 근사를 사용하는 보상 무 RL이 입증 가능한 효율성을 달성할 수 있는지 조사한다.
- 두 가지 모델링 가정(선형 MDP와 선형 Q*) 하에서 샘플 복잡도를 특성화한다.
- 함수 근사를 사용하는 보상 무 RL의 한계를 이해하기 위한 난이도 결과를 탐구한다.
- 보상 무 RL에서 모델 기반과 가치 기반 설정 간의 분리에 대한 통찰을 제공한다.
제안 방법
- 선형 MDP에서 보상 무 RL용 알고리즘을 제안하고, 탐색 기간 동안 \u00071/\u0000B(d^3 H^6 / \u00028 \u0000B^2) 궤적들을 수집한다.
- 탐색 단계에서 탐색 주도형 상한 신뢰 구간 보너스(UCB 보너스)를 사용하여 탐색 보상을 구성한다.
- Q-함수를 추정하고 낙관적 가치 함수를 도출하기 위해 최소자승 가치 반복(LSVI)을 활용한다.
- 계획 단계는 데이터 세트를 이용하여 관찰된 전이의 균일한 커버링과 낙관적 Q-함수를 갖춘 배치 RL을 수행한다.
- 농도 추정 주장과 타원 포텐셜 보조정리(ellliptical potential lemma)을 통해 낙관적 계획의 보장을 증명한다.
- 선형 Q* 가정하에서 보상 무 RL의 하한을 보이고 탐색에서 지수적 샘플 복잡도를 보인다.
실험 결과
연구 질문
- RQ1선형 MDP 가정 하에서 선형 함수 근사를 사용하는 보상 무 RL이 효율적으로 해결될 수 있는가?
- RQ2오직 Q*만 선형인 선형 Q* 설정에서의 보상 무 RL의 샘플 복잡도는 무엇이며, 이를 선형 MDP 설정과 어떻게 비교되는가?
- RQ3약한 가정하에서의 난이도 결과가 존재하는가, 모델 기반과 가치 기반 설정 사이에 지수적 분리가 발생하는가?
- RQ4제너레이티브 모델을 포함한 시뮬레이터의 존재가 보상 무 RL의 샘플 복잡도에 미치는 영향은 표준 RL 모델과 비교해 어떤 차이가 있는가?
- RQ5선형 함수 근사 하에서 보상 무 RL과 표준 RL 사이에 어떤 개념적 분리가 나타나는가?
주요 결과
- 선형 MDP 하에서 보상 무 RL은 다항 탐색 복잡도인 ㅂrom source: O(d^3 H^6 / \u0015^2) 궤적을 달성하여, 계획에서 임의의 보상 함수에 대해 고확률로 \u0015-최적 정책을 산출한다.
- 탐색 주도형 보상 함수 r_h^k를 u_h^k / H로 구성하여 불확실한 상태-행동 쌍 방문을 유인한다.
- 오직 Q*만 선형(선형 Q*)인 경우, 어떤 보상 무 RL 알고리즘도 근사적 최적 계획을 보장하기 위해 탐색에서 지수적인 샘플이 필요하며, 결정론적 MDP에서도 마찬가지이다.
- 선형 Q* 가정하에 보상 무 RL과 표준 RL 사이에 지수적 분리가 존재하며, 표준 RL은 충분한 조건에서 다항 계획을 달성할 수 있다.
- 시뮬레이터(제너레이티브 모델)가 있는 경우, 선형 Q* 하에서 다항 상한이 있으며, 시뮬레이터와 비시뮬레이터 설정 간의 지수적 분리를 나타낸다.
- 결과는 같은 함수 근사 체계에서 보상 무 RL이 표준 RL보다 지수적으로 더 어려울 수 있으며, 시뮬레이터가 샘플 복잡도를 크게 낮출 수 있음을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.