QUICK REVIEW

[논문 리뷰] Multi-Step Greedy and Approximate Real Time Dynamic Programming

Yonathan Efroni, Mohammad Ghavamzadeh|arXiv (Cornell University)|2019. 09. 10.

Reinforcement Learning in Robotics참고 문헌 20인용 수 5

한 줄 요약

이 논문은 샘플 복잡도와 공간 복잡도를 향상시키기 위해 후행 시간 동적 프로그래밍(RTDP)의 다중 스텝 그릿지 확장인 h-RTDP를 소개한다. 후행 시간을 h로 늘림으로써 성능 보장을 유지하면서 샘플 복잡도를 감소시킨다. 이는 더 큰 후행 시간에 대해 샘플 효율성이 증가하는 것으로 입증된 첫 번째 알고리즘이다.

ABSTRACT

Real Time Dynamic Programming (RTDP) is a well-known Dynamic Programming (DP) based algorithm that combines planning and learning to find an optimal policy for an MDP. It is a planning algorithm because it uses the MDP's model (reward and transition functions) to calculate a 1-step greedy policy w.r.t.~an optimistic value function, by which it acts. It is a learning algorithm because it updates its value function only at the states it visits while interacting with the environment. As a result, unlike DP, RTDP does not require uniform access to the state space in each iteration, which makes it particularly appealing when the state space is large and simultaneously updating all the states is not computationally feasible. In this paper, we study a generalized multi-step greedy version of RTDP, which we call $h$-RTDP, in its exact form, as well as in three approximate settings: approximate model, approximate value updates, and approximate state abstraction. We analyze the sample, computation, and space complexities of $h$-RTDP and establish that increasing $h$ improves sample and space complexity, with the cost of additional offline computational operations. For the approximate cases, we prove that the asymptotic performance of $h$-RTDP is the same as that of a corresponding approximate DP -- the best one can hope for without further assumptions on the approximation errors. $h$-RTDP is the first algorithm with a provably improved sample complexity when increasing the lookahead horizon.

연구 동기 및 목표

제한된 상태 액세스 조건에서 기존 RTDP의 높은 샘플 복잡도 문제를 해결하기 위해.
1단계 후행 시간을 초월해 h 단계 후행 시간을 고려한 다중 스텝 그릿지 접근 방식을 도입함으로써 RTDP를 일반화하기 위해.
정확한 설정과 근사 설정에서 샘플 복잡도, 계산 복잡도, 공간 복잡도 간의 상호 교환 관계를 분석하기 위해.
모델 근사, 값 업데이트 근사, 상태 추상화에 대해 h-RTDP의 이론적 보장을 수립하기 위해.
근사 오차에 대한 추가 가정 없이도 근사 설정에서 최선의 점근적 성능을 달성할 수 있도록 하기 위해.

제안 방법

1단계 백업 대신 h단계 그릿지 백업을 사용하는 RTDP의 일반화로 h-RTDP를 제안한다.
방문한 상태에서만 값 함수를 업데이트하여 RTDP의 온라인 학습 성격을 유지한다.
세 가지 근사 변종을 도입한다: 근사 모델, 근사 값 업데이트, 근사 상태 추상화.
샘플, 계산, 공간 복잡도 측면에서 복잡도를 분석하여 h를 증가시킬수록 샘플 복잡도와 공간 복잡도가 감소함을 보여준다.
이론적 분석을 통해 h-RTDP의 점근적 성능이 동일한 가정 하에 최선의 근사 DP와 동일함을 증명한다.
후행 시간 h를 늘릴 때 샘플 복잡도가 증명 가능하게 향상되는 첫 번째 알고리즘이라는 것을 입증한다.

실험 결과

연구 질문

RQ1후행 시간 h를 늘일 경우 RTDP의 샘플 복잡도와 공간 복잡도에 어떤 영향을 미치는가?
RQ2모델 또는 값 함수 근사가 존재하는 상황에서 다중 스텝 그릿지 접근 방식이 근사 DP와 동일한 점근적 성능을 유지할 수 있는가?
RQ3h-RTDP에서 오프라인 계산 비용과 온라인 샘플 효율성 간의 상호 교환 관계는 어떠한가?
RQ4근사 설정에서 h-RTDP는 근사 오차에 대한 추가 가정 없이도 최선의 점근적 성능을 달성하는가?
RQ5h-RTDP는 후행 시간을 늘릴수록 샘플 복잡도를 증명 가능하게 향상시키는 첫 번째 알고리즘인가?

주요 결과

h-RTDP에서 후행 시간 h를 늘릴수록 표준 RTDP에 비해 샘플 복잡도와 공간 복잡도가 모두 감소한다.
오프라인 계산 비용은 h에 따라 증가하지만, 이는 온라인 효율성 향상으로 상쇄된다.
모델, 값 업데이트, 또는 상태 추상화와 같은 근사 설정에서 h-RTDP는 최선의 근사 DP와 동일한 점근적 성능을 달성한다.
후행 시간 h를 늘릴 때 샘플 복잡도가 증명 가능하게 향상되는 첫 번째 알고리즘이다.
이론적 분석을 통해 h-RTDP는 표준 RTDP와 동일한 가정 하에 최적성 보장을 유지하지만, 더 뛰어난 확장성 확보함을 확인했다.
근사 설정에서 알고리즘의 성능은 근사의 질에 의해 제한되지만, 오차에 대한 추가 가정이 필요로 하지 않는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.