QUICK REVIEW

[논문 리뷰] True Online Temporal-Difference Learning

Harm van Seijen, A. Rupam Mahmood|arXiv (Cornell University)|2015. 12. 13.

Reinforcement Learning in Robotics참고 문헌 18인용 수 56

한 줄 요약

이 논문은 표준 TD(λ) 업데이트를 두 가지 핵심 변경 사항으로 수정함으로써 매 시간 단계에서 전방 시각(TD(λ))와 정확한 등가성을 유지하는 새로운 알고리즘인 True Online Temporal-Difference Learning을 소개한다. 무작위 마르코프 보상 과정, 뇌전도 신호 기반 인공 팔, 아케이드 환경 등 다양한 환경에서의 실험 결과, True Online TD(λ)와 Sarsa(λ)는 표준 버전보다 학습 속도가 빠르며 성능 저하 없이도 유지를 하며, 누적형과 대체형 추적 간의 선택이 필요 없어진다.

ABSTRACT

The temporal-difference methods TD($λ$) and Sarsa($λ$) form a core part of modern reinforcement learning. Their appeal comes from their good performance, low computational cost, and their simple interpretation, given by their forward view. Recently, new versions of these methods were introduced, called true online TD($λ$) and true online Sarsa($λ$), respectively (van Seijen & Sutton, 2014). These new versions maintain an exact equivalence with the forward view at all times, whereas the traditional versions only approximate it for small step-sizes. We hypothesize that these true online methods not only have better theoretical properties, but also dominate the regular methods empirically. In this article, we put this hypothesis to the test by performing an extensive empirical comparison. Specifically, we compare the performance of true online TD($λ$)/Sarsa($λ$) with regular TD($λ$)/Sarsa($λ$) on random MRPs, a real-world myoelectric prosthetic arm, and a domain from the Arcade Learning Environment. We use linear function approximation with tabular, binary, and non-binary features. Our results suggest that the true online methods indeed dominate the regular methods. Across all domains/representations the learning speed of the true online methods are often better, but never worse than that of the regular methods. An additional advantage is that no choice between traces has to be made for the true online methods. Besides the empirical results, we provide an in-depth analysis of the theory behind true online temporal-difference learning. In addition, we show that new true online temporal-difference methods can be derived by making changes to the online forward view and then rewriting the update equations.

연구 동기 및 목표

표준 TD(λ)와 Sarsa(λ)의 이론적·실험적 한계를 해결하기 위해, 이는 작고 비례하는 단계 크기의 극한에서만 전방 시각을 근사할 뿐이기 때문이다.
모든 시간 단계에서 전방 시각과 정확한 등가성을 유지하는 방법을 개발하여 편향-분산 트레이드오프를 완전히 제어할 수 있도록 보장하기 위해.
True Online TD(λ)의 향상된 이론적 성질이 다양한 도메인과 함수 근사 설정에서 뛰어난 성능으로 이어지는지 실증적으로 평가하기 위해.
저자들이 주장한 바와 같이, 누적형과 대체형 유사도 추적 간의 선택이 필요 없어지며, 실용적 구현이 단순화됨을 보여주기 위해.

제안 방법

시간이 지남에 따라 점진적으로 증가하는 유한한 λ-리턴의 형태로 전방 시각을 기반으로 한 새로운 온라인 전방 시각을 도입하여 온라인 업데이트를 가능하게 한다.
이 온라인 전방 시각에서 직접 True Online TD(λ) 업데이트 식을 유도함으로써 매 단계에서 정확한 등가성을 확보한다.
유사도 추적을 사용하여 현재 및 이전 가중치 벡터 투영 간의 차이를 기반으로 한 보정 항을 포함시켜 표준 TD(λ) 업데이트를 수정한다.
다음과 같은 재귀적 업데이트를 통해 유사도 추적을 유지한다: $\mathbf{e}_t = \gamma\lambda\mathbf{e}_{t-1} + \bm{\phi}_t - \alpha\gamma\lambda(\mathbf{e}_{t-1}^\top\bm{\phi}_t)\bm{\phi}_t$, 이는 정확한 온라인 계산을 가능하게 한다.
제어 작업을 위한 True Online Sarsa(λ)를 유사한 유도 프레임워크를 사용하여 유도함으로써 비정책 학습에서 전방 시각 등가성을 보장한다.
표본, 이진, 비이진 특징을 포함한 선형 함수 근사를 사용하여 표현 유형 간의 일반화 성능을 평가한다.

실험 결과

연구 질문

RQ1True Online TD(λ)는 다양한 환경과 함수 근사 체계에서 표준 TD(λ)보다 더 빠른 학습 속도를 달성하는가?
RQ2표준 단계 크기가 매우 작지 않은 경우에도 True Online TD(λ)는 매 시간 단계에서 전방 시각과 정확한 등가성을 유지하는가?
RQ3저자들이 주장한 바와 같이, 이 방법은 누적형과 대체형 추적 간의 선택이 필요 없어지는가?
RQ4제어 작업에서 True Online Sarsa(λ)는 표준 Sarsa(λ)보다 학습 속도와 성능 면에서 어떻게 비교되는가?
RQ5제안된 온라인 전방 시각 프레임워크는 다른 진정한 온라인 시간차 학습 알고리즘을 도출하는 데 일반화될 수 있는가?

주요 결과

True Online TD(λ)는 랜덤 MRPs, 뇌전도 기반 인공 팔, 아케이드 환경을 포함한 모든 테스트 도메인에서 표준 TD(λ)보다 빠른 학습 속도를 지속적으로 달성한다.
모든 테스트 환경과 표현 유형(표본, 이진, 비이진 특징)에서 True Online TD(λ)는 표준 TD(λ)보다 성능이 열 劣하지 않으며, 수렴 속도 면에서 뚜렷하게 뛰어나다.
표준 TD(λ)가 작은 단계 크기의 극한에서만 이 등가성을 근사하는 데 반해, 이 방법은 중간 크기의 단계 크기에서도 매 시간 단계에서 전방 시각과 정확한 등가성을 달성한다.
특히 인공 팔 및 아케이드 환경과 같은 제어 작업에서, True Online Sarsa(λ)는 누적형과 대체형 추적을 모두 사용한 표준 Sarsa(λ)보다 뛰어난 성능을 보인다.
유도 과정이 온라인 전방 시각에서 유래하므로, 업데이트 규칙이 자연스럽게 두 경우를 모두 처리함으로써 누적형과 대체형 추적 간의 선택이 필요 없어진다.
다양한 파라미터(k=10, k=100, b=3, b=10, σ=0.1, σ=0)를 가진 랜덤 MRPs에서의 실험 결과는 소음 수준과 복잡성 수준이 다른 상황에서도 진정한 온라인 방법의 일관된 슈퍼리오리티를 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.