QUICK REVIEW

[논문 리뷰] Regularized Off-Policy TD-Learning

Bo 博 Liu 刘, Sridhar Mahadevan|arXiv (Cornell University)|2020. 06. 06.

Stochastic Gradient Optimization Techniques참고 문헌 21인용 수 19

한 줄 요약

이 논문은 저비용의 계산 복잡도로 희소한 가치 함수 표현을 달성하는 새로운 $l_1$-정규화된 비정책 시간차 학습 알고리즘인 RO-TD를 제안한다. 비정책 TD 문제를 볼록-볼록 최소-최대 문제의 확률적 최적화 문제로 재구성함으로써, RO-TD는 1차 최적화 방법과 효과적인 특징 선택을 가능하게 하면서도 비정책 수렴성을 유지한다.

ABSTRACT

We present a novel $l_1$ regularized off-policy convergent TD-learning method (termed RO-TD), which is able to learn sparse representations of value functions with low computational complexity. The algorithmic framework underlying RO-TD integrates two key ideas: off-policy convergent gradient TD methods, such as TDC, and a convex-concave saddle-point formulation of non-smooth convex optimization, which enables first-order solvers and feature selection using online convex regularization. A detailed theoretical and experimental analysis of RO-TD is presented. A variety of experiments are presented to illustrate the off-policy convergence, sparse feature selection capability and low computational cost of the RO-TD algorithm.

연구 동기 및 목표

낮은 계산 비용으로 비정책 시간차 학습에서 희소한 가치 함수 표현을 학습하는 데 도전하는 문제를 해결한다.
이차 최적화 방법에 의존하지 않고 $l_1$ 정규화를 통한 특징 선택을 통합한 수렴 가능한 비정책 강화학습 알고리즘을 개발한다.
1차 최적화 기법을 활용하여 비정책 수렴성과 가치 함수 근사에서의 희소성 간 격차를 메운다.
TDC 스타일의 비정책 학습과 온라인 볼록 정규화를 조합하여 고차원 특징 공간에서 확장 가능한 강화학습을 가능하게 한다.
볼록 최적화와 확률적 1차 최적화 방법을 사용하여 정규화되고 수렴 가능한 비정책 강화학습의 통합 프레임워크를 제공한다.

제안 방법

TDC 알고리즘의 선형 방정식 설정을 활용하여 비정책 TD 학습 문제를 볼록-볼록 최소-최대 확률적 근사 문제로 재구성한다.
결과로 생긴 비미분 볼록 최적화 문제를 해결하기 위해 프록실 기반 경사법을 적용하여 $l_1$ 정규화와 특징 선택을 가능하게 한다.
온라인 볼록 정규화를 사용하여 특징 표현이 희소한 가치 함수 추정치를 점진적으로 갱신한다.
이중 설정을 통해 TDC 알고리즘의 이중 시간 척도 업데이트 규칙과 $l_1$ 정규화를 통합함으로써 비정책 수렴성을 보장한다.
최소-최대 문제의 설정을 활용하여 특징 수와 샘플 수에 대해 선형적으로 확장 가능한 1차 최적화 방법을 가능하게 한다.
희소성와 수렴성 간 균형을 맞추기 위해 정규화 파라미터 $\rho_1$와 $\rho_2$를 조정하며, $\rho_2$는 TDC 보정 항의 영향력을 조절한다.

실험 결과

연구 질문

RQ1$l_1$ 정규화가 비정책 TD 학습에 효과적으로 통합될 수 있는가, 수렴성이 유지되는가?
RQ2제안된 RO-TD 알고리즘이 샘플 효율성 또는 계산 확장성의 손실 없이 희소한 특징 선택을 달성할 수 있는가?
RQ3최적화 문제의 최소-최대 설정이 비정책 환경에서 1차, 저비용 학습을 가능하게 하는가?
RQ4기존 방법들인 TDC, LARS-TD, $l_2$ LSTD와 비교하여 RO-TD의 경험적 성능은 수렴성과 희소성 측면에서 어떻게 되는가?
RQ5노이즈가 많거나 관련이 없는 특징이 있는 고차원, 과도제어된 제어 과제에서 RO-TD는 기존 방법을 능가할 수 있는가?

주요 결과

그리드 월드 과제에서 RO-TD는 20회의 시행 모두에서 100% 성공률를 기록했으며, TDC와 TD는 완전히 실패했다.
트리플링크 역퍼레드 펜듈럼 과제에서 RO-GQ($\lambda$)는 평균 6.9 ± 4.82회 시도 만에 성공했고, GQ($\lambda$)는 11.3 ± 9.58회, LARS-TD는 낮은 샘플 품질로 인해 실패했다.
그리드 월드 과제에서 RO-TD는 수렴까지 평균 147.40 ± 13.31단계를 기록했으며, LARS-TD(142.25 ± 9.74)와는 약간 높았지만, 비정책 수렴성과 희소성을 보장했다.
알고리즘의 계산 복잡도는 $O(Nd)$로, $p$가 $d$에 대해 부분선형일 경우 LARS-TD의 $O(Ndp^3)$보다 현저히 낮다.
$\rho_2$ 조정을 통해 TD와 TDC 행동 사이의 보간이 가능하며, 큰 $\rho_2$ 값은 TDC 보정 항의 영향을 감소시켜 업데이트를 표준 TD와 유사하게 만든다.
트리플링크 펜듈럼에서의 두 실험 모두에서 RO-GQ($\lambda$)는 GQ($\lambda$)를 능가했으며, 고차원 비선형 영역에서의 강건성과 확장성의 우수함을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.