QUICK REVIEW

[논문 리뷰] Regularized Gradient Temporal-Difference Learning

Hyunjun Na, Donghwan Lee|arXiv (Cornell University)|2026. 01. 28.

Reinforcement Learning in Robotics인용 수 0

한 줄 요약

본 논문은 Regularized GTD (R-GTD)를 제시합니다. 이는 피처 상호작용 행렬이 특이하더라도 수렴을 보장하는 규제된 saddle-point 형식이며, 명시적 오차 바운드와 실험적 검증을 제공합니다.

ABSTRACT

Gradient temporal-difference (GTD) learning algorithms are widely used for off-policy policy evaluation with function approximation. However, existing convergence analyses rely on the restrictive assumption that the so-called feature interaction matrix (FIM) is nonsingular. In practice, the FIM can become singular and leads to instability or degraded performance. In this paper, we propose a regularized optimization objective by reformulating the mean-square projected Bellman error (MSPBE) minimization. This formulation naturally yields a regularized GTD algorithms, referred to as R-GTD, which guarantees convergence to a unique solution even when the FIM is singular. We establish theoretical convergence guarantees and explicit error bounds for the proposed method, and validate its effectiveness through empirical experiments.

연구 동기 및 목표

싱글 피처 상호작용에서의 GTD-계열 방법의 안정성 및 수렴성 동기화.
제한된 MSPBE 기반의 규제된 목적함수를 도입하여 잘 정의된 saddle-point 문제를 형성.
R-GTD에 대한 이론적 보장(수렴성과 오차 상한)을 특이적 및 비특이적 설정 모두에 대해 제공합니다.
FIM이 특이한 경우에도 R-GTD의 경험적 강건성 시연 및 GTD2와의 비교를 수행합니다.

제안 방법

제약 조건에 제곱항을 추가하고 제약식에 슬랙 변수 w를 도입하여 규제된 최소-최대 문제를 형성하고 MSPBE를 정규화합니다.
규제 매개변수 c가 커질 때 R-GTD가 GTD2로 축소되는 방법을 보이는 닫힌 형태의 최적해를 유도합니다.
오프 폴리시 데이터와 중요도 샘플링에 대한 프라이멀-듀얼 그래디언트 다이나믹스(PDGD) 업데이트와 그 확률적 변형을 개발합니다.
연속 시간 PDGD의 수렴성을 기존 PDGD 결과를 사용해 확립하고, ODE 방법을 통해 이산 시간 알고리즘의 수렴을 증명합니다.
R-GTD 알고리즘(알고리즘 1)을 형성하는 θ, w, λ에 대한 명시적 업데이트 규칙을 제공합니다.
c→∞일 때 FIM이 비특이인 경우 GTD2로 수렴하고 특이인 경우에도 여전히 정의된다는 것을 보입니다.

Figure 1 : As $c\to\infty$ , the R-GTD solution $\theta_{\mathrm{RGTD}}$ converges to the GTD2 solution $\theta_{\mathrm{GTD2}}$ . $\theta_{\mathrm{GTD2}}$ decomposes uniquely into two components: $v\in\mathrm{Null}(G)$ along the null space of $G$ , and $v_{\perp}\in\mathrm{Null}(G)^{\perp}$ orthogo

실험 결과

연구 질문

RQ1GTD2에서 피처 상호작용 행렬(FIM)의 비특이성 가정의 필요를 규제화가 제거할 수 있는가?
RQ2특이한 FIM 조건에서 규제화된 형식이 수렴 보장 및 유한-샘플 유사 오차 상한을 제공하는가?
RQ3R-GTD 해가 실제 투영된 해와 어떤 관계가 있으며, 규제 매개변수 c가 이 관계에 어떤 영향을 미치는가?
RQ4특이한 FIM에서의 함수를 통한 평가가 R-GTD를 사용할 때 GTD2에 비해 안정성을 유지하는가?
RQ5실무에서 슬랙 변수 w와 c-규제 항을 도입하는 것의 이론적 및 실증적 시사점은 무엇인가?

주요 결과

R-GTD는 FIM 비특이성을 필요로 하지 않고도 고유한 saddle point로의 수렴을 보장합니다.
R-GTD는 c가 커질수록 명시적 바이어스 항을 도입하며, 비특이 경우 GTD2를 회복시키는 방향으로 작동합니다.
c가 증가함에 따라 R-GTD 해는 GTD2 해 또는 FIM이 특이인 경우 GTD2 해 집합 내의 투영에 근접합니다.
이론적 결과로 연속 시간 PDGD의 수렴 보장과 진정한 투영 해에 대한 명시적 오차 상한이 포함됩니다.
경험적 결과에서 R-GTD는 특이-FIM 영역에서 GTD2가 불안정한 경우에도 안정적으로 수렴합니다.
무제약 재구성화(문제 6)는 안정성 분석에 기여하고 MSPBE 규제와 연계됩니다.

Figure 2 : Solution trajectory of the closed-form $\theta_{\mathrm{RGTD}}$ in a two-dimensional singular case toy example. As the regularization parameter $c$ increases, the $\theta_{\mathrm{RGTD}}$ converges to the $\theta_{\mathrm{GTD2}}$ .

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.