QUICK REVIEW

[論文レビュー] Regularized Gradient Temporal-Difference Learning

Hyunjun Na, Donghwan Lee|arXiv (Cornell University)|Jan 28, 2026

Reinforcement Learning in Robotics被引用数 0

ひとこと要約

この論文は、特徴間相互作用行列が特異であっても収束を保証する正則化されたGTD（R-GTD）を提案する。明示的な誤差境界と経験的検証を含む正則化鞍点方程式。

ABSTRACT

Gradient temporal-difference (GTD) learning algorithms are widely used for off-policy policy evaluation with function approximation. However, existing convergence analyses rely on the restrictive assumption that the so-called feature interaction matrix (FIM) is nonsingular. In practice, the FIM can become singular and leads to instability or degraded performance. In this paper, we propose a regularized optimization objective by reformulating the mean-square projected Bellman error (MSPBE) minimization. This formulation naturally yields a regularized GTD algorithms, referred to as R-GTD, which guarantees convergence to a unique solution even when the FIM is singular. We establish theoretical convergence guarantees and explicit error bounds for the proposed method, and validate its effectiveness through empirical experiments.

研究の動機と目的

特異な特徴間相互作用の下でGTD系メソッドの安定性と収束性を動機づける。
well-definedな鞍点問題を生み出す正則化 MSPBE ベースの目的関数を導入する。
特異および非特異な設定の両方でR-GTDの理論的保証（収束と誤差境界）を提供する。
FIMが特異な場合におけるR-GTDの経験的ロバスト性を示し、GTD2と比較する。

提案手法

MSPBEを二次項を加えて正則化し、制約にスラック変数wを導入して正則化された最小–最大問題を形成する。
正則化パラメータcが大きくなるにつれてR-GTDがGTD2へ縮退することを示す閉形式の最適解を導出する。
オフポリシーデータと重要度サンプリングに対する原始–双対勾配ダイナミクス（PDGD）更新とその確率的変分を開発する。
既存のPDGD結果を用いて連続時間PDGDの収束を確立し、ODE法を用いて離散時間アルゴリズムの収束を証明する。
R-GTDアルゴリズム（Algorithm 1）を形成するθ, w, λの明示的な更新規則を提供する。
c→∞ のときFIMが非特異ならR-GTDがGTD2に収束し、特異でも定義を維持することを示す。

Figure 1 : As $c\to\infty$ , the R-GTD solution $\theta_{\mathrm{RGTD}}$ converges to the GTD2 solution $\theta_{\mathrm{GTD2}}$ . $\theta_{\mathrm{GTD2}}$ decomposes uniquely into two components: $v\in\mathrm{Null}(G)$ along the null space of $G$ , and $v_{\perp}\in\mathrm{Null}(G)^{\perp}$ orthogo

実験結果

リサーチクエスチョン

RQ1GTD2においてFIMの非特異性仮定を正則化により不要にできるか？
RQ2正則化された定式化は特異なFIM条件下で収束保証と有限サンプル類似の誤差境界をもたらすか？
RQ3R-GTD解は真の投影解とどのように関連し、正則化パラメータcはこの関係にどのような影響を及ぼすか？
RQ4特異なFIMの下で関数近似を用いたオフポリシー評価はR-GTD使用時にGTD2と比較して安定性を保つか？
RQ5現実的な実装におけるスラック変数wの導入とc正則化項の理論的・実務的含意は何か？

主な発見

R-GTDはFIM非特異性を要せず一意な鞍点へ収束を提供する。
R-GTDは明示的なバイアス項を導入し、cが大きくなると消える。非特異な場合にはGTD2を回復する。
cが増加するにつれてR-GTD解はGTD2解へ、またはFIMが特異な場合にはGTD2解集合内の投影へ近づく。
理論的成果には連続時間PDGDの収束保証と真の投影解への明示的誤差境界が含まれる。
経験的にはR-GTDは特異FIM領域でGTD2が不安定な場合に安定収束を示す。
無制約再表現（問題6）は安定性分析を補助し、MSPBE正則化との関連を示す。

Figure 2 : Solution trajectory of the closed-form $\theta_{\mathrm{RGTD}}$ in a two-dimensional singular case toy example. As the regularization parameter $c$ increases, the $\theta_{\mathrm{RGTD}}$ converges to the $\theta_{\mathrm{GTD2}}$ .

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。