QUICK REVIEW

[論文レビュー] Structuring Value Representations via Geometric Coherence in Markov Decision Processes

Zuyuan Zhang, Zeyu Fang|arXiv (Cornell University)|Feb 3, 2026

Reinforcement Learning in Robotics被引用数 0

ひとこと要約

この論文は、価値学習を強化学習 (RL) の「超部分顺序（super-poset） refinements の連続学習」と再定義し、幾何的一貫性を保証することで対称性と部分順序制約を正規化するソフトおよびハード強制法を用い、収束性の理論保証と経験的利得を提供する。

ABSTRACT

Geometric properties can be leveraged to stabilize and speed reinforcement learning. Existing examples include encoding symmetry structure, geometry-aware data augmentation, and enforcing structural restrictions. In this paper, we take a novel view of RL through the lens of order theory and recast value function estimates into learning a desired poset (partially ordered set). We propose \emph{GCR-RL} (Geometric Coherence Regularized Reinforcement Learning) that computes a sequence of super-poset refinements -- by refining posets in previous steps and learning additional order relationships from temporal difference signals -- thus ensuring geometric coherence across the sequence of posets underpinning the learned value functions. Two novel algorithms by Q-learning and by actor--critic are developed to efficiently realize these super-poset refinements. Their theoretical properties and convergence rates are analyzed. We empirically evaluate GCR-RL in a range of tasks and demonstrate significant improvements in sample efficiency and stable performance over strong baselines.

研究の動機と目的

状態–行動ペア上の poset として価値推定をモデル化することで価値学習の順序論的視点を提案する。
TD 信号を介して幾何的一貫性を維持しつつ poset を段階的に refinement する GCR-RL を開発する。
対称性と順序制約に対するソフトな強制機構とハードな強制機構を理論保証と共に導入する。
グリッド、MiniGrid、Atari、非推移鎖タスクに対する収束分析と経験的評価を提供する。
基準法と比較してサンプル効率、安定性、Bellman残差の低減を示す。

提案手法

価値学習を対称性で分解された要素 X/∼ に対する超ポセット refinements の列の構築として表現する。
対称性モジュールを用いて近似自同形を学習し、Eq(G) をソフトに強制して分散を低減する。
TD ターゲットからの DAG による TD 主導の部分順序を構築し、微分可能な等尺化投影を Mono(D) へブートストラップする。
二つの強制モードを提供する：(i) ソフト整合正則化として L_sym と L_ord の損失を組み合わせる；(ii) ハード多様体強制として更新を制約付き実現集合 M へ射影する。
単調な refinement を証明（定理 4.6）、自動同形性の識別性（定理 4.7–4.9）、収束速度 O(sqrt(R(N)/N)) を示す（定理 4.10）。
任意でグループパラメータ閉包機構を実装し、三段階の射影/閉包/整列プロセスを介して対称性制約を維持する。

(a) RotMirror-Grid (E1): symmetry with controlled breaking

実験結果

リサーチクエスチョン

RQ1RL における価値学習を、最適な行動構造を反映した状態–行動ペアの poset として再表現できるか。
RQ2TD 信号をどのように用いて poset を幾何的一貫性と反対称性を確保しつつ段階的に refine できるか。
RQ3ソフト（正則化）とハード（射影）による対称性・順序制約の強制戦略は、RL の安定性とサンプル効率を改善するか。
RQ4標準的な RL 仮定の下で、GCR-RL の理論的保証（収束、分散削減、識別性）は何か。
RQ5グリッド、MiniGrid、Atari、非推移タスクの経験的結果は、サンプル効率と安定性で強力な基準法より改善を示すか。

主な発見

GCR-RL は、タスク全体で強力な基準法に対してサンプル効率と安定した性能の著しい改善をもたらす。
一連の超ポセット refinements を学習することで、学習された価値関数の幾何的一貫性を支える。
学習済みの対称性モジュールと微分可能な順序整列によるソフト強制は分散を低減し、収束を速める。
バッチごとの多様体射影によるハード強制は有効な poset を維持し、収束保証を提供する。
理論結果には単調 refinement、自動同形性の識別性、ベルマン残差の削減、および収束速度 O(sqrt(R(N)/N)) が含まれる。
グリッド、Minigrid、Atari、非推移チェーンタスクでの経験的評価は、安定性向上とベルマン残差の低減を示す。

(b) Noisy-RPS Chain (E4): local non-transitive cycles under noise

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。