QUICK REVIEW

[論文レビュー] Manifold-Constrained Energy-Based Transition Models for Offline Reinforcement Learning

Zeyu Fang, Zuyuan Zhang|arXiv (Cornell University)|Feb 2, 2026

Model Reduction and Neural Networks被引用数 0

ひとこと要約

MC-ETM は多様体認識型エネルギーベース転移モデルを学習し、悲観的ペナルティを伴うエネルギーガイド付き切り捨てを用いてオフライン RL のポリシー学習を改善します。特に分布シフトと不連続なダイナミクスの下で効果を発揮します。

ABSTRACT

Model-based offline reinforcement learning is brittle under distribution shift: policy improvement drives rollouts into state--action regions weakly supported by the dataset, where compounding model error yields severe value overestimation. We propose Manifold-Constrained Energy-based Transition Models (MC-ETM), which train conditional energy-based transition models using a manifold projection--diffusion negative sampler. MC-ETM learns a latent manifold of next states and generates near-manifold hard negatives by perturbing latent codes and running Langevin dynamics in latent space with the learned conditional energy, sharpening the energy landscape around the dataset support and improving sensitivity to subtle out-of-distribution deviations. For policy optimization, the learned energy provides a single reliability signal: rollouts are truncated when the minimum energy over sampled next states exceeds a threshold, and Bellman backups are stabilized via pessimistic penalties based on Q-value-level dispersion across energy-guided samples. We formalize MC-ETM through a hybrid pessimistic MDP formulation and derive a conservative performance bound separating in-support evaluation error from truncation risk. Empirically, MC-ETM improves multi-step dynamics fidelity and yields higher normalized returns on standard offline control benchmarks, particularly under irregular dynamics and sparse data coverage.

研究の動機と目的

分布シフト下でロールアウトが十分にサポートされていない領域を訪れることで生じるモデルベースのオフライン RL の頑健性の問題に対処する。
データセット境界近傍を鋭くする幾何学的に配慮したエネルギーを用いた転移学習を導入する。
学習したエネルギーを信頼性シグナルとして利用し、ロールアウトを切り捨てるとともに悲観的Q値ペナルティを適用する。
サポート内評価誤差と切り捨てリスクを区別する保守的な性能境界を持つ理論保証を提供する。
特に不規則なダイナミクスとスパースデータでの標準オフラインベンチマークにおいて、ダイナミクス忠実度とリターンの改善を実証する。

提案手法

次状態の潜在多様体を学習するためのManifold Projection-Diffusion (MPD) を導入する。
潜在摂動とLangevinダイナミクスを用いて近似多様体近傍のハードネガティブを生成する条件付きエネルギー転移を訓練する。
エネルギー E_theta(s,a,s') を信頼性シグナルとして用い、min_s' E_theta(s,a,s') が閾値 delta を超える場合にロールアウトを切り捨てる。
エネルギーガイド付きサンプル間のQ値分散に基づく悲観的ペナルティでBellmanバックアップを安定化させる。
サポート内誤差と切り捨てリスクを分離する保守的な性能境界を持つハイブリッドな悲観的MDPとして approaches を形式化する。
エネルギー制約付き演算子とその性能境界の理論分析を提供する。

Figure 1 : An illustrative example on fitting a discontinuous transition function.

実験結果

リサーチクエスチョン

RQ1 manifold-aware Negative sampling はオフライン RL のエネルギー転移モデリングを改善するか？
RQ2MC-ETM は特に不規則なダイナミクスとスパースカバレッジ下でダイナミクス忠実度とリターンを改善するか？
RQ3エネルギー基づく切り捨てとアンサンブルベースの悲観主義はオフラインポリシー最適化を安定化するか？
RQ4ハイブリッドな悲観的定式化はオフライン最適解に対する性能ギャップをどのように境界づけるか？

主な発見

タスク名	CQL	TD3+BC	EDAC	MOPO	COMBO	RAMBO	MOBILE	EMPO*	ETM
halfcheetah-r	31.3	11.0	28.4	38.5	38.8	39.5	39.3	14.3	40.7 ± 1.1
hopper-r	5.3	8.5	25.3	31.7	17.9	25.4	31.9	30.9	31.8 ± 0.3
walker-r	5.4	1.6	16.6	7.4	7.0	0.0	17.9	13.7	19.6 ± 1.3
halfcheetah-m	46.9	48.3	65.9	73.0	54.2	77.9	74.6	21.2	76.9 ± 0.6
hopper-m	61.9	59.3	101.6	62.8	97.2	87.0	106.6	32.9	107.0 ± 1.1
walker-m	79.5	83.7	92.5	84.1	81.9	84.9	87.7	55.4	92.7 ± 0.7
halfcheetah-m-r	45.3	44.6	61.3	72.1	55.1	68.7	71.7	8.4	72.4 ± 1.5
hopper-m-r	86.3	60.9	101.0	103.5	89.5	99.5	103.9	34.9	104.8 ± 0.8
walker-m-r	76.8	81.8	87.1	85.6	56.0	89.2	89.9	66.1	90.2 ± 1.3
halfcheetah-m-e	95.0	90.7	106.3	90.8	90.0	95.4	108.2	28.1	105.2 ± 2.9
hopper-m-e	96.9	98.0	110.7	81.6	111.1	88.2	112.6	41.8	113.8 ± 0.9
walker-m-e	109.1	110.1	114.7	112.9	103.3	56.7	115.2	76.2	114.9 ± 1.8
Average	61.6	58.2	76.0	70.3	66.8	67.7	80.0	35.3	80.8

MC-ETM は複数の環境でMLP、拡散モデル、標準ETMよりも予測誤差が小さく、OOD領域を含む場合にも優れている。
D4RL MuJoCo ベンチマークにおいて、MC-ETM はランダム・中程度・中程度リプレイ・中程度エキスパートデータセット全てで最先端の正規化リターンを達成。
エネルギーベースの切り捨ては高エネルギー領域（OOD）への探索を効果的に抑制し、学習の安定性を向上させる。
エネルギー guided ペナルティによるQ値のアンサンブルは過大評価を抑制し、ポリシー更新を安定化させる。
多様体制約付きネガティブはデータセットサポート付近のエネルギーランドスケープを鋭くし、不連続なダイナミクスのモデリングを改善する。

Figure 2 : Conceptual visualization of energy landscapes on a 2D slice of the high-dimensional state space

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。