Skip to main content
QUICK REVIEW

[论文解读] FastDSAC: Unlocking the Potential of Maximum Entropy RL in High-Dimensional Humanoid Control

Jun Xue, Junze Wang|arXiv (Cornell University)|Mar 13, 2026
Reinforcement Learning in Robotics被引用 0
一句话总结

FastDSAC 通过引入维度权衡熵调制和连续分布式评估器,实现高维 humanoid 控制的最大熵强化学习的可扩展性,在复杂任务中达到强劲表现。

ABSTRACT

Scaling Maximum Entropy Reinforcement Learning (RL) to high-dimensional humanoid control remains a formidable challenge, as the ``curse of dimensionality'' induces severe exploration inefficiency and training instability in expansive action spaces. Consequently, recent high-throughput paradigms have largely converged on deterministic policy gradients combined with massive parallel simulation. We challenge this compromise with FastDSAC, a framework that effectively unlocks the potential of maximum entropy stochastic policies for complex continuous control. We introduce Dimension-wise Entropy Modulation (DEM) to dynamically redistribute the exploration budget and enforce diversity, alongside a continuous distributional critic tailored to ensure value fidelity and mitigate high-dimensional value overestimation. Extensive evaluations on HumanoidBench and other continuous control tasks demonstrate that rigorously designed stochastic policies can consistently match or outperform deterministic baselines, achieving notable gains of 180\% and 400\% on the challenging extit{Basketball} and extit{Balance Hard} tasks.

研究动机与目标

  • 在探索效率低下和价值高估的情况下,推动最大熵 RL 在高维 humanoid 控制中的扩展。
  • 引入机制以管理探索并在大动作空间中改善价值的保真度。
  • 证明在复杂的高维任务中,随机策略能够与确定性基线相匹配或超越。

提出的方法

  • 提出维度权衡熵调制(DEM),通过按维度 Softmax 引导的权重在动作维度间重新分配探索预算。
  • 采用以高斯分布建模的连续分布式评估器,避免离散化误差并减轻价值高估。
  • 使用分布式软策略迭代(DSPI)循环,将基于 DEM 的探索与连续分布式学习及熵正则化策略改进相融合。
  • 利用大批量、极大并行的环境来稳定训练与评估器更新。
  • 调节温度参数 α 以满足目标熵,在强化探索的同时保持控制权威性。

实验结果

研究问题

  • RQ1FastDSAC 是否能够在高维 humanoid 任务上超越最先进的确定性、随机、就地策略和模型基线?
  • RQ2在高维动作空间中,DEM 是否对于可解释且与任务对齐的探索是必要的?
  • RQ3在此设定下,连续高斯分布式评估器是否比离散评估器(如 C51)提供稳定性优势?
  • RQ4DEM 温度 tau 如何影响探索稀疏性与跨任务的性能?

主要发现

  • FastDSAC 在 HumanoidBench、MuJoCo Playground 与 IsaacLab 的 39 个任务上与或超越了 SOTA 基线。
  • 在 Basketball 和 Balance Hard 任务上分别实现约 180% 和 400% 的增益,相对于 FastTD3。
  • DEM 使自动子子空间剪枝成为可能,将探索集中在与任务相关的维度,同时抑制冗余执行器的噪声。
  • 连续高斯分布式评估器相较离散评估器减少量化伪影并减轻价值高估。
  • FastDSAC 在复杂的协调与操作任务中表现出色并在不同仿真器中保持鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。