Skip to main content
QUICK REVIEW

[论文解读] Controlling Overestimation Bias with Truncated Mixture of Continuous Distributional Quantile Critics

Arsenii Kuznetsov, Pavel Shvechikov|arXiv (Cornell University)|May 8, 2020
Model Reduction and Neural Networks参考文献 40被引用 53
一句话总结

本文提出 Truncated Quantile Critics (TQC),一种分布式、截断、基于集成的方法,以控制离线策略下的连续控制中的过度估计偏差,在 MuJoCo 基准测试中达到最先进结果。

ABSTRACT

The overestimation bias is one of the major impediments to accurate off-policy learning. This paper investigates a novel way to alleviate the overestimation bias in a continuous control setting. Our method---Truncated Quantile Critics, TQC,---blends three ideas: distributional representation of a critic, truncation of critics prediction, and ensembling of multiple critics. Distributional representation and truncation allow for arbitrary granular overestimation control, while ensembling provides additional score improvements. TQC outperforms the current state of the art on all environments from the continuous control benchmark suite, demonstrating 25% improvement on the most challenging Humanoid environment.

研究动机与目标

  • 在离线策略的连续控制学习中动机与解决过估计偏差。
  • 引入一个实用方法(TQC),将分布式评估器、分布截断和集成相结合。
  • 在标准连续控制基准上展示改进性能并提供消融研究。

提出的方法

  • 通过学习在状态和动作条件下的回报分布的分位数来采用分布式评估器。
  • 通过去掉顶部原子来截断预测回报分布的右尾,以控制过估计。
  • 将多个分布式评估器进行集成并在截断之前合并它们的预测,以提高鲁棒性。
  • 通过汇聚多个评估器的原子,然后应用截断形成 Y(s,a),来计算 TD 目标。
  • 最小化每个评估器的分布与截断目标分布之间的 1-Wasserstein 距离。
  • 优化策略以最大化熵惩罚的 Q 值,使用非截断的 Q 估计以避免双重截断。

实验结果

研究问题

  • RQ1是否可以利用 aleatoric 不确定性来控制连续控制中的过估计偏差?
  • RQ2截断分布目标并对分布式评估器进行集成,是否比现有方法在偏差/方差权衡方面表现更好?
  • RQ3在 MuJoCo 连续控制任务中,TQC 相对于最先进方法(例如 SAC、TD3)的表现如何?
  • RQ4超参数如原子数、丢弃原子和集成大小对性能和稳定性有何影响?

主要发现

  • TQC 在所测试的所有 MuJoCo OpenAI Gym 环境中实现了最先进的性能,在具有挑战性的 Humanoid 任务上尤为显著。
  • 截断加上分布式表示相较基线减少了 Q 函数近似的偏差和方差。
  • 对分布式评估器进行集成提供额外的性能提升,但在中等规模的集合数量后收益递减。
  • 由于分布式表示和集成引入计算开销,在培训时间比较中有体现。
  • 消融研究显示截断和分位数表示是性能提升的关键因素。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。