QUICK REVIEW

[论文解读] Diversity-based Trajectory and Goal Selection with Hindsight Experience Replay

Tianhong Dai, Hengyan Liu|arXiv (Cornell University)|Aug 17, 2021

Reinforcement Learning in Robotics参考文献 42被引用 11

一句话总结

该论文提出了一种基于多样性的轨迹与目标选择方法——Hindsight Experience Replay下的多样性轨迹与目标选择（DTGSH），通过使用行列式点过程（DPPs）来优先选择多样化的轨迹，并利用k-DPPs选择多样化的目标状态以进行事后重标记，从而在目标导向的强化学习中提升样本效率。在五个机器人操作任务上评估，DTGSH在无需领域特定知识或课程调参的情况下，实现了比当前最先进方法（如HER、HEBP和CHER）更快的收敛速度和更高的最终性能。

ABSTRACT

Hindsight experience replay (HER) is a goal relabelling technique typically used with off-policy deep reinforcement learning algorithms to solve goal-oriented tasks; it is well suited to robotic manipulation tasks that deliver only sparse rewards. In HER, both trajectories and transitions are sampled uniformly for training. However, not all of the agent's experiences contribute equally to training, and so naive uniform sampling may lead to inefficient learning. In this paper, we propose diversity-based trajectory and goal selection with HER (DTGSH). Firstly, trajectories are sampled according to the diversity of the goal states as modelled by determinantal point processes (DPPs). Secondly, transitions with diverse goal states are selected from the trajectories by using k-DPPs. We evaluate DTGSH on five challenging robotic manipulation tasks in simulated robot environments, where we show that our method can learn more quickly and reach higher performance than other state-of-the-art approaches on all tasks.

研究动机与目标

为解决Hindsight Experience Replay（HER）中均匀采样效率低下的问题，因为并非所有经验对学习的贡献均等。
在稀疏奖励设置下，提升目标导向深度强化学习的学习效率，特别是在机器人操作任务中。
开发一种不依赖领域特定知识或课程设计的多样化轨迹与目标选择方法。
证明基于多样性的采样策略（通过DPPs实现）相比均匀采样或启发式采样策略，可实现更快的收敛速度和更高的性能。

提出的方法

基于目标状态实现的多样性，使用行列式点过程（DPPs）从轨迹中选择用于重放的轨迹，DPPs通过从目标嵌入中导出的核矩阵对子集多样性进行建模。
在选定的轨迹中，使用k-DPPs采样过渡，以确保事后重标记过渡中目标状态的多样性。
该方法与DDPG等异策略深度强化学习算法集成，通过将期望目标替换为实现目标来生成密集的正向奖励，实现事后重标记。
DPP核矩阵由目标状态的特征向量构建，更高的行列式值表示更具有多样性和正交性的目标集合。
该方法避免依赖目标空间的语义知识或人工设计的课程，完全基于目标状态的几何多样性。
训练过程中，基于DPP优先级采样m条多样化轨迹，并从每批中使用k-DPPs选择k条多样化过渡。

实验结果

研究问题

RQ1基于DPPs的多样化轨迹选择是否能提升稀疏奖励下目标导向强化学习的学习效率？
RQ2与均匀采样或距离优先采样相比，为事后重标记选择多样化目标状态是否能带来更快的收敛速度和更高的性能？
RQ3仅基于目标状态多样性的方法是否能超越需要目标空间语义知识或课程超参数调整的方法？
RQ4DTGSH的性能如何随轨迹采样长度和候选目标集合大小的变化而变化？

主要发现

在FetchPush-v1任务上，DTGSH的最终平均成功率达到1.00±0.00，优于DDPG+HER（1.00±0.00）、DDPG+HEBP（1.00±0.00）和DDPG+CHER（1.00±0.00），且收敛更快。
在FetchPickAndPlace-v1任务上，DTGSH的成功率达到0.94±0.01，超过DDPG+HER（0.89±0.03）、DDPG+HEBP（0.91±0.03）和DDPG+CHER（0.91±0.04）。
在更复杂的HandManipulateEggFull-v0环境中，DTGSH的成功率为0.17±0.03，优于DDPG+HER（0.11±0.01）、DDPG+HEBP（0.14±0.02）和DDPG+CHER（0.15±0.01）。
消融实验证实，基于多样性的轨迹选择（DTSH）和基于多样性的目标选择（DGSH）均具有显著贡献，DTGSH结合两阶段方法表现最佳。
该方法对超参数选择具有鲁棒性，在b=2（部分轨迹长度）和m=100（候选目标集合大小）时达到最优性能，而在复杂环境中更大的m值会降低性能。
DTGSH在Push任务上的训练时间为1小时52分30秒，显著快于CHER（3小时2分18秒），仅略慢于HER（55分8秒），表明其在效率与性能之间实现了有利的权衡。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。