[论文解读] Delightful Distributed Policy Gradient
DG 在更新时通过 delight 进行门控,以应对分布式 RL 中的陈旧、错误和不匹配的执行者,改善对齐与性能,而无需行为概率。
Distributed reinforcement learning trains on data from stale, buggy, or mismatched actors, producing actions with high surprisal (negative log-probability) under the learner's policy. The core difficulty is not surprising data per se, but \emph{negative learning from surprising data}. High-surprisal failures can dominate the update direction despite carrying little useful signal, while high-surprisal successes reveal opportunities the current policy would otherwise miss. The extit{Delightful Policy Gradient} (DG) separates these cases by gating each update with delight, the product of advantage and surprisal, suppressing rare failures and amplifying rare successes without behavior probabilities. Under contaminated sampling, the cosine similarity between the standard policy gradient and the true gradient collapses, while DG's grows as the policy improves. No sign-blind reweighting, including exact importance sampling, can reproduce this effect. On MNIST with simulated staleness, DG without off-policy correction outperforms importance-weighted PG with exact behavior probabilities. On a transformer sequence task with staleness, actor bugs, reward corruption, and rare discovery, DG achieves roughly $10{ imes}$ lower error. When all four frictions act simultaneously, its compute advantage is order-of-magnitude and grows with task complexity.
研究动机与目标
- 在分布式 RL 中引入并形式化来自陈旧或被污染执行者的惊人数据所引起的负学习问题的动机与 formal 化。
- 提出 Delightful Policy Gradient (DG),通过 delight(优势乘以 surprisal)对更新进行门控,无需行为概率。
- 在受控的 MNIST 陈旧性、污染带博彩设置和具有多重摩擦的变换器序列任务下证明 DG 的鲁棒性与优势。
- 证明 DG 的优势会随着策略改进而增强,符号盲重新加权不能重复此效果。
提出的方法
- 将 delightful 定义为在当前策略下优势与行动 surprisal 的乘积。
- 通过一个 sigmoid 门控对每个样本的 PG 项进行加权 w_t = sigma(delight_t / eta),其中 eta = 1,因此更新变为 sum_t w_t U_t grad log pi_theta(A_t|H_t)。
- DG 不需要行为概率,在执行者策略未知或被污染时也能良好定义。
- 形式证明在污染条件下,PG 的对齐会退化,而 DG 的对齐会改善,这是因为一个重叠矩 M_nu(pi) 会随着策略改进而消失。
- 论证精确重要性加权无法再现 DG 的方向性效应(符号依赖)。
- 证明 DG 能作为分布式 RL 流水线的随时替代实现,无需额外的墙钟成本。
实验结果
研究问题
- RQ1分布式摩擦(陈旧性、执行者漏洞、奖励污染、罕见发现)如何影响标准 PG 的梯度方向?
- RQ2在行为概率未知或被污染时,基于 delight 的门控机制是否能改善梯度对齐与学习?
- RQ3在污染采样环境下,DG 是否仍保留相对于精确重要性加权的优势?
- RQ4在具有多重摩擦且任务长度增加的序列决策任务中,DG 的表现如何?
主要发现
- DG 在 MNIST 的陈旧性下,相较于普通 PG 和精确重要性加权 PG,在整个延迟范围内都保持领先。
- 在包含陈旧性、执行者漏洞、奖励污染和罕见发现的变换器序列任务中,DG 的错误率大约降低十倍。
- 在综合摩擦条件下,DG 的计算优势达到数量级级别,并随任务复杂性上升而增长。
- 带赌博分析表明,DG 的梯度对齐会随着策略改进而改善,而在污染条件下 PG 的对齐会崩溃。
- 符号盲重新加权(包括精确重要性采样)无法再现 DG 的方向性效应。
- 在包含四种摩擦的令牌翻转实验中,DG 相较基线实现显著超越,序列错误接近一个数量级的提升。
- 综合摩擦实验显示 DG 能随序列长度扩大而扩展,在比基线更长的逆转任务中效果更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。