QUICK REVIEW

[论文解读] Network Randomization: A Simple Technique for Generalization in Deep Reinforcement Learning

Kimin Lee, Kibok Lee|ArXiv.org|Oct 11, 2019

Reinforcement Learning in Robotics参考文献 54被引用 47

一句话总结

该论文提出一种使用随机 CNN 层的随机输入技术来训练深度强化学习代理，以促进不变特征，从而在未见视觉环境中获得更好的泛化；它使用蒙特卡罗推断来稳定测试时性能，在 CoinRun、DeepMind Lab 和 Surreal 机器人任务中超越正则化和数据增强基线。

ABSTRACT

Deep reinforcement learning (RL) agents often fail to generalize to unseen environments (yet semantically similar to trained agents), particularly when they are trained on high-dimensional state spaces, such as images. In this paper, we propose a simple technique to improve a generalization ability of deep RL agents by introducing a randomized (convolutional) neural network that randomly perturbs input observations. It enables trained agents to adapt to new domains by learning robust features invariant across varied and randomized environments. Furthermore, we consider an inference method based on the Monte Carlo approximation to reduce the variance induced by this randomization. We demonstrate the superiority of our method across 2D CoinRun, 3D DeepMind Lab exploration and 3D robotics control tasks: it significantly outperforms various regularization and data augmentation methods for the same purpose.

研究动机与目标

激励并解决深度强化学习代理在未见视觉环境中的泛化能力不足的问题。
提出一种简单的、训练时的随机化方法来扰动输入观测。
通过随机输入和可选的特征匹配，促使学习不变、鲁棒的表征。
在2D CoinRun、3D DeepMind Lab和3D Surreal机器人任务上评估泛化性能。

提出的方法

引入一个带参数 phi 的随机网络 f 来扰动输入：s_hat = f(s; phi).
在每次训练迭代时重新初始化 phi，以使代理接触到多样的低级特征。
使用 s_hat 代替 s，在带随机输入的策略梯度目标下优化策略（式(1)）。
可选地在干净输入与随机输入的隐藏表示之间加入特征匹配损失（式(2)）。
组合成总损失 L_random = L_random_policy + beta * L_random_FM（式(3)）。
通过蒙特卡洛推断：通过对从 P(phi) 抽取的 M 个样本 phi^(m) 的平均来近似 pi(a|s; theta)（MC 积分）。

实验结果

研究问题

RQ1在训练过程中进行随机输入观测是否能改善深度 RL 代理对未见视觉模式的泛化？
RQ2将随机输入扰动与特征匹配损失耦合，是否比单独正则化或数据增强产生更不变的表征？
RQ3在测试时的基于 MC 的推断如何影响随机输入下的方差和性能？
RQ4在具有不同视觉风格和动态的2D和3D环境中，收益是否一致？
RQ5所提出的方法与域随机化及其他泛化基线相比如何？

主要发现

在跨任务的未见视觉模式泛化方面有显著提高。
CoinRun 大规模：未见成功率从 39.8%（基线）提升到 58.7%（方法）。
DeepMind Lab：总奖励从 218.3 ± 99.2 提升到 358.2 ± 81.5。
Surreal robotics：总奖励从 168.8 ± 155.8 提升到 356.8 ± 15.4。
大约10个样本的 MC 推断在不会产生过大方差的前提下提供稳定的性能提升。
该方法在已见和未见环境中产生更不变的隐藏表示以及对显著对象的注意更加一致。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。