[论文解读] Environment Probing Interaction Policies
本文提出 Environment-Probing Interaction (EPI) 策略,先对新环境进行探测以提取环境嵌入,然后由任务特定策略使用该嵌入来提升对未见环境的泛化。EPI 训练使用基于转移预测的奖励来优化探测策略。
A key challenge in reinforcement learning (RL) is environment generalization: a policy trained to solve a task in one environment often fails to solve the same task in a slightly different test environment. A common approach to improve inter-environment transfer is to learn policies that are invariant to the distribution of testing environments. However, we argue that instead of being invariant, the policy should identify the specific nuances of an environment and exploit them to achieve better performance. In this work, we propose the 'Environment-Probing' Interaction (EPI) policy, a policy that probes a new environment to extract an implicit understanding of that environment's behavior. Once this environment-specific information is obtained, it is used as an additional input to a task-specific policy that can now perform environment-conditioned actions to solve a task. To learn these EPI-policies, we present a reward function based on transition predictability. Specifically, a higher reward is given if the trajectory generated by the EPI-policy can be used to better predict transitions. We experimentally show that EPI-conditioned task-specific policies significantly outperform commonly used policy generalization methods on novel testing environments.
研究动机与目标
- 在 RL 中动机与解决环境泛化问题,超越不变性策略与显式系统识别。
- 提出一个独立的环境探测策略(EPI-policy)以提取环境信息。
- 从探测交互中学习环境嵌入,并以该嵌入对任务策略进行条件化。
- 证明 EPI 条件化策略在新颖的 OpenAI Gym MuJoCo 任务上优于标准基线。
提出的方法
- 定义两种策略:环境探测交互(EPI)策略和任务特定策略。
- 训练转换预测器:一个普通预测器 f(s,a)->s' 和一个 EPI 条件预测器 f_epi(s,a; psi(tau_epi));psi(tau_epi) 是 EPI轨迹的嵌入。
- 使用奖励 R_p(pi_epi) 等于 E[ L_epi_pred - L_pred ],鼓励能改善环境转移预测的轨迹。
- 通过 Vine 方法的交错训练EPI策略与预测器(交错/训练数据以及可选分离损失)。
- 学习结束后运行 EPI 以获得环境嵌入,然后将任务策略 pi_task 以该嵌入为条件并使用 TRPO 进行训练。
- 在 Hopper 和 Striker 的随机环境参数(质量、阻尼、摩擦)下进行评估。
- 与包括 Simple、Invariant、Oracle、Random/History/Recurrent/System-Id/Direct Reward 策略在内的基线进行比较。
实验结果
研究问题
- RQ1一个环境探测策略是否能够提取有信息量、低维的环境嵌入来帮助单独的任务策略在未见环境中的泛化?
- RQ2以预测为基础的探测轨迹奖励是否比好奇心驱动或随机探索在此目的上更优?
- RQ3在新颖环境中,EPI 条件化策略与传统泛化方法(领域随机化、系统识别、循环策略)相比如何?
主要发现
| METHOD | Hopper: Reward (↑) | Striker: Final Distance (↓) |
|---|---|---|
| Simple Policy | 414±313 | 1.660±2.010 |
| Invariant Policy | 1025±49 | 0.297±0.068 |
| Random Interaction Policy | 1101±27 | 0.410±0.047 |
| History Policy | 1143±156 | 0.259±0.038 |
| Recurrent Policy | 917±180 | 0.418±0.051 |
| System Id Policy | 1033±81 | 1.113±0.106 |
| Direct Reward | 1057±310 | 0.458±0.004 |
| Ours | EPI + Task-specific Policy | 1303±173 | 0.162±0.015 |
| Ablations | No Vine Data | 1214±138 | 0.293±0.018 |
| Ablations | No Regularization | 1203±397 | 0.308±0.019 |
| Ablations | No Vine and No Regularization | 1237±78 | 0.324±0.057 |
| Oracle | Oracle Policy | 1474±205 | 0.133±0.034 |
- EPI 条件化的任务策略在未见测试环境(Hopper 和 Striker)上优于标准基线。
- 在 Hopper 中,EPI 获得 1303±173 的奖励,至少比基线高出 14.0%。
- 在 Striker 中,EPI 获得 0.162±0.015 的最终距离,至少比基线更准确 37.5%。
- EPI嵌入与环境参数相关,表明该方法能将环境引致的转移差异解纠缠。
- 消融测试表明 Vine 数据与正则化提升了性能;若无它们,EPI 仍优于大多数基线但增益较小。
- Oracle 策略(全环境参数)仍为上限(奖励 1474±205;距离 0.133±0.034)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。