[论文解读] From Language to Goals: Inverse Reinforcement Learning for Vision-Based Instruction Following
论文提出语言条件的奖励学习(LC-RL),通过最大熵IRL将自然语言指令定向为可转移的奖励函数,并展示奖励对新任务和场景具有泛化能力,而语言条件策略在泛化方面表现不佳。
Reinforcement learning is a promising framework for solving control problems, but its use in practical situations is hampered by the fact that reward functions are often difficult to engineer. Specifying goals and tasks for autonomous machines, such as robots, is a significant challenge: conventionally, reward functions and goal states have been used to communicate objectives. But people can communicate objectives to each other simply by describing or demonstrating them. How can we build learning algorithms that will allow us to tell machines what we want them to do? In this work, we investigate the problem of grounding language commands as reward functions using inverse reinforcement learning, and argue that language-conditioned rewards are more transferable than language-conditioned policies to new environments. We propose language-conditioned reward learning (LC-RL), which grounds language commands as a reward function represented by a deep neural network. We demonstrate that our model learns rewards that transfer to novel tasks and environments on realistic, high-dimensional visual environments with natural language commands, whereas directly learning a language-conditioned policy leads to poor performance.
研究动机与目标
- 将自然语言指令作为奖励函数进行锚定,而非直接对策略进行条件化。
- 开发一种可扩展的方法学习语言条件奖励,使其在不同任务和环境中具有泛化能力。
- 评估相对于语言条件策略,基于奖励的锚定方法在新场景和新任务上的迁移能力是否更好。
提出的方法
- 采用最大熵IRL 学习一个语言条件的奖励函数 r(o, a, L),在多个任务间共享。
- 用神经网络表示奖励,输入包含全景图像观测和语言输入;语言通过LSTM嵌入,图像通过在不同视角共享权重的CNN。
- 在已知动力学的情况下,使用精确的IRL梯度更新(通过动态规划)训练,以匹配跨任务的专家轨迹分布。
- 使用多任务设置,其中任务共享观测/动作空间,并将语言L作为任务上下文,以实现跨任务转移。
- 将LC-RL与基于策略的基线进行比较(最优策略克隆、AGILE、GAIL变体)以及一个 oracle 奖励回归基线。
实验结果
研究问题
- RQ1IRL 学到的语言条件奖励能否比语言条件策略在新任务和未见环境中的转移更有效?
- RQ2将语言锚定为奖励函数是否能在视觉指令执行中对不同场景和任务配置实现鲁棒泛化?
- RQ3在泛化性能方面,LC-RL 与策略基方法及 oracle 奖励回归的比较如何?
- RQ4当训练时动力学已知而测试时未知,精确IRL训练的实际限制与权衡是什么?
主要发现
- LC-RL 在新任务和未见家庭环境上表现出强泛化,在测试设置中优于策略基线。
- 奖励回归(oracle 奖励)在绝对性能上更高,显示 learned rewards 与 ground-truth rewards 之间的差距,但无需 oracle 监督的 LC-RL 仍具竞争力。
- 在 SUNCG 室内导航/抓放任务中,LC-RL 在 Test-Task 的总成功率达到 66.9%,Test-House 为 51.9%,在若干设置中优于 GAIL-Exact 和 AGILE 基线。
- 策略克隆在训练和测试场景中表现更差,凸显了语言条件任务的零-shot 策略转移的难度。
- 用 DQN 重新优化已学习的奖励具有挑战性;精确求解器(Q-迭代)在没有模型自由RL的情况下提供显著更强的性能,尽管当动力学已知时奖励回归仍能通过塑形受益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。