[论文解读] Unsupervised Learning of Object Keypoints for Perception and Control
Transporter 从视频中以无监督方式学习对象关键点,并利用它们进行数据高效的强化学习与探索,通过在帧之间通过关键点瓶颈传输特征。
The study of object representations in computer vision has primarily focused on developing representations that are useful for image classification, object detection, or semantic segmentation as downstream tasks. In this work we aim to learn object representations that are useful for control and reinforcement learning (RL). To this end, we introduce Transporter, a neural network architecture for discovering concise geometric object representations in terms of keypoints or image-space coordinates. Our method learns from raw video frames in a fully unsupervised manner, by transporting learnt image features between video frames using a keypoint bottleneck. The discovered keypoints track objects and object parts across long time-horizons more accurately than recent similar methods. Furthermore, consistent long-term tracking enables two notable results in control domains -- (1) using the keypoint co-ordinates and corresponding image features as inputs enables highly sample-efficient reinforcement learning; (2) learning to explore by controlling keypoint locations drastically reduces the search space, enabling deep exploration (leading to states unreachable through random action exploration) without any extrinsic rewards.
研究动机与目标
- 激励学习对控制和强化学习有用的以对象为中心的表征,而不仅仅是分类或检测。
- 提出一个完全无监督的架构(Transporter),发现能够在较长时间尺度上跟踪对象的简洁几何关键点。
- 证明将关键点用作状态输入时可以提高强化学习的数据效率。
- 展示通过对关键点进行控制可以实现与任务无关的探索以及获得高效探索所需的技能。
提出的方法
- 使用基于CNN的特征提取器Phi和可微分的关键点网络(KeyNet)为帧对预测空间关键点坐标Psi(x)。
- 围绕关键点计算高斯热图,并通过将源帧的热图位置替换为目标特征来实现从源帧到目标帧的特征传输;将源关键点位置置零,并用一个小型细化网络对传输进行细化。
- 端到端训练,通过对目标帧进行逐像素L2重建以强化关键点随时间的几何一致性。
- 在随机策略收集的数据上预训练Transporter,然后在从奖励学习控制策略时固定Transporter的权重(使用KeyQN实现数据高效的RL)。
- 定义基于内在关键点的动作(每个关键点4个方向移动,共K个关键点)以通过Q函数学习有利于探索的选项,选择最易控的关键点进行探索。
实验结果
研究问题
- RQ1无监督学习的对象关键点是否能够在多样的强化学习环境中实现稳定的长期跟踪?
- RQ2使用关键点坐标和局部特征作为输入是否比RGB观测在强化学习中提高数据效率?
- RQ3学习控制关键点是否能提供一个无奖励、任务无关的机制,以在难以探索的环境中提升探索?
主要发现
- Transporter 学习到的对象关键点达到前沿水平,能够在 Atari ALE 与 Manipulator 领域的长时间跨度中稳定跟踪对象。
- 将关键点坐标和局部特征作为输入,在若干 Atari 游戏(约10万次互动)上比强基线实现更高的数据效率的RL。
- 学习控制关键点位置可以实现高效探索,显著降低动作空间搜索;在关键点空间的随机探索可以达到用原始随机动作无法达到的行为。
- 最容易控的关键点通常对应游戏中的角色并在状态变化中保持一致可跟踪。
- 基于关键点的探索在诸如Montezuma’s Revenge等难以探索的任务中在没有外部奖励的情况下展示出显著的性能提升。
- 该方法产生时序一致的对象表征,适合在不同任务中重复使用且无需特定任务奖励。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。