QUICK REVIEW

[论文解读] Object-Oriented Dynamics Predictor

Guangxiang Zhu, Zhiao Huang|arXiv (Cornell University)|May 25, 2018

Reinforcement Learning in Robotics被引用 18

一句话总结

本文提出对象导向动力学预测器（OODP），一种端到端、无监督的神经网络，通过基于类别的卷积神经网络（CNN）对象关系，将环境分解为对象并预测动作条件下的动力学。OODP在新型对象布局和外观下表现出强大的泛化能力，在零样本泛化和学习语义可解释的动力学模型方面优于先前方法。

ABSTRACT

Generalization has been one of the major challenges for learning dynamics models in model-based reinforcement learning. However, previous work on action-conditioned dynamics prediction focuses on learning the pixel-level motion and thus does not generalize well to novel environments with different object layouts. In this paper, we present a novel object-oriented framework, called object-oriented dynamics predictor (OODP), which decomposes the environment into objects and predicts the dynamics of objects conditioned on both actions and object-to-object relations. It is an end-to-end neural network and can be trained in an unsupervised manner. To enable the generalization ability of dynamics learning, we design a novel CNN-based relation mechanism that is class-specific (rather than object-specific) and exploits the locality principle. Empirical results show that OODP significantly outperforms previous methods in terms of generalization over novel environments with various object layouts. OODP is able to learn from very few environments and accurately predict dynamics in a large number of unseen environments. In addition, OODP learns semantically and visually interpretable dynamics models.

研究动机与目标

解决在具有不同对象布局的新环境中，像素级动力学模型泛化能力差的问题。
实现基于动作和对象间关系的端到端、无监督对象级动力学学习。
设计一种类别特定且具备局部感知能力的关系机制，以提升泛化能力和可解释性。
学习在未见环境中可泛化、语义和视觉上可解释的动力学模型。
展示对对象外观变化和自然图像输入的鲁棒性。

提出的方法

OODP 使用自监督、端到端的神经网络，通过对象检测器将视觉观测分解为对象。
采用一种新颖的基于CNN的关系机制，将类别特定的对象掩码代替对象特定的向量，从而实现跨对象实例的泛化。
通过邻域裁剪和CNN，关系机制利用局部性原理，建模对象之间的空间相互作用。
通过结合动作和学习到的对象间关系，利用空间变换网络（STN）进行空间变换，预测对象级动力学。
模型通过未来帧的重建损失在无监督设置下进行训练，无需显式对象标注。
该框架在统一架构中集成对象检测、关系建模和动力学预测，实现感知与动力学的联合学习。

实验结果

研究问题

RQ1端到端、无监督的神经网络能否学习在新型对象布局上泛化的动力学模型？
RQ2类别特定、具备局部感知能力的关系机制如何提升动力学预测中的泛化能力？
RQ3面向对象的动力学学习能否产生语义和视觉上可解释的模型？
RQ4该模型在不同对象外观和布局的环境中，其泛化能力达到何种程度？
RQ5该模型能否处理真实世界自然图像输入，例如火星车导航场景？

主要发现

在新型对象布局（S0-S6）的5到10个样本泛化任务中，OODP实现94%的准确率和0.28的RMSE，显著优于先前方法。
在火星车导航领域，OODP在未见环境中的准确率（n-error）达到92%，远超CDNA的75%和AC模型的12%。
当对象外观与训练数据不同时，OODP仍保持高性能（准确率 > 0.88），证明其对外观变化具有鲁棒性。
对学习到的掩码进行可视化显示，OODP成功识别未见环境中的关键对象及其关系，实现对象级知识的复用。
通过将场景分解为有意义的对象和关系，模型学习到可解释的动力学，空间注意力聚焦于相关移动和静态对象。
OODP能从极少数训练环境有效泛化，在大量未见环境中准确预测动力学。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。