Skip to main content
QUICK REVIEW

[论文解读] Relational inductive bias for physical construction in humans and machines

Jessica B. Hamrick, Kelsey R. Allen|arXiv (Cornell University)|Jun 4, 2018
Design Education and Practice参考文献 33被引用 62
一句话总结

论文认为关系归纳偏置——以结构化对象和关系为中心的表征——使物理建构任务更有效,并展示一个基于图网络的强化学习代理,在拼粘任务上超过人类和非关系基线。

ABSTRACT

While current deep learning systems excel at tasks such as object classification, language processing, and gameplay, few can construct or modify a complex system such as a tower of blocks. We hypothesize that what these systems lack is a "relational inductive bias": a capacity for reasoning about inter-object relations and making choices over a structured description of a scene. To test this hypothesis, we focus on a task that involves gluing pairs of blocks together to stabilize a tower, and quantify how well humans perform. We then introduce a deep reinforcement learning agent which uses object- and relation-centric scene and policy representations and apply it to the task. Our results show that these structured representations allow the agent to outperform both humans and more naive approaches, suggesting that relational inductive bias is an important component in solving structured reasoning problems and for building more intelligent, flexible machines.

研究动机与目标

  • 激励关系推理在人体和机器物理建构能力中的作用。
  • 引入粘合任务,用以研究方块之间的关系如何在重力作用下影响稳定性。
  • 开发一个基于图网络、具有对象和关系中心表征的深度强化学习代理。
  • 在粘合任务和控制任务中,经验性比较关系性与非关系性代理以及人类的表现。

提出的方法

  • 定义方块塔和粘合机制,以在重力作用下稳定不稳定结构。
  • 将场景表示为图,包含节点(方块)、边(粘合关系)和全局量(塔的稳定性),并应用图网络来编码/预测关系。
  • 训练强化学习代理(MLP、GN-FC、GN)和一个基于仿真的基线;从图中使者评估Q值或动作策略。
  • 使用有监督的实验来评估稳定性预测和在不同塔规模下的最佳粘合位置。
  • 比较不同塔规模的表现,并评估对未见方块数量的泛化。

实验结果

研究问题

  • RQ1相对非关系方法,关系归纳偏置是否能在物理建构任务上实现更好的性能?
  • RQ2基于图网络的策略与人类及无模型基线在粘合任务上的表现对比如何?
  • RQ3明确物理推理(仿真)与纯粹关系推理对任务表现的影响是什么?
  • RQ4关系结构能否泛化到训练之外的更大或未见的塔规模?
  • RQ5人类表现出哪些行为模式和策略,它们与基于GN的代理有何不同?

主要发现

  • 通过图网络的关系性归纳偏置显著提升了相对于MLP和GN-FC基线的表现。
  • 具有正确关系结构的GN代理获得更高的奖励和更好的泛化性,胜过完全连接的GN-FC代理。
  • 一个具备显式物理知识的基于仿真的代理表现最佳,但基于GN的代理仍然优于非关系基线,表明关系结构至关重要。
  • 人类表现高于随机水平,显示自上而下的策略,首次粘合决策较慢;GN代理的无效动作较少。
  • 泛化:GN代理在未见的塔规模(7和10块)上表现稳健,降幅很小,而GN-FC在推断到更大塔时困难;MLP在跨尺寸泛化上失败。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。