QUICK REVIEW

[论文解读] Bounce and Learn: Modeling Scene Dynamics with Real-World Bounces

Senthil Purushwalkam, Abhinav Gupta|arXiv (Cornell University)|Apr 1, 2019

Human Pose and Action Recognition被引用 10

一句话总结

该论文提出 Bounce and Learn，一种两模块深度学习模型，能够从单张 RGB-D 图像和碰撞前轨迹中预测碰撞后轨迹，并推断物理属性——恢复系数与有效碰撞法线。该模型在新收集的 5,000 段真实世界弹跳视频数据集上进行训练，通过结合视觉模块与基于物理的模块，并利用模拟自举训练，其在轨迹预测与物理属性推断方面均优于牛顿物理拟合方法。

ABSTRACT

We introduce an approach to model surface properties governing bounces in everyday scenes. Our model learns end-to-end, starting from sensor inputs, to predict post-bounce trajectories and infer two underlying physical properties that govern bouncing - restitution and effective collision normals. Our model, Bounce and Learn, comprises two modules -- a Physics Inference Module (PIM) and a Visual Inference Module (VIM). VIM learns to infer physical parameters for locations in a scene given a single still image, while PIM learns to model physical interactions for the prediction task given physical parameters and observed pre-collision 3D trajectories. To achieve our results, we introduce the Bounce Dataset comprising 5K RGB-D videos of bouncing trajectories of a foam ball to probe surfaces of varying shapes and materials in everyday scenes including homes and offices. Our proposed model learns from our collected dataset of real-world bounces and is bootstrapped with additional information from simple physics simulations. We show on our newly collected dataset that our model out-performs baselines, including trajectory fitting with Newtonian physics, in predicting post-bounce trajectories and inferring physical properties of a scene.

研究动机与目标

建模日常环境中（如家庭与办公室）影响真实世界弹跳的表面属性。
仅从单张静态图像与碰撞前 3D 轨迹数据预测碰撞后轨迹。
直接从视觉输入中推断两个关键物理属性——恢复系数与有效碰撞法线。
开发一种结合真实世界数据与物理仿真的学习框架，以提升泛化能力。
创建一个用于研究非结构化真实场景中弹跳动力学的基准数据集。

提出的方法

该模型使用视觉推理模块（VIM）从单张 RGB-D 图像中估计恢复系数、碰撞法线等物理参数。
物理推理模块（PIM）利用推断出的物理参数与观测到的碰撞前 3D 轨迹预测碰撞后轨迹。
该模型在新收集的 5,000 段 RGB-D 视频数据集上进行端到端训练，记录了泡沫球在多种表面上的弹跳过程。
训练过程通过简单物理仿真生成的合成数据进行自举，以提升泛化能力与数据效率。
该框架通过可微分物理头，联合优化轨迹预测与物理属性推断。
该模型利用 RGB-D 输入中的几何与材质线索，推断场景级物理属性，而无需显式 3D 重建。

实验结果

研究问题

RQ1深度学习模型能否仅利用单张 RGB-D 图像与碰撞前运动数据，准确预测碰撞后轨迹？
RQ2模型仅从视觉输入中能多大程度上推断出恢复系数与有效碰撞法线等物理属性？
RQ3将真实世界数据与物理仿真结合，能在多大程度上提升弹跳轨迹预测的性能？
RQ4所提出的端到端模型是否优于使用牛顿物理的典型轨迹拟合方法？
RQ5该模型在具有不同材质与形状的多样化、非结构化真实场景中是否具备良好的泛化能力？

主要发现

Bounce and Learn 模型在所收集的真实世界数据集上，相比牛顿物理拟合基线，实现了更优的碰撞后轨迹预测精度。
该模型能从单张 RGB-D 图像中以高度一致性地推断出恢复系数与有效碰撞法线等物理属性。
在训练中整合物理仿真显著提升了模型在未见弹跳场景中的泛化能力与性能表现。
视觉推理模块（VIM）在零样本设定下对训练中未见的新场景与新材料展现出强大的泛化能力。
物理推理模块（PIM）能有效利用推断出的物理参数，建模包括能量损失与角向偏转在内的复杂弹跳动力学。
Bounce 数据集为在日常环境中学习建模真实世界弹跳动力学提供了新的基准。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。