[论文解读] A Disentangled Recognition and Nonlinear Dynamics Model for Unsupervised Learning
Kalman 变分自编码器 (KVAE) 为对象外观(通过 VAE)和动态(通过带有动力学参数网络的线性高斯状态空间模型)学习分离的潜在表征,使端到端的无监督学习、长期潜在空间推理以及在不重建高维帧的情况下进行缺失数据估计成为可能。
This paper takes a step towards temporal reasoning in a dynamically changing video, not in the pixel space that constitutes its frames, but in a latent space that describes the non-linear dynamics of the objects in its world. We introduce the Kalman variational auto-encoder, a framework for unsupervised learning of sequential data that disentangles two latent representations: an object's representation, coming from a recognition model, and a latent state describing its dynamics. As a result, the evolution of the world can be imagined and missing data imputed, both without the need to generate high dimensional frames at each time step. The model is trained end-to-end on videos of a variety of simulated physical systems, and outperforms competing methods in generative and missing data imputation tasks.
研究动机与目标
- 在序列数据中将对象特定编码从动力学中解耦。
- 在支持精确后验推断的潜在空间中学习动力学。
- 在不生成完整帧的情况下实现插补和长期推理。
- 促进从原始视频数据进行端到端的无监督学习。
提出的方法
- 使用具有共享编码器/解码器的 VAE 将每个视频帧 x_t 编码为低维潜在变量 a_t。
- 在潜在变量 z_t 上用线性高斯状态空间模型 (LGSSM) 对 a_t 的动态进行建模,从而在给定 a_t 时实现精确的卡尔曼平滑/后验推断。
- 引入一个非线性、随时间变化的动态参数网络,根据 past encodings a_{0:t-1} 调节 LGSSM 参数 (A_t, B_t, C_t)。
- 将学习目标表述为最大化带有结构化变分分布的 ELBO,其中包含来自卡尔曼平滑的 p_gamma(z|a,u)。
- 通过对基于编码 a_t 与学习到的动力学的 LGSSM 条件平滑来实现缺失数据插补,避免高维自回归帧生成。
- 在仿真物理视频上端到端训练,以与基于 RNN 的基线进行比较。
实验结果
研究问题
- RQ1一个解耦的潜在空间是否能够在视频序列中将对象外观与对象动力学分离?
- RQ2将卡尔曼平滑与 VAE 集成是否能提升缺失数据插补和长时域生成?
- RQ3用线性高斯骨干并用非线性参数化的动力学来有效捕捉非线性动力学场景吗?
- RQ4与其他深度序列模型在生成和插补任务上的表现相比,KVAE 如何?
主要发现
- 在 bouncing-ball 和 pendulum 任务上,KVAE 实现了相较于竞争模型的更好的生成与缺失数据插补性能。
- LGSSM 骨架的精确后验推断使得基于平滑的插补在不逐步生成高维帧的情况下实现。
- 动力学参数网络在多个 LGSSM 模态之间插值,以捕获非线性交互,同时保持可处理的平滑。
- KVAE 能利用过去和未来帧的信息对缺失帧进行插补,在若干缺失数据场景中优于自回归基线。
- 实验表明,从视频无监督训练的 KVAE 能学到合理的潜在动态并在不同环境中生成逼真的轨迹。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。