Skip to main content
QUICK REVIEW

[论文解读] Binding and Perspective Taking as Inference in a Generative Neural Network Model

Mahdi Sadeghi, Fabian Schrodt|arXiv (Cornell University)|Dec 9, 2020
Action Observation and Synchronization参考文献 28被引用 3
一句话总结

该论文提出了一种生成式神经网络模型,通过参数化偏置神经元的回溯性、基于梯度的推理,解决了视角转换与特征绑定问题。通过在典型运动模式上进行训练,并利用预测误差反向传播自适应调整绑定和视角参数,该模型即使在视角扭曲的情况下,也能实现对生物运动的鲁棒格式塔感知,群体编码显著提升了性能。

ABSTRACT

The ability to flexibly bind features into coherent wholes from different perspectives is a hallmark of cognition and intelligence. Importantly, the binding problem is not only relevant for vision but also for general intelligence, sensorimotor integration, event processing, and language. Various artificial neural network models have tackled this problem with dynamic neural fields and related approaches. Here we focus on a generative encoder-decoder architecture that adapts its perspective and binds features by means of retrospective inference. We first train a model to learn sufficiently accurate generative models of dynamic biological motion or other harmonic motion patterns, such as a pendulum. We then scramble the input to a certain extent, possibly vary the perspective onto it, and propagate the prediction error back onto a binding matrix, that is, hidden neural states that determine feature binding. Moreover, we propagate the error further back onto perspective taking neurons, which rotate and translate the input features onto a known frame of reference. Evaluations show that the resulting gradient-based inference process solves the perspective taking and binding problem for known biological motion patterns, essentially yielding a Gestalt perception mechanism. In addition, redundant feature properties and population encodings are shown to be highly useful. While we evaluate the algorithm on biological motion patterns, the principled approach should be applicable to binding and Gestalt perception problems in other domains.

研究动机与目标

  • 使用神经网络方法解决认知感知中的视角转换与特征绑定双重挑战。
  • 开发一种模型,能够从扭曲或混乱的视觉输入中推断出典型视角和连贯的特征绑定。
  • 研究群体编码及运动特征分解(位置、方向、大小)对特征绑定与视角推断的影响。
  • 证明视角与绑定的参数化偏置神经元可通过回溯误差反向传播实现在线自适应。
  • 将模型的适用性扩展至生物运动以外的其他领域,以支持灵活的特征整合与视角变换。

提出的方法

  • 采用生成式自编码器架构,设置独立的视角转换模块(旋转与平移矩阵)和特征绑定模块(绑定矩阵)。
  • 将每个关节的运动分解为三种子模态:相对位置、运动方向与运动大小,每种子模态均以群体编码形式表示。
  • 在典型运动模式(如摆动、行走步态)上进行训练,以学习准确的生成模型。
  • 通过将重构误差反向传播至视角与绑定参数,实施回溯性推理,实现实时在线参数调整。
  • 使用参数化偏置神经元——具体为旋转矩阵、平移矩阵与绑定矩阵——作为可通过梯度下降优化的可学习参数。
  • 在各种扭曲条件下(旋转、平移)评估性能,并对比有无群体编码条件下的结果。

实验结果

研究问题

  • RQ1神经网络模型能否从动态运动模式的扭曲视觉输入中推断出典型视角?
  • RQ2在视角扭曲条件下,该模型在多大程度上能将个体运动特征整合为连贯的格式塔知觉?
  • RQ3子模态分解(位置、方向、大小)与群体编码对特征绑定与视角推断有何影响?
  • RQ4视角与绑定的参数化偏置神经元在多大程度上可通过回溯误差反向传播实现自适应?
  • RQ5该模型能否在显著视角变化下泛化至复杂运动模式(如3D人类行走)?

主要发现

  • 即使在强扭曲条件下(如三个轴向接近90°的旋转),该模型仍能成功推断出正确的典型视角(旋转与平移)。
  • 平移与旋转扭曲被同时优化,且在更极端的变换下收敛延迟增加。
  • 运动特征的群体编码显著提升了模型在复杂或噪声环境下推断正确视角与绑定的能力。
  • 该模型在无需正则化、残差连接或其他深度网络常用缩放技术的情况下,实现了可靠的特征绑定与视角转换。
  • 将子模态分解为位置、方向与大小,增强了模型的鲁棒性,并提升了对绑定机制的可解释性。
  • 回溯性推理机制实现了绑定与视角参数的在线自适应,以生物上合理的方式模拟了近似贝叶斯推理。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。