QUICK REVIEW

[论文解读] Generic decoding of seen and imagined objects using hierarchical visual features

Tomoyasu Horikawa, Yukiyasu Kamitani|arXiv (Cornell University)|Oct 22, 2015

Visual Attention and Saliency Detection参考文献 53被引用 51

一句话总结

本文提出了一种通用解码框架，利用来自fMRI脑活动和深度卷积神经网络（CNN）的分层视觉特征，识别训练集之外的所见和想象中的物体。通过将fMRI模式与皮层区域中多层级的视觉特征对齐，该方法实现了跨类别物体的精确识别，并揭示了在心理意象过程中，视觉表征从高级到低级脑区逐步激活的动态过程。

ABSTRACT

Object recognition is a key function in both human and machine vision. While recent studies have achieved fMRI decoding of seen and imagined contents, the prediction is limited to training examples. We present a decoding approach for arbitrary objects, using the machine vision principle that an object category is represented by a set of features rendered invariant through hierarchical processing. We show that visual features including those from a convolutional neural network can be predicted from fMRI patterns and that greater accuracy is achieved for low/high-level features with lower/higher-level visual areas, respectively. Predicted features are used to identify seen/imagined object categories (extending beyond decoder training) from a set of computed features for numerous object images. Furthermore, the decoding of imagined objects reveals progressive recruitment of higher to lower visual representations. Our results demonstrate a homology between human and machine vision and its utility for brain-based information retrieval.

研究动机与目标

开发一种可泛化至训练样本之外的解码方法，适用于所见和想象中的物体。
探究来自机器视觉模型的分层视觉特征是否能预测多种物体类别中的fMRI模式。
探讨视觉区域中的脑活动与视觉特征分层结构之间的关系。
确定想象中的物体表征是否遵循与所见物体相似的视觉层次递进过程。
通过通用的、非特定的物体类别解码，实现基于大脑活动的信息检索。

提出的方法

从预训练的卷积神经网络（CNN）中提取大量物体图像的分层视觉特征。
使用多体素模式分析（MVPA）从人类视觉皮层的fMRI活动模式中预测这些视觉特征。
训练线性解码器，将fMRI模式映射到CNN层次结构中不同层级的特定视觉特征。
将训练好的解码器应用于基于fMRI数据预测新出现的、未见过的或想象中的物体的特征。
利用预测的特征以通用的零样本方式对物体类别进行分类，从而超越训练数据的限制。
分析解码准确率在视觉区域中的空间分布，以评估其与皮层处理阶段的分层一致性。

实验结果

研究问题

RQ1fMRI模式是否可用于解码广泛物体类别中的通用视觉特征，即使这些物体未出现在训练集中？
RQ2解码准确率在视觉层次的不同层级（低级与高级特征）及对应脑区之间如何变化？
RQ3在物体心理意象过程中，是否存在从高级到低级视觉区域的视觉表征逐步激活的现象？
RQ4深度神经网络中的分层视觉特征与人类大脑对物体的表征在多大程度上一致？
RQ5该框架是否能够实现无需为每个新类别重新训练的通用、跨类别物体识别？

主要发现

该方法利用预测的视觉特征，成功从fMRI模式中准确解码出物体类别，即使这些物体未出现在训练数据中。
当使用早期视觉区域（如V1）的活动时，低级视觉特征的解码准确率更高；而当使用高级视觉区域（如IT皮层）的活动时，高级特征的解码准确率更高。
想象物体的解码揭示了从高级到低级视觉区域的渐进激活模式，与视觉处理的层次结构一致。
fMRI模式与CNN分层视觉特征之间的对齐，表明人类视觉与机器视觉表征之间存在强烈的同源性。
该框架实现了无需类别特定微调的通用物体识别，展示了零样本泛化能力。
本研究证实，fMRI模式中包含足够信息以重建视觉特征的分层结构，支持利用脑活动实现基于内容的信息检索。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。