QUICK REVIEW

[论文解读] Deep Neural Networks predict Hierarchical Spatio-temporal Cortical Dynamics of Human Visual Object Recognition

Radoslaw Martin Cichy, Aditya Khosla|arXiv (Cornell University)|Jan 12, 2016

Visual perception and processing mechanisms参考文献 47被引用 46

一句话总结

本研究表明，基于真实世界物体分类任务训练的深度神经网络（DNNs）能够准确预测人类视觉物体识别的分层时空动态。利用MEG和fMRI数据，研究发现DNN表征在时间上（从早期到晚期处理阶段）和空间上（在腹侧和背侧通路中）与大脑反应高度相似，其表现取决于真实世界训练而非仅架构本身。

ABSTRACT

The complex multi-stage architecture of cortical visual pathways provides the neural basis for efficient visual object recognition in humans. However, the stage-wise computations therein remain poorly understood. Here, we compared temporal (magnetoencephalography) and spatial (functional MRI) visual brain representations with representations in an artificial deep neural network (DNN) tuned to the statistics of real-world visual recognition. We showed that the DNN captured the stages of human visual processing in both time and space from early visual areas towards the dorsal and ventral streams. Further investigation of crucial DNN parameters revealed that while model architecture was important, training on real-world categorization was necessary to enforce spatio-temporal hierarchical relationships with the brain. Together our results provide an algorithmically informed view on the spatio-temporal dynamics of visual object recognition in the human visual brain.

研究动机与目标

使用深度神经网络（DNNs）作为计算框架，建模人类视觉物体识别的时空动态。
检验DNN表征是否在时间（通过MEG）和空间（通过fMRI）上与实际的人脑反应一致。
确定哪些因素——架构、训练过程或任务——最显著地影响DNN与人脑表征之间的相似性。
提供一种算法驱动的、量化的解释，说明视觉表征如何在人类皮层中于物体识别过程中逐步形成。
通过表征相似性分析（RSA）建立人工神经网络与人脑皮层处理之间的直接、数据驱动的比较。

提出的方法

使用反向传播算法在ImageNet 2012物体分类数据上训练了一个8层深度神经网络（DNN），在118张图像的保留测试集上达到人类水平性能。
使用表征相似性分析（RSA）通过计算表征差异矩阵（RDMs）之间的Spearman相关系数，比较DNN各层表征与fMRI和MEG数据的相似性。
以毫秒级时间分辨率（图像呈现前100ms至呈现后1000ms）获取MEG数据，通过传感器级模式解码生成时间分辨的RDMs。
对fMRI数据应用空间无偏搜索窗分析，计算DNN各层RDMs与全脑范围内局部fMRI RDMs之间的相似性（Spearman’s ρ）。
使用线性支持向量机（SVM）结合100折交叉验证和随机子采样（k=5），从MEG传感器模式中解码图像类别，生成解码准确率矩阵。
通过10,000次符号置换检验进行统计推断，采用聚 cluster 大小检验法分析时空聚类，使用自 resampling（1,000次重采样）估计标准误。

实验结果

研究问题

RQ1基于真实世界图像识别训练的深度神经网络能否再现人类视觉物体识别的分层时空动态？
RQ2DNN表征的时间动态与通过MEG测量的人脑反应时间动态相比如何？
RQ3DNN表征在多大程度上与通过fMRI测量的人脑腹侧和背侧通路中的活动空间模式一致？
RQ4哪些因素——模型架构、训练过程或任务——最强烈地影响DNN与人脑表征之间的对应关系？
RQ5DNN能否作为视觉物体识别中皮层处理的预测性、算法基础模型？

主要发现

该DNN在118张真实世界物体图像上的top-five准确率达到94%，与人类水平性能相当。
基于MEG的RSA显示，DNN表征以时间有序的级联方式出现，早期层与早期视觉反应匹配，深层则与后期皮层处理阶段对齐。
基于fMRI的RSA显示，DNN各层逐步与腹侧和背侧视觉通路中的表征匹配，高层网络与颞叶和顶叶区域对齐。
当DNN在真实世界分类任务上进行训练时，其与大脑的空间相似性最强，而非仅依赖架构或预训练。
DNN各层RDMs与大脑RDMs之间的Spearman相关系数在多个脑区和时间点达到显著水平（p < 0.05，校正后），证实了系统性对齐。
通过置换检验和自 resampling 的统计验证，确认了在不同受试者和条件下观察到的DNN-大脑相似性具有稳健性和可靠性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。