QUICK REVIEW

[论文解读] Multimodal neural networks better explain multivoxel patterns in the hippocampus

Bhavin Choksi, Milad Mozafari|arXiv (Cornell University)|Dec 10, 2021

Visual Attention and Saliency Detection参考文献 23被引用 24

一句话总结

本研究调查了CLIP等多模态神经网络是否比单模态（视觉或语言）模型更有效地解释人类海马体内的fMRI多体素活动模式。通过表示相似性分析（RSA），作者证明多模态模型在解释海马体活动方面显著优于单模态模型，且多模态网络达到了噪声上限——表明其解释了大脑反应中所有可解释的方差。

ABSTRACT

The human hippocampus possesses "concept cells", neurons that fire when presented with stimuli belonging to a specific concept, regardless of the modality. Recently, similar concept cells were discovered in a multimodal network called CLIP (Radford et at., 2021). Here, we ask whether CLIP can explain the fMRI activity of the human hippocampus better than a purely visual (or linguistic) model. We extend our analysis to a range of publicly available uni- and multi-modal models. We demonstrate that "multimodality" stands out as a key component when assessing the ability of a network to explain the multivoxel activity in the hippocampus.

研究动机与目标

确定多模态神经网络是否比单模态模型更有效地解释人类海马体内的fMRI多体素活动模式。
探究多模态性在建模大脑表征中的作用，特别是与‘概念细胞’相关区域的作用。
评估在多种感觉模态（如视觉和语言）上训练的模型是否比纯视觉或语言模型更好地捕捉海马体的表征结构。
评估这些发现在线性表示相似性分析（RSA）中不同体素选择方法和距离度量下的稳健性。

提出的方法

应用表示相似性分析（RSA）比较fMRI数据和深度神经网络激活的表示差异矩阵（RDMs）。
使用皮尔逊相关距离（1 - 相关系数）构建RDMs，以衡量大脑和模型空间中不同刺激之间的表示相似性。
使用五名参与者观看ImageNet图像的公开fMRI数据，通过SPM12进行预处理，并通过GLM分析提取beta系数。
通过噪声上限对RSA值进行归一化，以实现跨模型和跨脑区的比较，确保模型-大脑相似性估计的可靠性。
根据训练目标和模态将模型分为三类——视觉、语言和多模态。
通过改变所选体素数量（基于beta值阈值）进行控制分析，以检验结果对体素选择标准的稳健性。

实验结果

研究问题

RQ1多模态神经网络是否比单模态视觉或语言模型更有效地解释人类海马体内的fMRI活动模式？
RQ2模型的多模态特性是否是解释海马体多体素模式的关键因素？
RQ3多模态模型与单模态模型在不同脑区（尤其是海马体和梭状回）的表现如何比较？
RQ4观察到的结果是否对RSA中体素选择和距离度量选择的变化具有稳健性？

主要发现

多模态模型，尤其是CLIP，在解释海马体内的fMRI活动方面显著优于视觉和语言模型（Welch’s t检验，p < 0.05）。
多模态网络在海马体内达到了噪声上限，表明其解释了大脑反应中所有可解释的方差——这一结果在其他任何模型组或脑区均未观察到。
多模态模型的性能优势在不同体素选择阈值下保持一致，证实了研究结果的稳健性。
在梭状回中观察到类似但较不显著的趋势，多模态模型也优于单模态模型，尽管RSA值较低且波动较大。
结果对替代距离度量也具有稳健性，附录中已证实，支持选择皮尔逊相关距离的可靠性。
视觉和视觉-语言模型的表现优于纯语言模型，这符合预期，因为刺激具有视觉性质。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。