[论文解读] The Neural Representation Benchmark and its Evaluation on Brain and Machine
本文提出了一项新颖的基准,通过测量核矩阵的有序特征分解上的分类损失,来评估视觉表征,从而实现对猕猴视觉皮层(V4 和 IT)神经表征与机器学习模型的直接比较。研究发现,在图像变化程度较高的情况下,一种深度监督网络(Krizhevsky et al., 2012)的表现超过了 IT 皮层,这是首次有学习算法在性能上超越当前对灵长类 IT 皮层表征效能的估计。
A key requirement for the development of effective learning representations is their evaluation and comparison to representations we know to be effective. In natural sensory domains, the community has viewed the brain as a source of inspiration and as an implicit benchmark for success. However, it has not been possible to directly test representational learning algorithms directly against the representations contained in neural systems. Here, we propose a new benchmark for visual representations on which we have directly tested the neural representation in multiple visual cortical areas in macaque (utilizing data from [Majaj et al., 2012]), and on which any computer vision algorithm that produces a feature space can be tested. The benchmark measures the effectiveness of the neural or machine representation by computing the classification loss on the ordered eigendecomposition of a kernel matrix [Montavon et al., 2011]. In our analysis we find that the neural representation in visual area IT is superior to visual area V4. In our analysis of representational learning algorithms, we find that three-layer models approach the representational performance of V4 and the algorithm in [Le et al., 2012] surpasses the performance of V4. Impressively, we find that a recent supervised algorithm [Krizhevsky et al., 2012] achieves performance comparable to that of IT for an intermediate level of image variation difficulty, and surpasses IT at a higher difficulty level. We believe this result represents a major milestone: it is the first learning algorithm we have found that exceeds our current estimate of IT representation performance. We hope that this benchmark will assist the community in matching the representational performance of visual cortex and will serve as an initial rallying point for further correspondence between representations derived in brains and machines.
研究动机与目标
- 建立一个标准化的、定量的基准,用于评估大脑与机器中的视觉表征。
- 通过核分析测量表征效能,解决神经表征与机器学习表征之间缺乏直接比较的问题。
- 评估最先进机器学习算法在多大程度上匹配或超越灵长类视觉皮层区域(V4 和 IT)的表征性能。
- 使研究人员能够使用共享数据集和工具,将自身模型与来自猕猴 V4 和 IT 的神经数据进行测试和比较。
- 为脑启发与脑模拟表征学习系统之间的未来跨学科对应关系奠定基础。
提出的方法
- 该基准采用核分析,具体为计算从特征表征中导出的核矩阵的有序特征分解上的分类损失。
- 该方法通过评估决策边界复杂性逐渐增加时的表征性能,避免了数据集大小和采样变异性的干扰。
- 猕猴 V4 和 IT 的神经表征通过 Majaj et al. (2012) 提供的 fMRI 和电生理数据进行测量,这些数据被映射到图像刺激。
- 通过提取机器学习模型的特征表征,并应用相同的核分析框架来评估其性能。
- 该基准对小样本量具有鲁棒性,因此适用于刺激重复次数有限的神经数据。
- 该框架通过使用相同的评估协议和度量标准,实现了生物表征与人工表征之间的直接、定量比较。
实验结果
研究问题
- RQ1我们能否定义一个通用的、定量的基准,用于在大脑与机器之间评估和比较视觉表征?
- RQ2灵长类视觉区域 IT 的表征性能与 V4 及现代深度学习模型相比如何?
- RQ3无监督和监督的深度学习算法在多大程度上能够匹配或超越灵长类 IT 皮层的表征质量?
- RQ4随着图像变化难度的增加,机器学习模型的性能是否提升?它们在不同变化水平下与神经表征相比表现如何?
- RQ5核分析能否作为神经数据典型小样本情况下的可靠且收敛的度量,用于评估表征效能?
主要发现
- 灵长类视觉区域 IT 的神经表征优于 V4,表明在皮层视觉层级更高层中表征效能有所提升。
- 一个三层深度置信网络(Le et al., 2012)在性能上与 V4 相当,并在高变化任务中表现更优。
- 监督深度卷积网络(Krizhevsky et al., 2012)在中等变化任务中与 IT 表征性能相当,在高变化任务中则表现更优。
- 这是首次发现有学习算法在性能上超越当前对灵长类 IT 皮层表征效能的估计。
- 该基准在小样本量下收敛迅速,适用于评估刺激重复次数有限的神经数据。
- 作者发布了图像数据集、分析工具以及 V4 和 IT 的神经测量数据,以促进社区范围内的采用与可重复性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。