[论文解读] What shapes feature representations? Exploring datasets, architectures, and training
论文研究神经网络如何通过在合成数据集上控制特征有用性与相关性来塑造特征表示,显示可增强与抑制特征、依赖于易于解码的特征,以及跨模型的表征相似性模式。
In naturalistic learning problems, a model's input contains a wide range of features, some useful for the task at hand, and others not. Of the useful features, which ones does the model use? Of the task-irrelevant features, which ones does the model represent? Answers to these questions are important for understanding the basis of models' decisions, as well as for building models that learn versatile, adaptable representations useful beyond the original training task. We study these questions using synthetic datasets in which the task-relevance of input features can be controlled directly. We find that when two features redundantly predict the labels, the model preferentially represents one, and its preference reflects what was most linearly decodable from the untrained model. Over training, task-relevant features are enhanced, and task-irrelevant features are partially suppressed. Interestingly, in some cases, an easier, weakly predictive feature can suppress a more strongly predictive, but more difficult one. Additionally, models trained to recognize both easy and hard features learn representations most similar to models that use only the easy feature. Further, easy features lead to more consistent representations across model runs than do hard features. Finally, models have greater representational similarity to an untrained model than to models trained on a different task. Our results highlight the complex processes that determine which features a model represents.
研究动机与目标
- 确定训练如何改变目标特征与非目标特征在受控合成数据集中的可解码性。
- 在多个特征共同预测标签时,识别模型在学习过程中是增强还是抑制特征。
- 考察特征相关性如何影响表征选择以及对相关非目标特征的抑制。
- 评估特征难度与可学习性如何影响特征选择和表征稳定性。
- 评估在相同任务、不同任务以及训练与未训练模型之间的表征比较。
提出的方法
- 创建可控目标与非目标特征(形状、纹理、颜色)的合成视觉数据集,并训练AlexNet与ResNet-50来对目标特征进行分类。
- 使用线性解码器将层激活映射到特征标签,比较训练前后的可解码性。
- 使用解码分析评估在各层中目标与非目标特征的增强与抑制。
- 构建相关特征数据集(三特征相关)和二进制易/难特征数据集,以研究冗余性与权衡。
- 应用表征相似性分析(RSA)比较模型、任务、架构与训练 regime 下的表征。
实验结果
研究问题
- RQ1训练如何在不同层与架构中增强目标特征并抑制非目标特征?
- RQ2当两个特征对标签具有冗余预测时,模型偏向表示哪一个特征,原因何在?
- RQ3模型是否更偏好易于学习的特征,而非更具预测性的但更难的特征,这如何影响表征?
- RQ4特征相关性如何影响对相关非目标特征的可解码性及其抑制?
- RQ5在同一任务与不同任务、以及未训练模型之间,表征相似性有何差异?
主要发现
- 训练后目标特征的可解码性高于未训练模型,而非目标特征被抑制但未完全消除。
- 当两个特征冗余预测标签时,模型偏好其中一个特征,符合未训练时的解码序列(颜色 > 形状 > 纹理)。
- 一个更易获得但预测性较弱的特征可以抑制一个更强预测性但更难的特征(懒惰学习)。
- 易特征在多次运行中产生更一致的表征,多任务模型类似于在易特征上训练的模型。
- 表征相似性由易特征主导;在同一任务上训练的模型彼此更相似,与在不同任务上训练的模型相比较,未训练模型有时比跨任务模型更相似。
- 未训练的表征捕捉到相当大的一些任务相关结构,可以预测特征的可解码性和潜在使用情况。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。