[论文解读] Measuring Compositionality in Representation Learning
本文提出了 tre,一种可微分的自动化方法,通过在推断出的基本单元上进行优化以重建观测到的表征,来测量学习表征中的组合性。研究发现,虽然更高的组合性与更好的泛化能力相关,但也与整体性能较低相关,表明表征设计中存在权衡。
Many machine learning algorithms represent input data with vector embeddings or discrete codes. When inputs exhibit compositional structure (e.g. objects built from parts or procedures from subroutines), it is natural to ask whether this compositional structure is reflected in the the inputs' learned representations. While the assessment of compositionality in languages has received significant attention in linguistics and adjacent fields, the machine learning literature lacks general-purpose tools for producing graded measurements of compositional structure in more general (e.g. vector-valued) representation spaces. We describe a procedure for evaluating compositionality by measuring how well the true representation-producing model can be approximated by a model that explicitly composes a collection of inferred representational primitives. We use the procedure to provide formal and empirical characterizations of compositional structure in a variety of settings, exploring the relationship between compositionality and learning dynamics, human judgments, representational similarity, and generalization.
研究动机与目标
- 开发一种通用、自动化且定量的组合性测量方法,用于学习表征,尤其适用于向量或离散代码空间。
- 评估组合性在训练过程中的演变及其与其他模型特性(如泛化能力和表征相似性)的关系。
- 评估组合性表征是否对分布外泛化是必要的。
- 提供一种形式化、可扩展且可复现的框架,用于评估组合结构,而无需依赖人工或领域特定的分析。
提出的方法
- tre 通过将基本意义表征视为隐变量,并利用可微分的组合模型优化这些变量以重建观测到的表征,来测量组合性。
- 该方法使用梯度下降法在一组基本向量和组合操作(例如加法、绑定)上进行优化,以最小化重建误差。
- 通过在输入字符串中允许分数形式的标记计数,该方法可推广到连续表征,从而实现对离散操作的反向传播。
- 该框架支持多种组合类型,包括简单的合取、稀疏的(属性,值)对,以及非交换的字符串生成。
- 该方法可自动挖掘训练运行,以识别具有高或低组合性且泛化能力良好的模型。
实验结果
研究问题
- RQ1在训练过程中,表征的组合性如何演变,其与其它可测量的模型动态之间有何关系?
- RQ2模型的组合性在多大程度上与人类对输入中组合结构的判断一致?
- RQ3组合性在多大程度上限制了表征相似性?与其它基于相似性的分析方法相比,tre 表现如何?
- RQ4组合性表征是否对有效泛化到分布外输入是必要的?
主要发现
- 通过 tre 测量的组合性与更低的泛化误差显著相关(p < 1e-6),表明对分布偏移具有更强的鲁棒性。
- 更高的 tre 值也与更低的绝对性能显著相关(p < 1e-9),表明组合模型通常源于次优的通信策略。
- 即使在限制于成功训练运行(奖励 > 0.5)的情况下,tre 与泛化误差之间的相关性依然显著(p < 1e-3),且与性能的相关性也显著(p < 0.05)。
- 该方法成功识别出同时具备高组合性和强泛化能力的语言,如图 6 所示,tre 值分别为 4.30 和 2.96 的模型分别表现出相似的训练/测试奖励(0.78/0.61 和 0.75/0.59)。
- 低 tre 值的模型通常对应于平凡策略(例如,无论输入如何都输出固定结果),这解释了其尽管结构可能简单但性能较差的原因。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。