[论文解读] Measuring Compositional Generalization: A Comprehensive Method on Realistic Data
本文定义基于分布的成分性评估(DBCA),构建 CFQ 数据集以衡量成分泛化,并显示当训练与测试之间的复合差异扩大时,最先进模型也难以应对,同时复合差异可预测准确率。
State-of-the-art machine learning methods exhibit limited compositional generalization. At the same time, there is a lack of realistic benchmarks that comprehensively measure this ability, which makes it challenging to find and evaluate improvements. We introduce a novel method to systematically construct such benchmarks by maximizing compound divergence while guaranteeing a small atom divergence between train and test sets, and we quantitatively compare this method to other approaches for creating compositional generalization benchmarks. We present a large and realistic natural language question answering dataset that is constructed according to this method, and we use it to analyze the compositional generalization ability of three machine learning architectures. We find that they fail to generalize compositionally and that there is a surprisingly strong negative correlation between compound divergence and accuracy. We also demonstrate how our method can be used to create new compositionality benchmarks on top of the existing SCAN dataset, which confirms these findings.
研究动机与目标
- 定义一个定量框架,使用来自不同分布的训练/测试集来评估成分泛化。
- 构建一个大型、真实的 NLQ-to-SPARQL 数据集(CFQ),旨在在保持原子分布相似的同时最大化复合差异。
- 在具成分挑战性的划分上比较基线架构,并分析复合差异如何与性能相关。
- 提供在现有数据集如 SCAN 之上生成新的成分性基准的办法。
- (可选)演示 CFQ 与 DBCA 方法如何促进跨任务的更广泛的成分性分析。
提出的方法
- 引入分布基成分性评估(DBCA),使用原子(规则)和复合体(规则应用)来量化划分质量。
- 使用加权子图分布和 Chernoff 系数(基于 Bhattacharyya 的原子,原子较低权重版本用于复合体)定义 compound divergence D_C 和 atom divergence D_A。
- 构建 CFQ,一个通过规则生成、(rule-based generation)的 NLQ-to-SPARQL 大型数据集,具规则应用的有向无环图(DAGs),并自动绑定到 Freebase MIDs。
- 采用迭代贪心算法,在低 D_A 下实现最大 D_C 的训练/测试划分(MCD 划分)。
- 在 CFQ 和 SCAN 数据集上,在不同的复合 divergence 的划分下比较三种架构(LSTM+attention、Transformer、Universal Transformer)。
- 分析 compound divergence 与 accuracy 之间的相关性,并对具有挑战性的划分进行错误分析。
实验结果
研究问题
- RQ1如何定量衡量数据集划分在评估成分泛化时的适用性?
- RQ2是否可以构建在保持原子分布相近的同时最大化复合差异的现实自然语言理解数据集与划分?
- RQ3当用基于 DBCA 的划分进行评估时,标准神经结构在现实数据集上是否能进行成分泛化?
- RQ4跨划分的复合差异与模型准确率之间是否存在预测关系?
- RQ5DBCA 方法是否可用于生成 CFQ 和 SCAN 以外的额外成分性基准?
主要发现
| 数据集 | Split Method | LSTM+attention | Transformer | Universal Transformer |
|---|---|---|---|---|
| CFQ | Random | 97.4 ±0.3 | 98.5 ±0.2 | 98.0 ±0.3 |
| CFQ | MCD | 14.9 ±1.1 | 17.9 ±0.9 | 18.9 ±1.4 |
| SCAN | Random | 99.9 ±2.7 | 100.0 ±0.0 | 99.9 ±0.2 |
| SCAN | MCD | 6.1 ±2.2 | 1.1 ±0.5 | 1.2 ±0.7 |
- 基线模型(LSTM+attention、Transformer、Universal Transformer)在随机划分上精度均超过95%,但在 CFQ 和 SCAN 的 MCD 划分上表现较差(低于约20%)。
- 在所有架构中,复合差异与准确率之间存在强负相关,表明随着训练与测试之间的复合体差异增大,难以进行成分泛化。
- CFQ 包含 239,357 个问题和 228,149 个唯一查询,具有丰富注释,便于成分分析;CFQ 展现出比其他语义解析数据集更丰富的查询模式。
- MCD 划分在相似原子分离度下实现更高的复合差异,相较于其他划分策略,突出该方法在挑战性成分泛化中的有效性。
- 在 SCAN 上,复合差异对准确率的预测也类似,尽管对于中等差异,模型可达到接近 100% 的准确率,反映 CFQ 与 SCAN 任务难度的差异。
- 错误分析显示大多数错误涉及省略从句或形容词,尤其在较长的序列中,表明在表达成分结构方面存在特定的失败模式。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。