[论文解读] Compositional generalization in a deep seq2seq model by separating syntax and semantics
本文提出了 Syntactic Attention(句法注意力),是一种将句法(对齐)与语义(单词到输出的映射)分离的双流序列到序列模型,在 SCAN 数据集上实现超越先前模型且无需额外监督的强成分泛化能力。
Standard methods in deep learning for natural language processing fail to capture the compositional structure of human language that allows for systematic generalization outside of the training distribution. However, human learners readily generalize in this way, e.g. by applying known grammatical rules to novel words. Inspired by work in neuroscience suggesting separate brain systems for syntactic and semantic processing, we implement a modification to standard approaches in neural machine translation, imposing an analogous separation. The novel model, which we call Syntactic Attention, substantially outperforms standard methods in deep learning on the SCAN dataset, a compositional generalization task, without any hand-engineered features or additional supervision. Our work suggests that separating syntactic from semantic learning may be a useful heuristic for capturing compositional structure.
研究动机与目标
- 动机:将句法与语义分离作为实现成分化泛化的神经机制。
- 提出并实现一个 Syntactic Attention 架构,在独立的流中对句法和语义进行编码。
- 在 SCAN 上进行评估,聚焦于 add-jump 成分泛化拆分。
- 与现有模型(带注意力的 GRU、CNN)进行比较,并分析在不同随机种子下的鲁棒性。
提出的方法
- 引入两种并行的输入编码:语义表示 m_j = W_m x_j(对每个单词的线性变换)和来自句子双向RNN 的句法注释 h_j。
- 使用句法表示来计算注意力,通过标准注意力机制将输入与输出对齐(e_ij = s_i • h_j)。
- 通过将 d_i 形成为语义表示的加权和来解码(d_i = sum_j α_ij m_j),并从 d_i 生成 y_i。
- 保持分离:语义不依赖于其他单词,而句法编码影响注意力的时间依赖性。
- 对 e_ij 使用点积注意力,采用标准的 LSTM/Adam 最优化;编码器:2 层,200 个隐藏单元;解码器:1 层,400 个隐藏单元;语义向量维度 120; dropout 为 0.5。
- 在 SCAN 上进行实验验证,特别是 add-jump 拆分,其中 'jump' 除基本形式外被排除。
实验结果
研究问题
- RQ1将句法与语义分离是否能提升 seq2seq 模型的成分化泛化?
- RQ2强制注意力通过句法表示来工作是否能提升对未见结构的外推?
- RQ3放宽或改变分离的变体如何影响泛化?
主要发现
| 模型 | 简单 | 长度 | 添加左转 | 添加跳跃 |
|---|---|---|---|---|
| GRU + attn [4] | 100.0 ± 0.0 | 18.1 ± 1.1 | 59.1 ± 16.8 | 12.5 ± 6.6 |
| GRU + attn - dep [4] | 100.0 ± 0.0 | 17.8 ± 1.7 | 90.8 ± 3.6 | 0.7 ± 0.4 |
| CNN [8] | 100.0 ± 0.0 | - | - | 69.2 ± 8.2 |
| Syntactic Attention | 100.0 ± 0.0 | 15.2 ± 0.7 | 99.9 ± 0.16 | 91.0 * ± 27.4 |
- Syntactic Attention 在 SCAN add-jump 上实现最先进的成分泛化,Best 运行的平均准确率 91.0%(中位数 91.0%),超越先前模型。
- 跨种子,add-jump 表现有方差(均值 78.4%,中位数 91.0%),表明对初始化敏感。
- 在简单和长度拆分上,Syntactic Attention 在报告结果中分别达到 100.0% 和 15.2%,超过 GRU+attn 与 CNN 基线。
- 额外实验表明,序贯语义会降低泛化(例如,序贯语义:Add-jump 42.3±32.7),而语法-作用(允许句法影响输出)则保持较强表现(Add-jump 88.7±14.2)。
- 总体而言,强制句法与语义分离在没有手工设计或额外监督的情况下提升了系统性泛化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。