QUICK REVIEW

[论文解读] Learning to Compose Words into Sentences with Reinforcement Learning

Dani Yogatama, Phil Blunsom|arXiv (Cornell University)|Nov 28, 2016

Topic Modeling参考文献 20被引用 44

一句话总结

本文提出一种强化学习方法，用于学习特定任务的、潜在的树状结构组合以表示句子，采用带有策略网络的Tree LSTM来优化解析动作。该方法在情感分析、自然语言蕴含、语义相关性以及句子生成任务中均优于传统的自左向右RNN模型和语法监督的树状结构模型，发现了语言上直观但非标准的句法结构。

ABSTRACT

We use reinforcement learning to learn tree-structured neural networks for computing representations of natural language sentences. In contrast with prior work on tree-structured models in which the trees are either provided as input or predicted using supervision from explicit treebank annotations, the tree structures in this work are optimized to improve performance on a downstream task. Experiments demonstrate the benefit of learning task-specific composition orders, outperforming both sequential encoders and recursive encoders based on treebank annotations. We analyze the induced trees and show that while they discover some linguistically intuitive structures (e.g., noun phrases, simple verb phrases), they are different than conventional English syntactic structures.

研究动机与目标

通过发现任务特定的组合顺序来改进句子表示学习，而非依赖固定或语言学标注的结构。
探究强化学习是否能够诱导出比传统顺序或语法模型泛化能力更强的层次化句子结构。
分析在下游自然语言处理任务中，自我发现的树结构在语言合理性与性能方面的表现。
评估在训练过程中使用语义反馈是否能比无监督语法归纳更有效地生成组合架构。

提出的方法

该模型采用Tree LSTM与移进-归约解析器架构，其中组合操作（移进、归约）由通过强化学习训练的策略网络控制。
策略网络选择动作（移进或归约）以构建每个句子的潜在解析树，最终的句子表示从所诱导树的根节点获得。
强化学习通过下游任务性能的奖励信号（如分类准确率或生成任务的困惑度）来优化策略。
模型通过策略梯度方法端到端训练，由于树结构可变，每个样本都需要重构计算图。
树结构在无监督条件下推断，使模型能够偏离标准英语语法，发现替代的组合顺序。
该方法在四个任务上进行评估：情感分析、语义相关性、自然语言蕴含和句子生成，与RNN模型、固定顺序模型及语法监督模型进行比较。

实验结果

研究问题

RQ1与固定自左向右或语法标注的树结构相比，强化学习能否发现能提升下游自然语言处理任务性能的组合顺序？
RQ2该模型学习到的句法结构是什么类型？与人类标注的句法树相比，其语言直观性和结构相似性如何？
RQ3通过任务特定奖励学习组合顺序，是否能比无监督语法归纳或固定架构带来更好的泛化性能？
RQ4在多样化的自然语言处理任务中，潜在句法模型的性能与预定义组合顺序模型相比如何？

主要发现

潜在句法模型在所有四项下游任务（包括情感分析、语义相关性、自然语言蕴含和句子生成）中均优于自左向右RNN和语法监督的树状结构模型。
在SNLI和Stanford情感树库数据集上，所诱导的树结构分别取得了41.73和40.51的无标签括号F1分数，更接近左分支结构而非标准句法树。
模型发现了语言上直观的结构，如名词短语（例如：'a boy'，'his sleds'）和简单动词短语（例如：'wearing sunglasses'，'is frowning'），尽管部分组合不够直观。
在句子生成任务中，模型取得了99.0的词困惑度，优于有监督语法模型（100.8）和半监督语法模型（98.4），表明其生成质量更优。
由于每个样本需重构计算图并进行策略梯度采样，训练过程显著更慢，大型数据集（如SNLI或IMDB）收敛需3–4天。
尽管缺乏显式的句法监督，所诱导的树结构整体表现出左分支倾向，这可能解释了其在偏好自左向右处理的任务中表现强劲的原因。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。