QUICK REVIEW

[论文解读] Recurrent Convolutional Neural Networks for Discourse Compositionality

Nal Kalchbrenner, Phil Blunsom|arXiv (Cornell University)|Jun 15, 2013

Topic Modeling参考文献 20被引用 188

一句话总结

本文提出了一种用于话语组成性的新型循环卷积神经网络（RCNN），结合了用于句子级语义组合的分层卷积神经网络（HCNN）与用于建模话语级交互的说话人条件RNN。该模型在无需特征工程或预训练的情况下，仅使用贪婪解码和端到端训练，即在对话行为分类任务上取得了最先进性能（73.9%准确率）。

ABSTRACT

The compositionality of meaning extends beyond the single sentence. Just as words combine to form the meaning of sentences, so do sentences combine to form the meaning of paragraphs, dialogues and general discourse. We introduce both a sentence model and a discourse model corresponding to the two levels of compositionality. The sentence model adopts convolution as the central operation for composing semantic vectors and is based on a novel hierarchical convolutional neural network. The discourse model extends the sentence model and is based on a recurrent neural network that is conditioned in a novel way both on the current sentence and on the current speaker. The discourse model is able to capture both the sequentiality of sentences and the interaction between different speakers. Without feature engineering or pretraining and with simple greedy decoding, the discourse model coupled to the sentence model obtains state of the art performance on a dialogue act classification experiment.

研究动机与目标

为了建模超越单个句子的语义组成性，实现从词级到话语级语义形成的扩展。
为解决缺乏系统性、基于神经网络的话语组成性方法的问题，这些方法需同时捕捉序列结构与说话人交互。
开发一个统一框架，结合句子级语义组合与话语级建模，使用可端到端训练的神经网络。
在无需依赖预训练或人工特征的情况下，评估模型在对话行为分类这一话语理解关键任务上的表现。

提出的方法

句子模型采用分层卷积神经网络（HCNN），在词向量上应用逐特征卷积，通过逐渐增大的卷积核大小，以在长度为l的句子中捕捉长距离依赖，感受感受野深度约为√(2l)。
每个卷积层对每个特征使用不同的权重，但跨词共享权重，从而在不进行显式句法解析的情况下保留词序。
话语模型在句子模型基础上扩展，使用一个RNN，其隐藏状态由当前句子向量和当前说话人身份共同决定。
RNN通过交叉熵损失与L2正则化进行训练，预测通过输出分布的贪婪解码生成。
词向量随机初始化（25维），无需预训练，模型从对话行为标签端到端学习语义与语用表征。
话语级表征从RCNN的最终隐藏状态中提取，结果显示其能捕捉话语间的语用相似性。

实验结果

研究问题

RQ1分层卷积架构是否能有效建模句子级语义组合，而无需依赖句法结构或预训练？
RQ2说话人条件RNN是否能同时捕捉话语的序列结构与对话中的说话人交互？
RQ3端到端可训练的RCNN模型是否能在无需特征工程或预训练的情况下实现对话行为分类的最先进性能？
RQ4所学习的话语向量表征在多大程度上反映语用相似性，而非仅语义相似性？

主要发现

RCNN模型在Switchboard对话行为语料库上的对话行为分类任务中达到73.9%的准确率，优于最佳基线方法（LM-HMM三元语法，准确率为71.0%）。
该模型超越了所有基线模型，包括一元语法、二元语法和三元语法语言模型HMM，以及多数类基线（31.5%）和随机基线（2.4%）。
RCNN生成的话语向量表征捕捉了语用相似性，表现为最近邻示例中语义不同的语句因具有相似的对话行为角色而被归为一类。
该模型在无需任何预训练或特征工程的情况下实现了最先进性能，完全依赖端到端训练、交叉熵损失与贪婪解码。
消融实验表明，将RNN深度增加至d>2并未提升性能，表明该任务中短期上下文已足够。
所学习的表征反映了语用角色：例如‘修理你自己的车’和‘管理资金’等词语并非因语义相似而聚类，而是因在对话中具有相似的功能角色而被归为一类。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。