[论文解读] Multi-lingual Dialogue Act Recognition with Deep Learning Methods
本文提出两种基于深度学习的多语言对话行为(DA)识别方法,采用word2vec嵌入:一种在所有语言上联合训练的多语言模型,以及一种使用CCA对齐语义空间的跨语言模型。多语言模型优于跨语言方法,在Verbmobil语料库上,Bi-LSTM达到74.9%的准确率,表现出与单语系统相当的最先进性能。
This paper deals with multi-lingual dialogue act (DA) recognition. The proposed approaches are based on deep neural networks and use word2vec embeddings for word representation. Two multi-lingual models are proposed for this task. The first approach uses one general model trained on the embeddings from all available languages. The second method trains the model on a single pivot language and a linear transformation method is used to project other languages onto the pivot language. The popular convolutional neural network and LSTM architectures with different set-ups are used as classifiers. To the best of our knowledge this is the first attempt at multi-lingual DA recognition using neural networks. The multi-lingual models are validated experimentally on two languages from the Verbmobil corpus.
研究动机与目标
- 为神经网络为基础的NLP中多语言对话行为识别方法的稀缺性提供解决方案。
- 通过在对话系统中实现跨语言迁移学习,减少人工标注工作量。
- 评估使用word2vec嵌入的深度神经网络在多语言DA识别中的有效性。
- 比较多语言训练与基于CCA投影的中间语言迁移方法。
- 评估对话历史和不同神经架构对DA识别性能的影响。
提出的方法
- 在所有语言的对话行为标注数据合并池上训练单一多语言分类器,使用共享的word2vec嵌入。
- 采用中间语言策略,即仅在一个语言上训练模型,其他语言通过CCA投影到其语义空间。
- 采用两种神经架构:使用最大池化的CNN和用于序列建模的双向LSTM。
- 以word2vec嵌入作为输入特征,并在Verbmobil语料库上进行微调实验。
- 将对话历史作为输入上下文以提升分类性能。
- 使用准确率和F1-score在Verbmobil语料库的英语和德语数据上评估模型。
实验结果
研究问题
- RQ1能否使用共享的word2vec嵌入,在多语言对话行为数据上有效训练单一深度神经网络?
- RQ2通过CCA投影将非中间语言映射到中间语言的语义空间,是否能实现有效的跨语言对话行为识别?
- RQ3在多语言DA识别任务中,不同神经架构(CNN与Bi-LSTM)的表现如何?
- RQ4在多大程度上,引入对话历史能提升DA识别准确率?
- RQ5在Verbmobil语料库上,微调预训练的word2vec嵌入是否对多语言DA识别有帮助?
主要发现
- 多语言模型在使用Bi-LSTM并结合对话历史时,F1得分为74.9%,优于跨语言方法。
- 基于CCA投影的跨语言模型在从英语预测德语DA时,F1得分仅为34.0%,表明迁移能力有限。
- Bi-LSTM架构在所有设置中均优于两种CNN配置,达到最高的F1得分74.9%。
- 对话历史在几乎所有配置中均提升了性能,最佳结果出现在Bi-LSTM模型中包含历史信息时。
- word2vec嵌入的微调未提升性能,表明预训练嵌入在此任务中已达到最优。
- 所提出的多语言模型在Verbmobil测试集上达到最先进性能,F1得分为74.9%,与单语系统相当。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。