[论文解读] Automatic Construction of Discourse Corpora for Dialogue Translation
本文提出一种自动构建大规模平行话语语料库的方法,用于对话机器翻译,通过信息检索技术将单语电影剧本与双语字幕对齐。该方法在说话人和对话边界标注上分别达到81.79%和98.64%的准确率,并通过基于说话人的语言模型适配,使翻译质量最高提升0.5 BLEU分,同时公开发布了一个包含约10万句对的中文-英文对话语料库。
In this paper, a novel approach is proposed to automatically construct parallel discourse corpus for dialogue machine translation. Firstly, the parallel subtitle data and its corresponding monolingual movie script data are crawled and collected from Internet. Then tags such as speaker and discourse boundary from the script data are projected to its subtitle data via an information retrieval approach in order to map monolingual discourse to bilingual texts. We not only evaluate the mapping results, but also integrate speaker information into the translation. Experiments show our proposed method can achieve 81.79% and 98.64% accuracy on speaker and dialogue boundary annotation, and speaker-based language model adaptation can obtain around 0.5 BLEU points improvement in translation qualities. Finally, we publicly release around 100K parallel discourse data with manual speaker and dialogue boundary annotation.
研究动机与目标
- 解决高质量、结构化平行对话语料库在机器翻译中稀缺的问题。
- 利用单语电影剧本获取丰富的对话结构(说话人标签、对话边界),并利用双语字幕实现句子级别的平行对齐。
- 开发一种自动流程,将单语剧本中的话语级标注(说话人、对话片段)映射到对应的双语字幕段落。
- 通过领域自适应语言模型评估说话人信息对对话翻译质量的影响。
- 公开发布一个经人工验证的、约10万句对的中文-英文对话语料库,包含说话人和边界标注。
提出的方法
- 从网络爬取单语电影剧本及其对应的双语字幕。
- 利用场景/镜头切换边界信息,从电影剧本中提取对话边界和说话人标签。
- 采用信息检索(IR)方法,将剧本层面的话语标注(说话人、对话片段)映射到其对齐的字幕句子。
- 通过词对齐和句子级平行性,确保剧本与字幕段落之间的准确映射。
- 在生成的平行语料库上,使用5-gram语言模型训练基线Moses-based机器翻译系统。
- 通过按说话人性别划分训练数据,并在机器翻译解码器中结合两个独立的语言模型,实现基于说话人的语言模型适配。
实验结果
研究问题
- RQ1能否通过信息检索方法可靠地将单语剧本中的话语级标注(说话人和对话边界)投影到双语字幕中?
- RQ2与人工标注的黄金标准相比,自动标注说话人和对话边界标签的准确度如何?
- RQ3在对话机器翻译中,将说话人身份引入语言模型在多大程度上能提升翻译质量?
- RQ4所提出的方法是否可扩展,以生成大规模、高质量的平行对话语料库,适用于训练对话专用的机器翻译系统?
- RQ5话语结构对神经网络和统计机器翻译系统中连贯性和流畅性的影响如何?
主要发现
- 将剧本中的说话人标签自动映射到字幕中,与人工标注相比,准确率达到81.79%。
- 对话边界的自动标注准确率达到98.64%,表明基于信息检索的对齐方法具有高度可靠性。
- 基于说话人的语言模型适配在中文到英文测试集上使翻译性能提升+0.50 BLEU分,在英文到中文测试集上提升+0.43 BLEU分。
- 所提出的方法成功生成了一个包含丰富话语标注的10万句对平行对话语料库,并已公开用于研究。
- 结果表明,说话人身份和对话结构是提升对话翻译流畅性和连贯性的有效信号。
- 该方法在可扩展性和有效性方面表现良好,适用于从 readily available 网络资源中构建大规模、细粒度的平行话语语料库。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。