[论文解读] Automatic Discovery of Non-Compositional Compounds in Parallel Data
本文提出了一种高效的信息论方法,通过比较统计机器翻译模型,自动发现双语并行文本中的非组合性词组(NCCs)。通过迭代识别翻译模型中具有高预测能力的词序列,该方法每轮可发现数百个NCCs,显著提升机器翻译质量,且无需单语数据或组合性假设,实现了对词素单位的更好建模。
Automatic segmentation of text into minimal content-bearing units is an unsolved problem even for languages like English. Spaces between words offer an easy first approximation, but this approximation is not good enough for machine translation (MT), where many word sequences are not translated word-for-word. This paper presents an efficient automatic method for discovering sequences of words that are translated as a unit. The method proceeds by comparing pairs of statistical translation models induced from parallel texts in two languages. It can discover hundreds of non-compositional compounds on each iteration, and constructs longer compounds out of shorter ones. Objective evaluation on a simple machine translation task has shown the method's potential to improve the quality of MT output. The method makes few assumptions about the data, so it can be applied to parallel data other than parallel texts, such as word spellings and pronunciations.
研究动机与目标
- 解决在文本中识别非组合性词组(NCCs)的挑战,因习语意义导致逐词翻译失败。
- 通过检测作为单一词汇项而非组合性翻译的多词单位,提升机器翻译性能。
- 开发一种对数据假设极少的方法,使其可扩展至并行文本之外的应用,如拼写和语音对齐。
- 提供一种可扩展的自动化NCC发现解决方案,避免对所有候选短语进行穷举测试。
提出的方法
- 该方法比较两种统计翻译模型:一种将词序列视为单一单位(NCC),另一种将其视为独立单词。
- 使用信息论目标函数衡量每种模型的预测能力,预测能力越高,越支持NCC假设。
- 通过基于目标函数改进程度评估候选序列,利用启发式方法优先处理可能的候选,迭代发现NCCs。
- 从已验证的短NCCs构建更长的复合词,实现对复杂习语的分层发现。
- 该方法依赖独立性假设以降低计算成本,使每对模型可评估数百个NCCs。
- 该方法可推广至任何并行数据,包括词形拼写和语音表示,而不仅限于文本双语语料。
实验结果
研究问题
- RQ1能否在无需先验语言学标注的情况下,仅使用统计翻译模型和并行数据自动发现双语并行文本中的非组合性词组?
- RQ2如何利用翻译模型的预测能力识别作为单一词汇项翻译的多词单位?
- RQ3识别NCCs在多大程度上能提升机器翻译系统的性能?
- RQ4该方法能否应用于非文本并行数据,如拼写和语音表示?
- RQ5不同翻译模型的目标函数如何影响词序列表达的组合性分类与发现?
主要发现
- 该方法仅使用统计翻译模型和并行数据,每轮成功发现数百个非组合性词组。
- 在机器翻译任务上的客观评估显示,引入发现的NCCs后,翻译质量得到可测量的提升。
- 该方法在前五轮迭代中验证了50个NCCs,包括高频短语如'kick the bucket'和'hot dog',其语义并非组合性。
- 该方法检测到非组合性翻译,如'tax base' → 'assiette fiscale' 和 'red tape' → 'la paperasserie',证实其对习语性的敏感性。
- 该方法超越文本范畴,在拼写和语音对齐中也发现NCCs,如'Della Noce'和'Ottawa Valley',证明其广泛应用潜力。
- 通过使用启发式方法和独立性假设,该算法实现了显著的计算效率,避免对所有可能词序列进行穷举搜索。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。