[论文解读] A discourse based approach in text-based machine translation
本文提出一种基于语篇的消解文本机器翻译中省略现象的方法,通过系统性拆解将复杂语篇转化为基本语篇。该方法将语篇公式应用于真实报纸文本,相较于Khan(1995)的研究,识别出新的基本语篇模式,并通过真实语料片段的经验分析进行验证。
This paper presents a theoretical research based approach to ellipsis resolution in machine translation. Moreover, the formula of discourse is applied in order to resolve ellipses. The validity of the discourse formula is analyzed by applying it to the real world text i.e. newspaper fragments. The source text is converted into mono-sentential discourses where complex discourses require further dissection either directly into primitive discourses or first into compound discourses and later into primitive ones. The procedure of dissection needs further improvement i.e. discovering as many primitive discourse forms as possible. This work is further improvement to the concepts presented by Khan (Khan, 1995). Likewise, an attempt has been made to investigate new primitive discourses i.e. patterns from the given text.
研究动机与目标
- 通过语篇分析解决文本型机器翻译中的省略消解挑战。
- 在Khan(1995)框架基础上,从现实文本中识别出新的基本语篇形式。
- 通过报纸片段的经验分析验证语篇公式的有效性。
- 改进复杂语篇向基本语篇或复合语篇的拆解过程。
- 为语篇感知的机器翻译系统提供更坚实的理论基础。
提出的方法
- 将源文本转化为单句语篇,以简化分析。
- 直接将复杂语篇拆解为基本语篇,或通过中间的复合语篇进行拆解。
- 应用语篇公式,通过利用上下文和结构关系来消解省略。
- 通过分析真实报纸片段来检验语篇公式的有效性和适用性。
- 通过源材料的文本分析识别出新的基本语篇模式。
- 改进拆解程序,以尽可能发现更多的基本语篇形式。
实验结果
研究问题
- RQ1语篇结构如何被系统性地分解,以在机器翻译中消解省略?
- RQ2从现实文本中可推导出的最有效的基本语篇形式是什么?
- RQ3语篇公式在报纸片段中在多大程度上提升了省略消解效果?
- RQ4所提出的方法在多大程度上超越了Khan(1995)的基于语篇的翻译框架?
- RQ5当前用于识别基本语篇的拆解过程中存在哪些局限性?
主要发现
- 语篇公式通过利用上下文语篇结构,有效消解了真实报纸片段中的省略现象。
- 通过经验性文本分析成功识别出新的基本语篇模式,扩展了先前的研究成果。
- 将复杂语篇拆解为基本语篇形式,提升了省略消解的精确度。
- 该方法在真实文本中表现出可行性,验证了理论框架的有效性。
- 拆解程序仍需进一步优化,以最大化基本语篇形式的发现。
- 该方法为语篇感知的机器翻译系统提供了坚实的基础。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。