Skip to main content
QUICK REVIEW

[论文解读] Determination of referential property and number of nouns in Japanese sentences for machine translation into English

Masaki Murata, Makoto Nagao|ArXiv.org|May 19, 1994
Natural Language Processing Techniques被引用 35
一句话总结

本文提出了一种基于规则的专家系统,利用表层语言线索来估计日语名词的指代属性(泛指、定指、不定指)和数(单数、复数、不可数),以实现准确的英文机器翻译。通过将启发式规则应用于依存结构和上下文标记(如指示代词、数词和助词),该系统在训练数据上的指代属性检测准确率达到85.5%,数的判定准确率达到89.0%;在外部测试文本上的准确率分别为68.9%和85.6%,表明表层启发式规则在解决日语到英文翻译中的冠词和复数化歧义方面具有显著有效性。

ABSTRACT

When translating Japanese nouns into English, we face the problem of articles and numbers which the Japanese language does not have, but which are necessary for the English composition. To solve this difficult problem we classified the referential property and the number of nouns into three types respectively. This paper shows that the referential property and the number of nouns in a sentence can be estimated fairly reliably by the words in the sentence. Many rules for the estimation were written in forms similar to rewriting rules in expert systems. We obtained the correct recognition scores of 85.5\% and 89.0\% in the estimation of the referential property and the number respectively for the sentences which were used for the construction of our rules. We tested these rules for some other texts, and obtained the scores of 68.9\% and 85.6\% respectively.

研究动机与目标

  • 为解决日语名词在翻译为英文时缺乏固有冠词或复数标记的挑战。
  • 利用表层语言线索估计名词的指代属性(泛指、定指、不定指)和数(单数、复数、不可数)。
  • 开发一套启发式规则系统,模拟专家在日语句子中对名词解释的判断。
  • 在训练数据和独立测试文本上评估系统的性能,以检验其泛化能力和鲁棒性。

提出的方法

  • 系统根据上下文标记(如指示代词 KONO, ANO, SONO、主题标记 WA 和句子结构)将名词短语分类为三种指代类型:泛指、定指和不定指。
  • 在数的判定方面,基于数词(例如 1 → 单数,≥2 → 复数)、助词(WA, GA, MO, O)以及与泛指名词连用时暗示复数的动词(如 SUKI 或 TANOSHIMU)应用规则。
  • 启发式规则以类似专家系统规则的形式编码:(条件) ⇒ { category(偏好, 分数) },其中偏好和分数反映置信度水平。
  • 使用依存结构分析句法关系,以识别影响指代和数特征的修饰语和谓词。
  • 默认值被赋予(例如,当无线索时默认为单数),规则按级联方式应用以解决冲突。
  • 系统在语法教科书例句上进行训练,并在具有既定英文翻译的民间故事和散文上进行测试,以评估其泛化能力。

实验结果

研究问题

  • RQ1仅使用表层语言特征(无需深层语义分析),能否可靠估计日语名词的指代属性?
  • RQ2基于助词、指示代词、数词和谓词的启发式规则,在多大程度上能预测日语名词在翻译中的数(单数/复数/不可数)?
  • RQ3这些表层规则在泛化到训练数据之外的未见文本时,效果如何?
  • RQ4在预测指代和数特征方面,训练数据与域外测试数据之间的性能差距有多大?

主要发现

  • 在训练数据上,系统对指代属性估计的正确识别得分为85.5%,表明在受控示例中表现强劲。
  • 在数的判定方面,系统在训练集上达到89.0%的准确率,表明在检测单数、复数或不可数形式方面具有高度可靠性。
  • 在外部测试文本上,指代属性准确率下降至68.9%,数的判定准确率为85.6%,表明在未见材料上性能虽降低但仍具实际意义。
  • 性能下降表明,这些规则具备合理的泛化能力,但在抽象或复杂文本(如哲学或政治论述)中效果较弱。
  • 结果表明,表层线索(如指示代词、数词、助词和动词补语)可为日语到英文翻译中的冠词和复数化决策提供强大而可靠的指示。
  • 本研究得出结论:基于句法和语用线索的启发式规则系统,可在无需完整句间或深层语义分析的前提下,显著提升翻译质量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。