Skip to main content
QUICK REVIEW

[论文解读] Statistical Machine Translation by Parsing

I. Dan Melamed, Wei Wang|arXiv (Cornell University)|Jul 1, 2004
Natural Language Processing Techniques被引用 2
一句话总结

本文提出了一种广义解析框架,通过将传统解析扩展以处理字符串元组和多维语法,实现了语法感知的统计机器翻译(SMT)。该框架提出三种核心抽象——同步解析器、翻译器和同步器,统一了句法结构推断与对齐,为训练和部署语法感知SMT系统提供了系统性方法。

ABSTRACT

Designers of statistical machine translation (SMT) systems have begun trying to exploit tree-structured syntactic information. This article offers a coherent algorithmic framework to facilitate such efforts. Our main contribution is a generalization of the common notion of parsing. In an ordinary parser, the input is a single string, and the grammar ranges over strings. In order to use syntactic information, an SMT system requires generalizations of ordinary parsing algorithms that allow the input to consist of string tuples and/or the grammar to range over string tuples. Three particular generalizations, connected by some trivial glue, are all that is necessary for syntax-aware SMT: • A synchronous parser is an algorithm that can infer the syntactic structure of each component text in a multitext and simultaneously infer the correspondence relation between these structures. • When a parser’s input can have fewer dimensions than the parser’s grammar, it is a translator. • When a parser’s grammar can have fewer dimensions than the parser’s input, it is a synchronizer. This article offers a guided tour of these generalized parsing algorithms. It culminates with a recipe for using generalized parsing algorithms to train and apply a syntax-aware SMT system.

研究动机与目标

  • 为解决在统计机器翻译系统中整合句法结构缺乏统一算法框架的问题。
  • 将传统解析广义化,以支持多份文本的联合句法分析及其结构对齐。
  • 通过三种广义解析抽象形式化解析、翻译与同步在语法感知SMT中的角色。
  • 为使用所提出的广义解析算法训练和应用语法感知SMT系统,提供实用且系统化的方法。

提出的方法

  • 引入同步解析器的概念,联合推断多份文本的句法结构及其结构对应关系。
  • 将翻译器定义为输入维度少于其语法的解析器,实现从一种语言到另一种语言的翻译并保持句法对齐。
  • 将同步器定义为语法维度少于其输入的解析器,实现跨不同文本维度的结构对齐。
  • 建立统一框架,使这三种广义解析类型基于共同的理论基础和共享的算法原则相连接。
  • 通过将翻译建模为多语种文本对中对齐句法结构的解析任务,将该框架应用于SMT。
  • 利用广义解析框架训练和应用语法感知SMT系统,利用句法结构提升翻译性能。

实验结果

研究问题

  • RQ1如何将传统解析广义化,以支持多份文本的联合句法分析及其结构对齐?
  • RQ2在语法感知机器翻译中,统一解析、翻译与同步所需的正式抽象是什么?
  • RQ3语法如何覆盖字符串元组以支持机器翻译中的多维句法分析?
  • RQ4输入与语法之间维度不匹配在定义翻译与同步任务中的作用是什么?
  • RQ5能否构建一个统一的解析框架,以实现语法感知SMT系统的系统化训练与应用?

主要发现

  • 所提出的框架成功将传统解析广义化,以处理字符串元组和多维语法,实现了语法感知SMT。
  • 同步解析、翻译与同步在单一算法框架下被正式统一,且具有明确的语义角色。
  • 该框架为使用广义解析算法训练和应用语法感知SMT系统提供了系统性方法。
  • 输入与语法之间维度不匹配的抽象,使得解析、翻译与同步任务之间的界限更加清晰。
  • 该方法为在统计机器翻译中整合句法结构提供了连贯且可扩展的基础,无需引入临时扩展。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。