QUICK REVIEW

[论文解读] Automated Postediting of Documents

Kevin Knight, Ishwar Chander|ArXiv.org|Jul 29, 1994

Natural Language Processing Techniques参考文献 12被引用 168

一句话总结

本文提出了一种可移植的、基于规则的自动化后编辑模块，用于机器翻译中英语名词短语的冠词选择，该模块基于从网络文本中提取的20多万条规则进行训练。通过在高频中心名词上使用基于特征的学习决策树，该模块在77%的测试实例上实现了81%的准确率，接近人类水平，证明了在不同机器翻译系统中可分离、可重用的后编辑模块的可行性。

ABSTRACT

Large amounts of low- to medium-quality English texts are now being produced by machine translation (MT) systems, optical character readers (OCR), and non-native speakers of English. Most of this text must be postedited by hand before it sees the light of day. Improving text quality is tedious work, but its automation has not received much research attention. Anyone who has postedited a technical report or thesis written by a non-native speaker of English knows the potential of an automated postediting system. For the case of MT-generated text, we argue for the construction of postediting modules that are portable across MT systems, as an alternative to hardcoding improvements inside any one system. As an example, we have built a complete self-contained postediting module for the task of article selection (a, an, the) for English noun phrases. This is a notoriously difficult problem for Japanese-English MT. Our system contains over 200,000 rules derived automatically from online text resources. We report on learning algorithms, accuracy, and comparisons with human performance.

研究动机与目标

开发一种可分离、可重用的后编辑模块，以改善机器翻译、光学字符识别和非母语者生成的低至中等质量英语文本。
解决英语名词短语中冠词选择这一长期存在的挑战，尤其是在日语-英语机器翻译中尤为困难，人工后编辑耗时且易出错。
创建一种独立于任何特定机器翻译系统内部架构的系统，以实现可移植性和广泛重用。
通过从大规模语料库中自动学习规则，实现接近人类水平的准确率。
证明即使在复杂的句法任务中，也可以通过基于语言特征的统计学习构建高准确率、通用型的后编辑模块。

提出的方法

该系统采用决策树学习方法（Quinlan, 1986）来建模部分词性、中心名词频率和周围词语等语言特征之间的相互作用。
特征包括中心名词、其词性类别，以及名词短语前后各两个词，每个特征对冠词预测贡献一票。
算法使用基于熵的分裂方法计算信息增益：通过最小化 H(p) = -p log p - (1-p) log(1-p) 来选择每个节点的最优特征。
为减轻计算负载，将训练实例少于四个的特征予以舍弃，并在每个节点使用 p（'the' 的概率）的闭式近似。
训练数据按高频中心名词（如 'president'）进行划分，为最常用的1,600个中心名词分别构建决策树，覆盖77%的测试实例。
对于低频中心名词（占23%的实例），系统默认猜测为'the'，在该子集上达到66%的准确率。

实验结果

研究问题

RQ1能否构建一个可移植、可分离的后编辑模块，在不依赖特定机器翻译系统内部表示的情况下，提升多个机器翻译系统的文本质量？
RQ2从大规模文本语料中自动学习，能在多大程度上实现与人工后编辑者相当的冠词选择准确率？
RQ3性能如何随训练数据量和中心名词频率变化？低频名词是否能通过共享特征有效分组？
RQ4决策树模型能否有效整合多种语言特征（如词性、上下文）以解决冠词使用的歧义？

主要发现

当在90%的数据上进行训练时，该系统在以'president'结尾的名词短语上实现了89%的测试集准确率，决策树包含171个节点。
对于最常用的1,600个中心名词（覆盖77%的测试实例），系统实现了81%的准确率，接近人类水平表现。
在剩余23%的低频中心名词实例上，系统通过默认猜测'the'实现了66%的准确率，整体准确率达到78%。
学习曲线显示，随着训练数据量增加，性能稳步提升，对以'stock'结尾的短语达到94%的准确率，对以'year'结尾的短语达到90%的准确率。
通过剪枝稀有特征并使用 p 值的闭式近似，实现了对包含40多万个样本和3万个特征的数据集的高效训练。
结果表明，通过自动规则学习可以构建高准确率、通用型的后编辑模块，为硬编码改进方案提供了一种可扩展的替代方案。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。