QUICK REVIEW

[论文解读] Automatic Transferring between Ancient Chinese and Contemporary Chinese.

Zhiyuan Zhang, Wei Li|arXiv (Cornell University)|Mar 5, 2018

Natural Language Processing Techniques被引用 5

一句话总结

本文提出一种无监督方法，可自动对齐古汉语与现代汉语文段，并训练序列到序列模型以实现两者之间的句子级翻译。该方法从单语语料库构建大规模平行语料库，性能表现强劲，除需专门历史知识的案例外，其结果与人工翻译相当。

ABSTRACT

During the long time of development, Chinese language has evolved a great deal. Native speakers now have difficulty in reading sentences written in ancient Chinese. In this paper, we propose an unsupervised algorithm that constructs sentence-aligned ancient-contemporary pairs out of the abundant passage-aligned corpus. With this method, we build a large parallel corpus. We propose to apply the sequence to sequence model to automatically transfer between ancient and contemporary Chinese sentences. Experiments show that both our alignment and transfer method can produce very good result except for some circumstances that even human translators can make mistakes without background knowledge.

研究动机与目标

为解决现代读者对古汉语文本可读性下降的问题。
在无需人工标注的情况下，自动从段落对齐的单语语料库构建大规模句子对齐平行语料库。
开发一种能够实现古汉语与现代汉语之间准确端到端翻译的序列到序列模型。
在知识密集型语境下，将所提方法的性能与人工翻译质量进行比较评估。

提出的方法

使用无监督对齐算法，从大规模单语语料库中识别古汉语与现代汉语文段之间的句子级对应关系。
将对齐的句子对用于构建大规模平行语料库，以训练序列到序列模型。
在构建的平行语料库上训练序列到序列神经网络模型，以实现古汉语与现代汉语之间的自动翻译。
该模型利用注意力机制处理两种语言形式之间的结构与词汇差异。
该方法在零样本条件下进行评估，仅依赖单语数据与无监督对齐。

实验结果

研究问题

RQ1无监督对齐古汉语与现代汉语文段能否生成高质量的句子级平行数据？
RQ2在自动构建的平行语料库上训练的序列到序列模型，在古汉语与现代汉语之间翻译任务中的有效性如何？
RQ3在何种情况下，即使人类翻译者也难以应对，模型性能仍会下降？
RQ4背景知识在多大程度上影响模型与人工输出的翻译质量？

主要发现

无监督对齐方法能成功从段落对齐的语料库中生成高质量的句子对齐对。
序列到序列模型展现出强劲的翻译性能，在大多数情况下其结果与人工翻译相当。
仅在需要特定领域历史知识的语境下，模型性能才会下降——此类情况连人类翻译者也可能出错。
该方法可实现大规模、低成本的平行语料库构建，无需人工标注，显著降低数据准备成本。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。