Skip to main content
QUICK REVIEW

[論文レビュー] Automatic Transferring between Ancient Chinese and Contemporary Chinese.

Zhiyuan Zhang, Wei Li|arXiv (Cornell University)|Mar 5, 2018
Natural Language Processing Techniques被引用数 5
ひとこと要約

本稿では、古代中国語と現代中国語の本文を自動的に対応付ける非教師あり手法を提案し、両者の間で文単位の翻訳を実行する序列系列モデルを学習する。この手法は単語彙集から大規模な並列コーパスを構築し、強力な性能を達成しており、専門的な歴史的知識を要する状況を除けば人間翻訳と同等の結果を示す。

ABSTRACT

During the long time of development, Chinese language has evolved a great deal. Native speakers now have difficulty in reading sentences written in ancient Chinese. In this paper, we propose an unsupervised algorithm that constructs sentence-aligned ancient-contemporary pairs out of the abundant passage-aligned corpus. With this method, we build a large parallel corpus. We propose to apply the sequence to sequence model to automatically transfer between ancient and contemporary Chinese sentences. Experiments show that both our alignment and transfer method can produce very good result except for some circumstances that even human translators can make mistakes without background knowledge.

研究の動機と目的

  • 現代の読者にとって古代中国語の本文の可読性が低下しているという課題に対処すること。
  • 手動アノテーションを一切用いずに、文書単位の単語彙集から大規模な文単位対応並列コーパスを自動的に構築すること。
  • 古代中国語と現代中国語の間で正確なエンド・ツー・エンド翻訳が可能な序列系列モデルを開発すること。
  • 特に知識集約的文脈において、人間翻訳との品質を比較して、提案手法の性能を評価すること。

提案手法

  • 大規模な単語彙集において、古代中国語と現代中国語の本文間の文単位対応を特定する非教師ありアラインメントアルゴリズムが用いられる。
  • アラインメント済みの文ペアが、序列系列モデルの学習に用いられる大規模な並列コーパスを構築するために使用される。
  • 構築された並列コーパス上で序列系列ニューラルネットワークモデルを学習し、古代中国語と現代中国語の間で自動翻訳を実行する。
  • モデルは、両言語形態間の構造的・語彙的差異に対処するためにアテンション機構を活用する。
  • この手法はゼロショット条件で評価され、単語彙集データと非教師ありアラインメントに依存する。

実験結果

リサーチクエスチョン

  • RQ1古代中国語と現代中国語の本文の非教師ありアラインメントは、高品質な文単位並列データを生成できるか?
  • RQ2自動的に構築された並列コーパス上で学習された序列系列モデルは、古代中国語と現代中国語の間の翻訳にどの程度有効か?
  • RQ3人間翻訳者ですら誤りを犯す可能性がある状況では、モデルの性能がどのように低下するか?
  • RQ4背景知識の有無が、モデル出力および人間出力の翻訳品質にどの程度影響を与えるか?

主な発見

  • 非教師ありアラインメント手法は、文書単位のコーパスから高品質な文単位対応ペアを効果的に生成できた。
  • 序列系列モデルは強力な翻訳性能を達成しており、大多数のケースで人間翻訳と同等の結果を示した。
  • モデルの性能は、分野特化型の歴史的知識を要する文脈でのみ低下し、人間翻訳者ですら誤りを犯す可能性がある状況に限られる。
  • 本手法により、手動アノテーションを一切用いずに大規模かつ低コストの並列コーパス構築が可能となり、データ準備コストを顕著に削減できた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。