Skip to main content
QUICK REVIEW

[論文レビュー] PMIndia -- A Collection of Parallel Corpora of Languages of India

Barry Haddow, Faheem Kirefu|arXiv (Cornell University)|Jan 27, 2020
Natural Language Processing Techniques参考文献 12被引用数 68
ひとこと要約

PMIndia は、PM India のニュース更新に由来する 13 のインド語と英語を組み合わせた公開可能な平行コーパスを導入し、整列手法と初期の MT 結果を提供します。

ABSTRACT

Parallel text is required for building high-quality machine translation (MT) systems, as well as for other multilingual NLP applications. For many South Asian languages, such data is in short supply. In this paper, we described a new publicly available corpus (PMIndia) consisting of parallel sentences which pair 13 major languages of India with English. The corpus includes up to 56000 sentences for each language pair. We explain how the corpus was constructed, including an assessment of two different automatic sentence alignment methods, and present some initial NMT results on the corpus.

研究の動機と目的

  • インド語の平行コーパスのデータ不足を解消するため、英語–言語ペアの大規模コーパスの構築。
  • PM India のニュース更新を活用して、13 言語に跨る多言語文の整列を作成。
  • 複数の手法を用いて整列品質を評価し、コーパスの有用性を示す基準となる NMT 結果を提供。
  • CC-BY-4.0 の下で freely accessible リソース を提供し、南アジア言語の多言語 NLP 研究を支援。

提案手法

  • カスタムスクレーパーと Alcazar を用いて、13 言語と英語の PMIndia ニュース更新をクロールし、記事本文を抽出。
  • 対象言語すべてで拡張 Moses 文分割器を用いて文を分割。
  • crowd-sourced 辞書と LASER 埋め込みが利用可能な場合は Vecalign を用い、hunalign で文を整列; 可能な場合は 交差を使用。
  • 内在的指標(精度、再現率、F1)による整列品質評価と、英語–タミルのサブセットで KEOPS ベースの人間評価を実施。
  • 公開コーパスを用いて Marian でサブワード単位(BPE 10000 merges)を用いた NMT システムを訓練し、低リソース MT の標準ハイパーパラメータを適用。
  • 英語⇄対象言語ペアの BLEU スコアを報告し、データセットの翻訳品質をベンチマーク。

実験結果

リサーチクエスチョン

  • RQ1公にアクセス可能な政府コンテンツから、インドの13言語と英語を対にした大規模で公開可能な平行コーパスを構築できるか。
  • RQ2この多言語・低リソース設定で、異なる自動文整列法(hunalign、Vecalign)はどのように比較されるか。
  • RQ3このコーパスを用いて英語–言語ペアとその逆の機械翻訳の基準となる BLEU はどれくらいか。
  • RQ4選択された言語ペアについて人間評価で評価された内在的な整列品質はどの程度か。

主な発見

  • 各言語ペアにつき最大 56,000 文の PMIndia コーパスを公開。英語–インド語ニュース更新から抽出。
  • Vecalign は複数の言語ペアで概ね hunalign と約80%の一致を示し、英語–ヒンディー語でより高い一致を示す。
  • 内在的な人間評価は、両方の整列ツールの交差部分で高い正確性を示し、79% の妥当な整列と、非誤トークン化ケースを考慮した場合 94% のリベラル精度を示す。
  • NMT 実験は、インド語(特にドラヴィダ語族)の翻訳で BLEU スコアが低く、英語からインド語方向で比較的良好なスコアを示す。英語–ウルドゥー語と英語–マニプリ語は、データ量が小さくても比較的高い結果を示す。
  • ドラヴィダ語と他の膠着的言語特徴は翻訳の課題に寄与し、データ量だけが低性能の要因ではないことを示唆。ドメインと言語構造が重要な役割を果たす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。