QUICK REVIEW

[論文レビュー] A Multilingual Parallel Corpora Collection Effort for Indian Languages

Shashank Siripragada, Jerin Philip|arXiv (Cornell University)|Jul 15, 2020

Natural Language Processing Techniques参考文献 30被引用数 29

ひとこと要約

本論文は、10種類のインド諸言語（ヒンディー語、テルグ語、タミル語、マラヤーラム語、グジャラート語、ウルドゥー語、ベンガル語、オリヤー語、マラーティー語、パンジャブ語、および英語）をカバーする大規模なマルチリンガル並列コーパスを提示している。このコーパスは、マルチリンガルオンラインリソースから、高度なニューラル機械翻訳（NMT）およびクロスリンガルリtrieval技術を用いて構築された。このデータセットは、既存の低リソース言語リソースを顕著に拡張しており、評価のための別個の独立したテストセットも含んでおり、インド諸言語における低リソースニューラル機械翻訳の向上を可能にしている。

ABSTRACT

We present sentence aligned parallel corpora across 10 Indian Languages - Hindi, Telugu, Tamil, Malayalam, Gujarati, Urdu, Bengali, Oriya, Marathi, Punjabi, and English - many of which are categorized as low resource. The corpora are compiled from online sources which have content shared across languages. The corpora presented significantly extends present resources that are either not large enough or are restricted to a specific domain (such as health). We also provide a separate test corpus compiled from an independent online source that can be independently used for validating the performance in 10 Indian languages. Alongside, we report on the methods of constructing such corpora using tools enabled by recent advances in machine translation and cross-lingual retrieval using deep neural network based methods.

研究の動機と目的

低リソースのインド諸言語向けの大規模でマルチリンガルな並列コーパスの不足を解消すること。
オンラインのマルチリンガルコンテンツを活用して、多様なインド諸言語間で並列テキストを収集するスケーラブルな手法を開発すること。
複数のインド諸言語および英語をカバーする高品質で文単位でアラインされた並列コーパスを構築すること。
低リソース環境における機械翻訳システムの信頼性ある評価を可能にするために、別個の独立したテストコーパスを提供すること。
最近のニューラル機械翻訳およびクロスリンガル埋め込みモデルの進展を活用して、効率的かつ正確な並列文アラインメントを実現すること。

提案手法

同じコンテンツが複数のインド諸言語に同時に発表されているオンラインマルチリンガルコンテンツリソースを活用した。
ニューラル機械翻訳（NMT）モデルを用いて、ソース言語とターゲット言語ペア間のクロスリンガル文アラインメントを実行した。
深層ニューラルネットワークベースのクロスリンガルリtrieval手法を用いて、複数言語間の候補となる並列文を同定した。
自動アラインメントとヒューリスティックフィルタリングの組み合わせを用いて、並列コーパスの品質と一貫性を向上させた。
偏りのない評価を保証するため、別個のオンラインリソースから独立したテストコーパスを収集・キュレートした。
コーパス構築の過程で、低品質またはノイズの多い文ペアを除去するためのフィルタリングおよびクリーニングのヒューリスティクスを適用した。

実験結果

リサーチクエスチョン

RQ1低リソースのインド諸言語向けに、大規模でマルチリンガルな並列コーパスをどのように効率的に構築できるか？
RQ2ニューラル機械翻訳およびクロスリンガルリtrieval技術は、並列コーパス収集の品質とスケーラビリティをどの程度向上できるか？
RQ310種類のインド諸言語および英語をカバーする単一の統合型並列コーパスは、効果的な低リソースニューラル機械翻訳を可能にするか？
RQ4このコーパスで訓練された機械翻訳モデルの性能は、独立したテストセット上でどのように評価されるか？
RQ5別個の独立したテストセットを用いることで、低リソース環境におけるモデル評価の信頼性にどのような影響を与えるか？

主な発見

著者らは、10種類のインド諸言語および英語をカバーする大規模で文単位でアラインされた並列コーパスを成功裏に構築し、既存のリソースを顕著に拡張した。
このコーパスには、別個の独立したテストセットが含まれており、翻訳モデルの信頼性あるかつ偏りのない評価が可能である。
ニューラル機械翻訳およびクロスリンガルリtrieval技術の活用により、多様な言語ペア間で効率的かつスケーラブルに並列文を収集することができた。
得られたデータセットは、インド諸言語における低リソースニューラル機械翻訳システムの訓練および評価を可能にしている。
この手法は、現代のNLP技術を活用して、低リソース言語環境向けにマルチリンガル並列コーパスを構築する可能性と有効性を示している。
このデータセットは公開されており、インド諸言語における低リソース機械翻訳の発展を目的としている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。