[論文レビュー] The IIT Bombay English-Hindi Parallel Corpus
本稿では、英語-ヒンディー語機械翻訳のための公開可能な最大規模の平行コーパスであるIITボンベイ英語-ヒンディー語平行コーパスを提示する。このコーパスは、149万件の平行セグメントを含み、そのうち69万4千件は以前に公に提供されていなかった新規セグメントである。このコーパスは、フレーズベースSMTおよびニューラル機械翻訳(NMT)をサポートし、ベースラインBLEUスコアは12.23(EN→HI)および12.83(HI→EN)であり、非営利研究を目的としてクリエイティブ・コモンズ・ライセンスの下で自由に利用可能である。
We present the IIT Bombay English-Hindi Parallel Corpus. The corpus is a compilation of parallel corpora previously available in the public domain as well as new parallel corpora we collected. The corpus contains 1.49 million parallel segments, of which 694k segments were not previously available in the public domain. The corpus has been pre-processed for machine translation, and we report baseline phrase-based SMT and NMT translation results on this corpus. This corpus has been used in two editions of shared tasks at the Workshop on Asian Language Translation (2016 and 2017). The corpus is freely available for non-commercial research. To the best of our knowledge, this is the largest publicly available English-Hindi parallel corpus.
研究の動機と目的
- 公開可能な英語-ヒンディー語平行コーパスを統合・拡張し、それらがかつては規模と範囲に制限があったことを目的とする。
- 英語とヒンディー語間の高品質な機械翻訳を可能にするために、ヒンディー語におけるデジタルコミュニケーションの増大に応えること。
- 訓練およびベンチマーク用に、包括的で事前処理済みかつ自由に利用可能な平行コーパスを提供すること。
- アジア言語翻訳の共同タスクを支援し、インドの言語における低リソース言語翻訳を改善すること。
- 政府のウェブサイトやバックトランスレーションなどの合成データ技術を活用した今後の向上の基盤を築くこと。
提案手法
- コーパスは、OPUS、WMT、TEDトークス、およびインド政府のウェブサイト、司法文書、多言語辞書から新たに収集したデータを含む17のソースから構成された。
- 新規サブコーパスは、Mahashabdkosh辞書のウェブクローリング、インド政府ポータルからの手動収集、および長さと語の対応を組み合わせたハイブリッドモデルを用いたGyaan-Nidhi類似コーパスの文単位のアラインメントによって作成された。
- 英語にはMosesトークン化、ヒンディー語にはIndicNLPトークン化を適用し、標準的なMTツールキットとの互換性を確保した。
- フレーズベースSMTシステムは、Mosesを用いて、grow-diag-final-andフレーズ抽出、語彙化再配置、MIRAチューニングを実施し、Kneser-Ney 5-gram言語モデルを用いた。
- ニューラル機械翻訳システムは、512ユニットのGRU、256次元の埋め込み、BPEサブワードトークン化(15,500回のマージ)を各言語別に別々に訓練したアテンションベースのエンコーダデコーダアーキテクチャで実装された。
- モデル訓練にはAdam最適化法を用い、早期停止、ビームサーチデコード(ビームサイズ12)、4つの保存済みモデルのアンサンブルデコードを実施し、耐性を高めた。
実験結果
リサーチクエスチョン
- RQ1多様でドメイン特化された平行コーパスを統合することの、英語-ヒンディー語機械翻訳システムのパフォーマンスに与える影響は何か?
- RQ2公に提供されていなかった新規収集コーパスを含めることで、既存の公開リソースと比較して翻訳品質がどの程度向上するか?
- RQ3新たに編集された英語-ヒンディー語平行コーパスにおけるフレーズベースおよびニューラル機械翻訳のベースラインパフォーマンス指標は何か?
- RQ4ドメイン特化で活発な語形変化を持つ言語、たとえばヒンディー語のような言語を用いることで、翻訳パフォーマンスやモデルの汎化能力にどのような影響が生じるか?
- RQ5Gyaan-Nidhiのような類似(非平行)コーパスにおける文単位のアラインメントは、有用な平行学習データを作成するためにどの程度有効であるか?
主な発見
- IITボンベイ英語-ヒンディー語平行コーパスには1,492,827件の平行セグメントが含まれており、そのうち69万4千件は以前に公に提供されていなかった新規セグメントである。
- このコーパスは、2016年および2017年のアジア言語翻訳ワークショップの2回にわたり使用され、ベンチマークリソースとして確立された。
- ベースラインフレーズベースSMTでは、英語→ヒンディー語翻訳でBLEUスコア11.75、ヒンディー語→英語翻訳で14.49を達成した。
- ニューラル機械翻訳モデルでは、英語→ヒンディー語でBLEUスコア12.23、ヒンディー語→英語で12.83を達成し、後者ではSMTを上回った。
- このコーパスは、クリエイティブ・コモンズ・アトリビューション-非営利-同等条件4.0ライセンスの下で提供されており、非営利研究および再利用が可能である。
- インド語の語形変化に適したMETEOR-Indicの使用により、インド語の同義語および語幹照合(インド語ネットおよびトライベース語幹抽出機を介して)が可能になり、語形が複雑なインド言語の評価の関連性が向上した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。