Skip to main content
QUICK REVIEW

[論文レビュー] Samanantar: The Largest Publicly Available Parallel Corpora Collection for 11 Indic Languages

G. Ramesh, Sumanth Doddapaneni|arXiv (Cornell University)|Apr 12, 2021
Natural Language Processing Techniques被引用数 52
ひとこと要約

Samanantarは既存データと新たにマイニングされた並列データを組み合わせ、11言語にまたがる ~49.7M の英語–インド語文ペアを作成し、最先端の多言語NMT(IndicTrans)と広範な言語横断評価を可能にします。

ABSTRACT

We present Samanantar, the largest publicly available parallel corpora collection for Indic languages. The collection contains a total of 49.7 million sentence pairs between English and 11 Indic languages (from two language families). Specifically, we compile 12.4 million sentence pairs from existing, publicly-available parallel corpora, and additionally mine 37.4 million sentence pairs from the web, resulting in a 4x increase. We mine the parallel sentences from the web by combining many corpora, tools, and methods: (a) web-crawled monolingual corpora, (b) document OCR for extracting sentences from scanned documents, (c) multilingual representation models for aligning sentences, and (d) approximate nearest neighbor search for searching in a large collection of sentences. Human evaluation of samples from the newly mined corpora validate the high quality of the parallel sentences across 11 languages. Further, we extract 83.4 million sentence pairs between all 55 Indic language pairs from the English-centric parallel corpus using English as the pivot language. We trained multilingual NMT models spanning all these languages on Samanantar, which outperform existing models and baselines on publicly available benchmarks, such as FLORES, establishing the utility of Samanantar. Our data and models are available publicly at https://ai4bharat.iitm.ac.in/samanantar and we hope they will help advance research in NMT and multilingual NLP for Indic languages.

研究の動機と目的

  • 既存データを統合し、さまざまなソースから新しいデータをマイニングすることで、英語–Indic言語の大規模で公開可能な並列コーパスを作成する。

提案手法

  • OPUS、JW300、Wikipedia、字幕など、複数のソースから既存の英語–Indic並列データを収集・整理する。
  • LaBSEベースの文アラインメントとLAS閾値化を用いて、機械可読ソース(ニュースサイト、教育プラットフォームなど)から追加の並列文をマイニングする。
  • 機械可読ではないソースからOCR(Google Vision)で抽出し、英語の対応文とLASを用いてアラインメントする。
  • IndicCorpからFAISSを用いたLaBSE埋め込みのインデックス作成でウェブ規模の並列データをマイニングし、近接候補を取得してLASでフィルタリングする。
  • 英語を介してIndic言語をピボットして、83.4Mの En–Indic および Indic–Indic 文ペアを作成する。
  • Samanantar上で多言語NMTモデル(IndicTrans)を訓練し、データ重複の除去と転移学習のためのデーヴァナーガリ文字統一表現を行う。

実験結果

リサーチクエスチョン

  • RQ1既存データとウェブマイニングを組み合わせた場合、11のIndic言語に対する公開可能な並列コーパスの規模と品質はどの程度か?
  • RQ2Samanantarで訓練された多言語NMTモデルは、Indic言語ベンチマーク上で既存のベースラインや商用システムを上回ることができるか?
  • RQ3英語を介したピボットが、大規模多言語コーパスにおける高品質なInter-Ind言語ペアの抽出にどのように影響するか?
  • RQ4LaBSEベースのアラインメントとLAS閾値化が、マイニングされた並列データの品質に及ぼす影響は何か?
  • RQ5Indic NLPとMTにおけるSamanantarの有用性を最も示すデータセットと評価プロトコルは何か?

主な発見

  • Samanantarは約 ~49.7百万の英語–Indic文ペアを含む(既存ソースからの12.4M、新たにマイニングされた37.4M)。
  • IndicCorp主導のマイニングは新データの67%を占め、英語を介して83.4百万のEn–55言語ペア文がマイニングされる。
  • 9,566文ペアへの人間による注釈は、All AcceptとDefinite Acceptのカテゴリで高い意味的類似性を示す(平均STS 4.27;Definite Accept 4.63)。
  • LaBSEベースのLASは人間のSTSと中程度に相関(Spearman 0.37)し、高品質な並列データのための効果的なLAS閾値フィルタリングを可能にする。
  • Inter-Indic(英語を介してピボット)マイニングは、55言語ペア(11 C 2)にわたる83.4MのIndic言語文ペアを生み出す。
  • Samanantarで訓練されたIndicTransは、既存の公開モデルを上回り、多くのベンチマークで商用システムにも勝る(10のIndic言語に渡って)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。