Skip to main content
QUICK REVIEW

[論文レビュー] AI4Bharat-IndicNLP Corpus: Monolingual Corpora and Word Embeddings for Indic Languages

Anoop Kunchukuttan, Divyanshu Kakwani|arXiv (Cornell University)|Apr 30, 2020
Natural Language Processing Techniques参考文献 23被引用数 43
ひとこと要約

本論文は 2.7B words を含む IndicNLP コーパスを 10 言語のインド語族で紹介し、事前学習済み FastText 埋め込みとベンチマーク(ニュースカテゴリ分類、語彙類似/アナロジー、二言語辞書誘導)を提供し、公開ベースラインより改善を示します。

ABSTRACT

We present the IndicNLP corpus, a large-scale, general-domain corpus containing 2.7 billion words for 10 Indian languages from two language families. We share pre-trained word embeddings trained on these corpora. We create news article category classification datasets for 9 languages to evaluate the embeddings. We show that the IndicNLP embeddings significantly outperform publicly available pre-trained embedding on multiple evaluation tasks. We hope that the availability of the corpus will accelerate Indic NLP research. The resources are available at https://github.com/ai4bharat-indicnlp/indicnlp_corpus.

研究の動機と目的

  • 10 言語 Indic の contemporarary な使用を反映した大規模モノリンガルコーパスを作成する。
  • IndicNLP コーパスで訓練された事前学習済み語彙埋め込みを提供する。
  • ニュース分類などの下流評価データセットと無監督形態素解析器を開発する。
  • IndicNLP 埋め込みが多様な NLP タスクで公開手法より優れていることを示す。

提案手法

  • ニュースソースや Wikipedia から一般ドメインのモノリンガルデータを収集・前処理する。
  • Indic テキストを標準化し、文を分割し、Indic NLP Library を用いてトークン化する。
  • 各言語でサブワード情報を用いた 300 次元の FastText skip-gram 埋め込みを訓練する(10 エポック、 window=5、min count=5、10 個の negative samples)。
  • 語彙類似、語彙アナロジー、感情/テキスト分類、そして二言語辞書誘導(BLI)で埋め込みを評価する。
  • IndicNLP ニュースカテゴリデータセットを 9 言語向けに構築し、平均語彙埋め込みを用いた分類に k-NN(k=4)を適用する。
  • unsupervised Morpheme アナライザ(Morfessor 2.0)を訓練し、IndicNLP が SMT のモルフォロジー関連の改善を示すことを評価する。

実験結果

リサーチクエスチョン

  • RQ1IndicNLP 埋め込みは intrinsic および extrinsic タスクを通じて公開の埋め込み(FT-W、FT-WC)より優れているか。
  • RQ2モノリンガル IndicNLP コーパスは語彙類似、アナロジー、感情、テキスト分類、および二言語辞書誘導の性能にどのように影響するか。
  • RQ3IndicNLP リソースは無監督形態分析を支援し、跨言語 SMT を改善できるか。
  • RQ4コーパラを用いた多言語表現と下流NLPベンチマークの構築においてコーパスの有用性はどの程度か。

主な発見

LangFT-WFT-WCINLP
pa94.2394.8796.79
bn97.0097.0797.86
or94.0095.9398.07
gu97.0597.5499.02
mr96.4497.0799.37
kn96.1396.5097.20
te98.4698.1798.79
ml90.0089.3392.50
ta95.9895.8197.01
Average95.4795.8197.40
  • IndicNLP 埋め込みは複数のタスクで 2 つの公開ベースラインを上回る。言語間の語彙類似の平均 (Pearson) は 0.519 (INLP) vs 0.507 (FT-W) および 0.497 (FT-WC) に改善。
  • 語彙アナロジー(ヒンディー語サブセット)で IndicNLP は 33.48% の正解率を達成、FT-W が 19.76%、FT-WC が 32.93%。
  • 様々な公開データセットでのテキスト分類では、IndicNLP 埋め込みの精度が高く(平均 74.73%) FT-W(69.25%)および FT-WC(68.32%)を上回る。
  • IndicNLP ニュースカテゴリデータセットの結果は、各言語で INLP 埋め込みを用いた方が高い精度を示す(例:pa: 96.79、bn: 97.86、or: 98.07、gu: 99.02、mr: 99.37、te: 98.79、ta: 97.01 など、平均 97.40)。
  • ジオメオム(GeoMM)を用いたバイリンガル辞書誘導(BLI)で INLP の平均精度が高くなる:en→Indic 36.55、Indic→en 44.94(FT-W 25.98/33.20、FT-WC 32.88/44.94 に対して)。
  • IndicNLP で訓練された無監督形態素分析器は、語彙ベースの基準より SMT BLEU スコアを改善し、従来のモルフォ分析器と比較して競争力のある結果を示す(平均 BLEU:語彙 22.84、モルフォ 24.21、モルフォ(K&B, 2016) 24.57)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。