QUICK REVIEW

[論文レビュー] AI4Bharat-IndicNLP Corpus: Monolingual Corpora and Word Embeddings for Indic Languages

Anoop Kunchukuttan, Divyanshu Kakwani|arXiv (Cornell University)|Apr 30, 2020

Natural Language Processing Techniques参考文献 23被引用数 43

ひとこと要約

本論文は 2.7B words を含む IndicNLP コーパスを 10 言語のインド語族で紹介し、事前学習済み FastText 埋め込みとベンチマーク（ニュースカテゴリ分類、語彙類似／アナロジー、二言語辞書誘導）を提供し、公開ベースラインより改善を示します。

ABSTRACT

We present the IndicNLP corpus, a large-scale, general-domain corpus containing 2.7 billion words for 10 Indian languages from two language families. We share pre-trained word embeddings trained on these corpora. We create news article category classification datasets for 9 languages to evaluate the embeddings. We show that the IndicNLP embeddings significantly outperform publicly available pre-trained embedding on multiple evaluation tasks. We hope that the availability of the corpus will accelerate Indic NLP research. The resources are available at https://github.com/ai4bharat-indicnlp/indicnlp_corpus.

研究の動機と目的

10 言語 Indic の contemporarary な使用を反映した大規模モノリンガルコーパスを作成する。
IndicNLP コーパスで訓練された事前学習済み語彙埋め込みを提供する。
ニュース分類などの下流評価データセットと無監督形態素解析器を開発する。
IndicNLP 埋め込みが多様な NLP タスクで公開手法より優れていることを示す。

提案手法

ニュースソースや Wikipedia から一般ドメインのモノリンガルデータを収集・前処理する。
Indic テキストを標準化し、文を分割し、Indic NLP Library を用いてトークン化する。
各言語でサブワード情報を用いた 300 次元の FastText skip-gram 埋め込みを訓練する（10 エポック、 window=5、min count=5、10 個の negative samples）。
語彙類似、語彙アナロジー、感情／テキスト分類、そして二言語辞書誘導（BLI）で埋め込みを評価する。
IndicNLP ニュースカテゴリデータセットを 9 言語向けに構築し、平均語彙埋め込みを用いた分類に k-NN（k=4）を適用する。
unsupervised Morpheme アナライザ（Morfessor 2.0）を訓練し、IndicNLP が SMT のモルフォロジー関連の改善を示すことを評価する。

実験結果

リサーチクエスチョン

RQ1IndicNLP 埋め込みは intrinsic および extrinsic タスクを通じて公開の埋め込み（FT-W、FT-WC）より優れているか。
RQ2モノリンガル IndicNLP コーパスは語彙類似、アナロジー、感情、テキスト分類、および二言語辞書誘導の性能にどのように影響するか。
RQ3IndicNLP リソースは無監督形態分析を支援し、跨言語 SMT を改善できるか。
RQ4コーパラを用いた多言語表現と下流NLPベンチマークの構築においてコーパスの有用性はどの程度か。

主な発見

Lang	FT-W	FT-WC	INLP
pa	94.23	94.87	96.79
bn	97.00	97.07	97.86
or	94.00	95.93	98.07
gu	97.05	97.54	99.02
mr	96.44	97.07	99.37
kn	96.13	96.50	97.20
te	98.46	98.17	98.79
ml	90.00	89.33	92.50
ta	95.98	95.81	97.01
Average	95.47	95.81	97.40

IndicNLP 埋め込みは複数のタスクで 2 つの公開ベースラインを上回る。言語間の語彙類似の平均 (Pearson) は 0.519 (INLP) vs 0.507 (FT-W) および 0.497 (FT-WC) に改善。
語彙アナロジー（ヒンディー語サブセット）で IndicNLP は 33.48% の正解率を達成、FT-W が 19.76%、FT-WC が 32.93%。
様々な公開データセットでのテキスト分類では、IndicNLP 埋め込みの精度が高く（平均 74.73%） FT-W（69.25%）および FT-WC（68.32%）を上回る。
IndicNLP ニュースカテゴリデータセットの結果は、各言語で INLP 埋め込みを用いた方が高い精度を示す（例：pa: 96.79、bn: 97.86、or: 98.07、gu: 99.02、mr: 99.37、te: 98.79、ta: 97.01 など、平均 97.40）。
ジオメオム（GeoMM）を用いたバイリンガル辞書誘導（BLI）で INLP の平均精度が高くなる：en→Indic 36.55、Indic→en 44.94（FT-W 25.98/33.20、FT-WC 32.88/44.94 に対して）。
IndicNLP で訓練された無監督形態素分析器は、語彙ベースの基準より SMT BLEU スコアを改善し、従来のモルフォ分析器と比較して競争力のある結果を示す（平均 BLEU：語彙 22.84、モルフォ 24.21、モルフォ（K&B, 2016) 24.57）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。