Skip to main content
QUICK REVIEW

[論文レビュー] Learning Word Vectors for 157 Languages

Édouard Grave, Piotr Bojanowski|arXiv (Cornell University)|Feb 19, 2018
Natural Language Processing Techniques被引用数 144
ひとこと要約

この論文は、WikipediaとCommon Crawlデータを用いて157言語の高品質な語彙ベクトルを学習し、三つの新しい語のアナロジー・データセット(フランス語、ヒンディー語、ポーランド語)を導入し、10言語での評価とデータソースおよびモデル変種の分析を示しています。

ABSTRACT

Distributed word representations, or word vectors, have recently been applied to many tasks in natural language processing, leading to state-of-the-art performance. A key ingredient to the successful application of these representations is to train them on very large corpora, and use these pre-trained models in downstream tasks. In this paper, we describe how we trained such high quality word representations for 157 languages. We used two sources of data to train these models: the free online encyclopedia Wikipedia and data from the common crawl project. We also introduce three new word analogy datasets to evaluate these word vectors, for French, Hindi and Polish. Finally, we evaluate our pre-trained word vectors on 10 languages for which evaluation datasets exists, showing very strong performance compared to previous models.

研究の動機と目的

  • 英語を超えた多言語コーパスでの大規模な多言語語表現学習を動機づける。
  • 157言語にわたるデータ収集、言語識別、重複排除、トークン化の手順を説明する。
  • サブワード情報と位置重み付きCBOWをfastTextの拡張として用い、高品質な多言語埋め込みを訓練する。
  • フランス語、ヒンディー語、ポーランド語の三つの新規言語特化アナロジー・データセットを導入し、多言語モデルをアナロジー課題で評価する。
  • トレーニングデータソース(Wikipedia対Common Crawl)とハイパーパラメータの選択がアナロジー性能に与える影響を評価する。

提案手法

  • サブワード情報(文字n-gram)を用いたfastTextモデルの拡張を用いて語彙ベクトルを学習する。
  • スキップグラムとCBOWの変種を比較し、位置重み付きCBOWモデルを含む。
  • 言語別にデータを前処理し、行を重複排除し、言語に適したツールでトークン化する。
  • 二つのデータソース(WikipediaとCommon Crawl、2017年5月クローリング)で語彙ベクトルを訓練する。
  • 英語のアナロジーに基づいてフランス語、ヒンディー語、ポーランド語の新しいアナロジー・データセットを導入・翻訳する。
  • 評価は固定語彙制限を用いて十言語にわたる語彙アナロジー課題で実施する。

実験結果

リサーチクエスチョン

  • RQ1大規模な混合ソース(WikipediaとCommon Crawl)を用いて157言語の高品質な語彙ベクトルを学習できるか。
  • RQ2データソース、モデル変種、およびハイパーパラメータが多言語語彙アナロジー性能に与える影響は何か。
  • RQ3サブワード情報を用いたモデル(fastText拡張)はベースラインと比べて言語間アナロジー精度を改善するか。
  • RQ4新しく導入されたフランス語、ヒンディー語、ポーランド語のアナロジー・データセットは既存のベンチマークと比較してどのように多言語埋め込みの評価に影響を与えるか。

主な発見

チェコ語ドイツ語スペイン語フィンランド語フランス語ヒンディー語イタリア語ポーランド語ポルトガル語中国語平均
63.161.057.435.964.210.656.353.454.060.251.0
57.761.857.539.465.98.357.254.554.859.350.9
63.971.764.442.871.614.166.256.060.651.555.5
64.873.765.045.073.514.568.058.362.956.057.4
64.673.967.146.874.916.169.358.264.760.658.8
69.972.965.470.373.632.169.867.966.778.466.7
  • WikipediaとCommon Crawlの両方で訓練した語彙ベクトルは、十言語で強力なアナロジー性能を達成する。
  • 位置重み付きCBOWとサブワード情報を組み合わせると、全体として最大の改善をもたらす。
  • ネガティブサンプル数を増やし訓練エポック数を増やすとアナロジーの精度が向上するが、訓練コストは増大する。
  • Common Crawlデータはカバレッジを拡大し、低リソース言語(例:ヒンディー語、フィンランド語、ポーランド語)で特に恩恵を受ける一方で、高リソース言語ではわずかな向上や低下をもたらすことがある。
  • 高リソース言語では、アナロジー・データセットとのドメインミスマッチのためクロールデータの精度向上効果が大きく出ない場合がある。
  • フランス語、ヒンディー語、ポーランド語の新しい言語特化アナロジー・データセットにより、より広い多言語評価が可能になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。