Skip to main content
QUICK REVIEW

[論文レビュー] Advances in Pre-Training Distributed Word Representations

Tomáš Mikolov, Édouard Grave|arXiv (Cornell University)|Dec 26, 2017
Topic Modeling参考文献 17被引用数 327
ひとこと要約

この論文は、重複排除、フレーズ、位置依存ウェイティング、サブワード情報といくつかのよく知られたテクニックを組み合わせて高品質の語向量を訓練し、fastTextモデルを公開して、複数のベンチマークとQAタスクで従来の最先端を上回ります。

ABSTRACT

Many Natural Language Processing applications nowadays rely on pre-trained word representations estimated from large text corpora such as news collections, Wikipedia and Web Crawl. In this paper, we show how to train high-quality word vector representations by using a combination of known tricks that are however rarely used together. The main result of our work is the new set of publicly available pre-trained models that outperform the current state of the art by a large margin on a number of tasks.

研究の動機と目的

  • NLPタスクのための頑健な語表現を学ぶために、大規模なラベルなしコーパスの利用を動機づける。
  • word2vec/fastTextの訓練における既知の改善を組み合わせると、ベクトルの品質にどう影響するかを探る。
  • 重複排除、フレーズ表現、位置認識ウェイティング、サブワード情報が優れたベクトルを生み出すことを示す。
  • 研究者とエンジニアの広範な利用のために公開された事前訓練モデルを提供する。

提案手法

  • word2vecと同様のスキップグラム/CBOWフレームワークとネガティブサンプリングを用いたCBOW訓練を説明する。
  • 頻度の高い語の過学習を減らすために語頻度サブサンプリングを適用する。
  • 相対的文脈位置ごとにベクトルを対応づけて文脈語を再重み付けする位置依存ウェイティングを導入する。
  • 高い相互情報量を持つn-gramを単一トークン(例: New_York)に結合する前処理ステップを介してフレーズ表現を取り入れる。
  • 語ベクトルを、語字のn-gramベクトル(3〜6-gram)を語ベクトルに加算してサブワード情報を強化し、メモリ管理のためにハッシュを使用する。
  • 大規模な公開コーパス(Wikipedia、ニュース、Gigaword、Common Crawl)を用いて訓練し、GloVeのベースラインと比較する。

実験結果

リサーチクエスチョン

  • RQ1既知の改善(重複排除、フレーズ、位置依存ウェイト付与、サブワード機能)の組み合わせは、より高品質な語ベクトルを生むか。
  • RQ2提案されたfastTextベースのベクトルは、標準的な語類推、Rare Words、およびQAのベンチマークで、GloVeや従来のベクトルと比較してどう性能を発揮するか。
  • RQ3訓練データ規模と前処理(例えば文の重複除去)がベクトル品質に与える影響はどの程度か。
  • RQ4サブワード情報は形態素が豊富な言語や稀少語・つづり間違いの語表現の性能を改善できるか。

主な発見

  • Common Crawl のような大規模コーパスの重複排除は、ベクトル品質を大幅に向上させる。
  • フレーズ表現と位置依存ウェイティングの追加により、類推タスクで大きな向上をもたらす。
  • サブワード情報の取り込みにより、標準ベンチマークで類推精度が88.5%に向上し、GloVeと基準fastTextを上回る。
  • Wikipedia+ニュースとCrawlで訓練したFastTextベクトルは、Rare WordsやSquadベースのQAタスクを含む複数のベンチマークでGloVeの対表現を上回る。
  • 監視付きテキスト分類タスクでは、同程度のコーパスでGloVeベクトルよりも優れた分類器の初期化をfastTextベクトルが提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。