Skip to main content
QUICK REVIEW

[論文レビュー] Massively Multilingual Word Embeddings

Waleed Ammar, George Mulcaire|arXiv (Cornell University)|Feb 5, 2016
Natural Language Processing Techniques参考文献 33被引用数 282
ひとこと要約

辞書ベースの手法で59言語の多言語語彙埋め込みを並列データなしで学習し、下流タスクとの相関を高めるための内的評価指標 multi qvec-cca を提案する。

ABSTRACT

We introduce new methods for estimating and evaluating embeddings of words in more than fifty languages in a single shared embedding space. Our estimation methods, multiCluster and multiCCA, use dictionaries and monolingual data; they do not require parallel data. Our new evaluation method, multiQVEC-CCA, is shown to correlate better than previous ones with two downstream tasks (text categorization and parsing). We also describe a web portal for evaluation that will facilitate further research in this area, along with open-source releases of all our methods.

研究の動機と目的

  • 大規模な並列コーパスに頼らず、複数言語に跨って機能する共有された多言語語彙埋め込みの必要性を動機づける。
  • モノリンガルデータと二言語辞書を用いて多言語埋め込みを訓練するための2つの辞書ベース推定法(multiClusterと multiCCA)を提案する。
  • intrinsic evaluation (multi qvec-cca) を適応・改良して、複数言語に跨る下流タスクとの相関をより良くする。
  • 再現可能なウェブポータルとオープンソースツールを開発し、多言語埋め込み研究を再現・拡張できるようにする。

提案手法

  • 並列データを必要としないモノリンガルコーパスと二言語辞書を用いて、言語間の単語の共有埋め込み空間を定義する。
  • MultiCluster: 翻訳グラフを介して埋め込みを多言語クラスタに分解し、単語をクラスタIDに置換し、多言語クラスタ列上でモノリンガル風のスキグラムを訓練する。
  • MultiCCA: 非英語のモノリンガル埋め込みを言語特有の射影行列を用いて英語中心空間に射影することで、多言語設定へ二言語CCAを拡張する。
  • 多言語比較のため、並列データベースベースのベースライン MultiSkip および翻訳不変性の変種を用いる。
  • Multi qvec と multi qvec-cca はモノリンガル評価 (qvec) を多言語設定へ拡張し、qvec-cca は正準相関分析を用いて基底不変性を実現する。
  • 評価データとポリシーには intrinsic(語彙類似性、語彙翻訳)と extrinsic タスク(多言語文書分類、多言語構文解析)を含む。
  • データをダウンロードし評価を実行し、ベンチマーク用に埋め込みをアップロードするウェブポータルを提供する。

実験結果

リサーチクエスチョン

  • RQ1並列コーパスに頼らず、数十言語の高品質な多言語語彙埋め込みを推定できるか。
  • RQ2dictionary-based methods(multiCluster、multiCCA)は intrinsic および extrinsic 評価指標全般で parallel-data ベースライン(multiSkip)とどう比較されるか。
  • RQ3新しい intrinsic 指標(multi qvec、multi qvec-cca)は下流の多言語タスクの性能をより良く予測するか。
  • RQ4共有された多言語空間を介して翻訳することは、文書分類や構文解析のようなタスクの言語間転移を促進するか。

主な発見

TaskmultiClustermultiCCAmultiSkipinvariance
dependency parsing61.0 [70.9]58.7 [69.3]57.7 [68.9]59.8 [68.6]
document classification92.1 [48.1]92.1 [62.8]90.4 [45.7]91.1 [31.3]
monolingual word similarity38.0 [57.5]43.0 [71.0]33.9 [55.4]51.0 [23.0]
multilingual word similarity58.1 [74.1]66.6 [78.2]59.5 [67.5]58.7 [63.0]
word translation43.7 [45.2]35.7 [53.2]46.7 [39.5]63.9 [30.3]
monolingual qvec10.3 [98.6]10.7 [99.0]8.4 [98.0]8.1 [91.7]
multi qvec9.3 [82.0]8.7 [87.0]8.7 [87.0]5.3 [74.7]
monolingual qvec-cca62.4 [98.6]63.4 [99.0]58.9 [98.0]65.8 [91.7]
multi qvec-cca43.3 [82.0]41.5 [87.0]36.3 [75.6]46.2 [74.7]
  • MultiCCA は 59 言語設定の9つの評価指標で一貫して multiCluster を上回る。
  • 辞書ベースのアプローチ(multiCluster、multiCCA)は、特に大規模な多言語データから学習する場合、いくつかの指標で parallel-data ベースラインと同等以上を達成する。
  • 内的指標 multi qvec および multi qvec-cca は、従来の跨言語語彙類似性や語彙翻訳指標よりも下流タスクとの相関が強い。
  • multi qvec-cca は qvec よりも下流パフォーマンスとより良く一致する、回転不変性を持つ単一の相関スコアを提供する。
  • 評価ポータルとコード公開は再現性と多言語埋め込みのより広いベンチマークを可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。