Skip to main content
QUICK REVIEW

[論文レビュー] Separated by an Un-common Language: Towards Judgment Language Informed Vector Space Modeling

Ira Leviant, Roi Reichart|arXiv (Cornell University)|Aug 1, 2015
Topic Modeling参考文献 42被引用数 65
ひとこと要約

本稿は、判断言語(jl)が人間の意味的判断およびベクトル空間モデル(VSM)のパフォーマンスに与える影響を調査し、WordSim353とSimLex999をイタリア語、ドイツ語、ロシア語に翻訳した。人間のスコアはjlによって顕著に変動することが示され、線形補間およびCCAを用いた多言語VSMの組み合わせが、言語を跨いで人間の判断との相関を向上させることを示し、多言語的アプローチが意味的評価におけるjl依存バイアスを緩和できることを示唆している。

ABSTRACT

A common evaluation practice in the vector space models (VSMs) literature is to measure the models' ability to predict human judgments about lexical semantic relations between word pairs. Most existing evaluation sets, however, consist of scores collected for English word pairs only, ignoring the potential impact of the judgment language in which word pairs are presented on the human scores. In this paper we translate two prominent evaluation sets, wordsim353 (association) and SimLex999 (similarity), from English to Italian, German and Russian and collect scores for each dataset from crowdworkers fluent in its language. Our analysis reveals that human judgments are strongly impacted by the judgment language. Moreover, we show that the predictions of monolingual VSMs do not necessarily best correlate with human judgments made with the language used for model training, suggesting that models and humans are affected differently by the language they use when making semantic judgments. Finally, we show that in a large number of setups, multilingual VSM combination results in improved correlations with human judgments, suggesting that multilingualism may partially compensate for the judgment language effect on human judgments.

研究の動機と目的

  • 単語ペアが提示される言語(判断言語)が、関連性および類似性に関する人間の意味的判断に影響を与えるかどうかを調査すること。
  • 特定言語で訓練された単言語VSMが、その言語で行われた人間の判断を最もよく予測できるかどうかを検討すること。
  • 多言語VSMの組み合わせが、異なる判断言語間で予測精度を向上させられるかどうかを評価すること。
  • 多言語VSMのコアスサイズの変動および言語固有のバイアスに対して、その堅牢性を評価すること。

提案手法

  • 英語の主要な評価データセット2つ(関連性を測るWordSim353、類似性を測るSimLex999)をイタリア語、ドイツ語、ロシア語に翻訳し、多言語的判断セットを構築した。
  • ネイティブの被験者を対象にCrowdFlowerを用いて人間の判断を収集し、アノテーター間の一貫性および言語固有のパターンを評価した。
  • 英語、イタリア語、ドイツ語、ロシア語の比較可能な単言語コーパス上で、単語の袋(BOW)およびword2vec(W2V)モデルを訓練した。
  • 線形補間(li)および標準共分散分析(CCA)を用いて、単言語モデルを組み合わせ、多言語的ベクトル表現を生成した。
  • すべての言語ペアにおいて、予測スコアと人間がアノテートしたスコアとのスピアマン順位相関を計算することで、モデルのパフォーマンスを評価した。
  • コーパスサイズの影響を制御するため、小規模および大規模なトレーニングコーパスを用いて実験を繰り返し、結果の堅牢性を確認した。

実験結果

リサーチクエスチョン

  • RQ1判断言語(jl)が単語ペアの関連性および類似性に関する人間の評価に顕著な影響を及ぼすか?
  • RQ2特定言語で訓練された単言語VSMが、その言語で行われた人間の判断を最もよく予測できるか?
  • RQ3多言語VSMの組み合わせ手法が、単言語モデルと比較して、異なる判断言語間で予測精度を向上させられるか?
  • RQ4線形補間やCCAのような多言語組み合わせ手法は、多様な言語ペアにおいて単言語ベースラインと比較して、どのように性能を示すか?

主な発見

  • アノテーター間の一貫性は、判断言語内では言語間を越えてのものよりも顕著に高く、関連性および類似性の判断が判断言語に強く依存していることを示している。
  • 関連性タスクでは、特定言語で訓練された単言語VSMが、その言語で行われた人間の判断と最も高い相関を示した。
  • 類似性タスクでは、特定の言語が常に他の言語を上回るとは限らず、一部の判断言語はすべての単言語モデルとより高い相関を示した。
  • 線形補間を用いた多言語VSMの組み合わせは、96通りの組み合わせのうち68通り(70.8%)で単言語モデルを上回り、顕著な多言語的一般化性能を示した。
  • 線形補間を用いて訓練された多言語モデルは、68%のケースで単言語の補間モデルを上回り、多言語的アプローチが判断言語バイアスを補うのに有効であることを示した。
  • CCAに基づく多言語組み合わせは混合的な結果を示し、SimLex999でのみ向上が見られたが、すべての言語ペアで一貫して優れてはいなかった。これは、線形補間に比べて、CCAがやや堅牢性に欠ける可能性を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。