QUICK REVIEW

[論文レビュー] Beyond Offline Mapping: Learning Cross Lingual Word Embeddings through Context Anchoring

Aitor Ormazabal, Mikel Artetxe|arXiv (Cornell University)|Dec 31, 2020

Topic Modeling参考文献 43被引用数 7

ひとこと要約

この論文は、翻訳された文脈語を用いた文脈アンカー法により、ターゲット言語の埋め込みを固定し、それらに整合するソース言語の埋め込みを学習することで、クロスリンガル単語埋め込みを学習する新しい手法を提案する。従来のマッピング手法とは異なり、独立して学習された埋め込みによる構造的不一致を回避し、並列データがヒューリスティクスを除いて存在しない状況でも、弱い初期辞書を用いても、二国語語彙誘導およびXNLIの両方で最先端の性能を達成する。

ABSTRACT

Recent research on cross-lingual word embeddings has been dominated by unsupervised mapping approaches that align monolingual embeddings. Such methods critically rely on those embeddings having a similar structure, but it was recently shown that the separate training in different languages causes departures from this assumption. In this paper, we propose an alternative approach that does not have this limitation, while requiring a weak seed dictionary (e.g., a list of identical words) as the only form of supervision. Rather than aligning two fixed embedding spaces, our method works by fixing the target language embeddings, and learning a new set of embeddings for the source language that are aligned with them. To that end, we use an extension of skip-gram that leverages translated context words as anchor points, and incorporates self-learning and iterative restarts to reduce the dependency on the initial dictionary. Our approach outperforms conventional mapping methods on bilingual lexicon induction, and obtains competitive results in the downstream XNLI task.

研究の動機と目的

異なる言語で独立して学習された単語埋め込みに起因する構造的不一致問題を解消すること。
並列コーパスや強力な二国語監視情報に依存しないクロスリンガル単語埋め込み手法の開発。
自己学習と反復的リスタートを活用することで、低リソースなクロスリンガル環境における頑健性と性能を向上させること。
自己学習およびアンカー技術が、クロスリンガル埋め込み学習の主流であるマッピングパラダイムを超えて有効であることを示すこと。

提案手法

ターゲット言語の単語埋め込みを、ターゲット言語の単語コーパス上で標準的なスキップグラム・ネガティブサンプリング（SGNS）を用いて固定する。
ソース言語の埋め込みを、ターゲット言語における翻訳語のベクトルに置き換えることで学習し、それらをアンカー点として使用する。
SGNSを拡張し、翻訳された文脈語を介してクロスリンガルの監視情報を統合することで、直接的な単語対単語マッピングなしに埋め込みを整合化する。
反復的自己学習を用いてトレーニング中に二国語辞書を再誘導し、初期の種まき辞書の品質を向上させる。
初期化への感受性を低減し、収束の頑健性を向上させるために反復的リスタートを適用する。
初期辞書はヒューリスティクス（例：同一語、数字）または既存の非教師ありマッピング手法（例：VecMap）を用いて構築される。

実験結果

リサーチクエスチョン

RQ1独立して学習された単語埋め込み間のマッピングに依存せずに、クロスリンガル単語埋め込みを効果的に学習できるか？
RQ2翻訳された文脈語を用いた文脈アンカー法は、従来の線形マッピングに比べて、頑健性と正確性の点で優れているか？
RQ3弱い初期種まき辞書から出発した場合、自己学習および反復的リスタートが性能をどの程度向上できるか？
RQ4提案手法は、内在的評価（二国語語彙誘導）および外在的評価（XNLI）の両タスクで、最先端の非教師ありマッピング手法を上回るか？

主な発見

提案手法は、MUSEベンチマークにおける二国語語彙誘導タスクでP@1スコア63.9を達成し、VecMap（62.8）およびフィルタリング済み辞書を用いた共同学習（35.7）を上回る。
ゴールドスタンダードから同一語を除去しても、次に優れたシステムより平均1.1ポイントの改善を維持しており、コピーのアーティファクトを超えた頑健性を確認する。
XNLIのゼロショット転送タスクにおいても強力な性能を示し、下流NLPアプリケーションでの競争力のある結果を示している。
誤差解析から、同一語（例：固有名詞）をコピーする強い傾向が確認され、これはしばしば正しく、性能向上に寄与しているが、それ以外のケースに対しても良好な一般化性能を示している。
アブレーションスタディにより、自己学習および反復的リスタートが、特に弱い初期辞書から出発する場合に性能を顕著に向上させることを確認した。
固有名称や固有名詞の翻訳において特に効果的であり、意味的に適切なコピーが可能であり、ゴールドスタンダードが不完全であっても良好な性能を発揮する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。