Skip to main content
QUICK REVIEW

[論文レビュー] Exploiting Similarities among Languages for Machine Translation

Tomáš Mikolov, Quoc V. Le|arXiv (Cornell University)|Sep 17, 2013
Natural Language Processing Techniques参考文献 16被引用数 1,438
ひとこと要約

本論文では、大規模な単語彙集から分散表現を学習し、小規模な二語対訳辞書を用いて言語間のベクトル空間に線形マッピングを適用することで、機械翻訳辞書およびフレーズ表の自動生成と拡張を提案する。この手法は、英語-スペイン語の単語翻訳において最大90%のPrecision@5を達成し、英語-チェコ語や英語-ベトナム語を含む多様な言語対において有効性を示している。

ABSTRACT

Dictionaries and phrase tables are the basis of modern statistical machine translation systems. This paper develops a method that can automate the process of generating and extending dictionaries and phrase tables. Our method can translate missing word and phrase entries by learning language structures based on large monolingual data and mapping between languages from small bilingual data. It uses distributed representation of words and learns a linear mapping between vector spaces of languages. Despite its simplicity, our method is surprisingly effective: we can achieve almost 90% precision@5 for translation of words between English and Spanish. This method makes little assumption about the languages, so it can be used to extend and refine dictionaries and translation tables for any language pairs.

研究の動機と目的

  • 統計的機械翻訳システムにおける翻訳辞書およびフレーズ表の自動的作成と拡張を目的とする。
  • 大規模な単語彙集と小規模な二語対訳データを活用することで、手作業によるメンテナンスの依存度を低減することを目的とする。
  • 言語間の意味的なベクトル空間の投影を学習することで、翻訳性能を向上させることを目的とする。
  • ベクトル類似度と翻訳信頼度スコアを用いて、既存の辞書に含まれる誤りを検出・是正することを目的とする。
  • 低リソース言語や構造的にかけ離れた言語対に対しても機械翻訳の適用可能性を拡大することを目的とする。

提案手法

  • 大規模な単語彙集テキストコーパスを用いて、スイプグラムおよび連続的袋(CBOW)モデルによる分散表現を学習する。
  • 小規模な二語対訳辞書を教師データとして用い、元言語と対象言語のベクトル空間間の線形変換行列を学習する。
  • 推論時、元言語の単語ベクトルを対象言語空間に射影し、類似度が最も高い近隣語を翻訳として取得する。
  • 編集距離とベクトル類似度を用いて翻訳候補を精錬し、特に関連言語に対して耐障害性を向上させる。
  • 大規模データから抽出した多語語表現を含め、単語レベルおよびフレーズレベルの翻訳に本手法を適用する。
  • ホールドアウトテストセットを用いて、Precision@1およびPrecision@5などの精度指標を用いて翻訳品質を評価する。

実験結果

リサーチクエスチョン

  • RQ1単語彙集からの分散表現を、小規模な二語対訳辞書を用いて効果的に言語間で一致させることができるか?
  • RQ2この手法は、低リソース言語や構造的にかけ離れた言語対において、翻訳精度をどの程度向上させられるか?
  • RQ3既存の翻訳辞書に誤りが含まれる場合、この手法はそれらを検出・是正できるか?
  • RQ4従来の語形的または文脈依存の翻訳推論手法と比較して、本手法の性能はどの程度か?
  • RQ5語順や語形構造が異なる言語(例:ベトナム語)に対しても、フレーズレベルの翻訳に一般化可能か?

主な発見

  • 英語-スペイン語の単語翻訳において、90%のPrecision@5を達成し、近縁言語対において優れた性能を示している。
  • 英語-チェコ語翻訳では、高信頼度翻訳に対して75%のPrecision@1を達成し、遠く離れた言語対に対しても有効性を示している。
  • 誤りや曖昧な辞書エントリを効果的に特定・フラグ化でき、手動で検査した85%のケースで、システム出力が元のエントリよりも正確であった。
  • 英語-ベトナム語翻訳では、Precision@1が24%、Precision@5が40%を達成し、顕著な語形的・構造的差異があるにもかかわらず実用性を示している。
  • 単語彙集の事前学習と線形射影の組み合わせにより、最小限の二語対訳の監視で高品質な翻訳が可能となり、語形的類似性や文脈照合に依存する手法を上回る性能を示した。
  • 本手法は、語の対応が一対一でない言語(例:ベトナム語)を含む多様な言語対に対して頑健であり、既存のフレーズ表や辞書の拡充に応用可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。