Skip to main content
QUICK REVIEW

[論文レビュー] Adding Interpretable Attention to Neural Translation Models Improves Word Alignment

Thomas Zenkel, Joern Wuebker|arXiv (Cornell University)|Jan 31, 2019
Natural Language Processing Techniques参考文献 17被引用数 80
ひとこと要約

この論文は、TransformerベースのNMTモデルの上に整列層を追加し、注意機構の最適化手法を導入して高品質な単語対整列を生成し、監視付き整列データなしで複数のデータセットにおいてGiza++と同程度の性能を達成する。

ABSTRACT

Multi-layer models with multiple attention heads per layer provide superior translation quality compared to simpler and shallower models, but determining what source context is most relevant to each target word is more challenging as a result. Therefore, deriving high-accuracy word alignments from the activations of a state-of-the-art neural machine translation model is an open challenge. We propose a simple model extension to the Transformer architecture that makes use of its hidden representations and is restricted to attend solely on encoder information to predict the next word. It can be trained on bilingual data without word-alignment information. We further introduce a novel alignment inference procedure which applies stochastic gradient descent to directly optimize the attention activations towards a given target word. The resulting alignments dramatically outperform the naive approach to interpreting Transformer attention activations, and are comparable to Giza++ on two publicly available data sets.

研究の動機と目的

  • ニューラル MT のアテンション機構から導出される正確な語対整列の必要性を動機づける。
  • 次のターゲット語を予測するために、エンコーダ表現のみに注意を向ける整列層を提案する。
  • 語対整列データを用意せず、既存の翻訳モデルを微調整することで整列を教師なしで訓練できるようにする。
  • 推論時にSGDベースの注意活性化を導入し、特定のターゲット語を整列させる。
  • 公開データセット上でFastAlignとGiza++と比較して整列品質を評価する。

提案手法

  • Transformerを拡張し、スキップ接続を用いないエンコーダ-アテンションを用いる整列層をデコーダの上に追加する。
  • 整列層におけるマルチヘッドアテンションのキー/バリューとしてエンコーダ情報を表現する。
  • 基礎モデルを固定したまま、事前学習済み翻訳モデルを微調整して整列層を訓練する。
  • 推論時には、ターゲット語の尤度を最大化するようにSGDでアテンション活性化を最適化する。
  • 整列層のキー/バリューとして、異なるエンコーダ表現(単語埋め込み、エンコーダ出力、またはそれらの組み合わせ)を用いて実験する。
  • German–English、English–French、 Romanian–Englishデータでベースラインの統計的整列器(FastAlign、Giza++)と比較する。

実験結果

リサーチクエスチョン

  • RQ1Transformerの上に教師なし整列層を置くと、語対整列データなしで競争力の整列を生み出せるか?
  • RQ2特定のターゲット語に対してアテンション活性化を最適化すると整列品質が向上するか?
  • RQ3キー/バリューとしての異なるエンコーダ表現が整列精度にどう影響するか?
  • RQ4提案手法は複数の言語ペアと方向でFastAlignおよびGiza++とどう比較されるか?

主な発見

手法DeEnEnDe双方向
Avg66.5%57.0%50.9%
Word36.9%41.1%31.4%
Enc39.2%35.7%28.6%
Add31.5%34.7%27.1%
Rand+SGD65.9%69.9%61.3%
Add+SGD26.6%30.4%21.2%
Giza++21.0%23.1%21.4%
FastAlign28.4%32.0%27.0%
  • SGDアテンション最適化を用いた整列層は、単純なアテンション平均化に比べてAERを大幅に改善する。
  • エンコーダ出力をキー/バリューとして、単語埋め込みまたはそれらの組み合わせを用いると最良の結果を得られ、いくつかの設定でFastAlignとほぼ同等。
  • 両方向の翻訳からの整列を対称化すると結果がさらに改善され、2つのデータセットでGiza++に近い性能を達成。
  • German–English では、Add+SGD設定が one-direction/combined 形でAER 26.6% (DeEn) および 30.4% (EnDe) を達成し、Giza++の性能に近づく。
  • En-FrとRo-En全般で、整列層とSGD最適化によりAERを一貫して改善し、特定の方向ではFastAlignに近い、あるいはそれを上回ることもある。
  • このアプローチは教師なしで、既存の翻訳モデルを微調整して訓練でき、実装も容易である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。