Skip to main content
QUICK REVIEW

[論文レビュー] Identifying and Controlling Important Neurons in Neural Machine Translation

Anthony Bau, Yonatan Belinkov|arXiv (Cornell University)|Nov 3, 2018
Natural Language Processing Techniques被引用数 110
ひとこと要約

本研究は、複数の言語ペアに跨って NMT モデルの重要なニューロンを特定・分析する教師なし手法を開発し、これらのニューロンが解釈可能な言語情報を担うことと、ニューロンの活性化による翻訳の部分的な制御を可能にすることを示す。

ABSTRACT

Neural machine translation (NMT) models learn representations containing substantial linguistic information. However, it is not clear if such information is fully distributed or if some of it can be attributed to individual neurons. We develop unsupervised methods for discovering important neurons in NMT models. Our methods rely on the intuition that different models learn similar properties, and do not require any costly external supervision. We show experimentally that translation quality depends on the discovered neurons, and find that many of them capture common linguistic phenomena. Finally, we show how to control NMT translations in predictable ways, by modifying activations of individual neurons.

研究の動機と目的

  • NMTモデルの個々のニューロンが重要で解釈可能な言語情報を保持しているかどうかを判定する。
  • 外部の監視なしに翻訳品質への寄与度でニューロンをランク付けする教師なし手法を開発する。
  • 選択したニューロンを活性化または抑制することで翻訳結果を予測可能に影響させられるかを検討する。

提案手法

  • UNコーパス上で charCNN 入力を用いた英語→(5言語) NMTモデルを複数訓練する。
  • MaxCorr、MinCorr、LinReg、SVCCA の4つの教師なし手法を用いて、モデルペア間でニューロンをランク付けする。
  • 無効化実験と BLEU 評価によってニューロンの重要性を検証する。
  • 上位ニューロンが捉える言語的特性を可視化と予測タスクを通じて分析する。
  • 選択したニューロンの活性化を変更して翻訳を制御することを実証し、成功率と BLEU への影響を評価する。

実験結果

リサーチクエスチョン

  • RQ1抹消したときに翻訳品質に大きな影響を与える個々のニューロンはNMTモデルに存在するか。
  • RQ2高くランク付けされたニューロンは、時制・数・性別などの解釈可能な言語情報を符号しているか。
  • RQ3特定のニューロンの活性化を変えることで翻訳を予測可能に誘導できるか。

主な発見

  • トップランクのニューロンを抹消すると翻訳品質が大きく低下し、MaxCorr、MinCorr、LinReg で上位10%を削除した場合BLEUは15–20ポイント低下、下位10%では2–3ポイント低下する。
  • SVCCA の上位方向は急速な劣化を引き起こし(5方向で約15 BLEUポイント、方向の1%)、特定の語に整列する傾向がある。
  • MaxCorr は位置関連情報を明らかにする傾向があり、LinReg と SVCCA は語彙の同定特性を捉え、上位ニューロンの多くは時制・数・括弧関連の語などを符号している。
  • 選択したニューロンの活性化を変更して翻訳を影響させることができ、時制を過去から現在へ変更する成功率は最大67%で、BLEU 損失は約2ポイント程度、ただし性別の制御は依然難しく、成功率は約21%程度。
  • ニューロンはモデル間で言語的に意味のある現象に対応することが多く、NMTの情報の一部は完全に分散しているのではなく、解釈可能な単位に局在しているという考えを裏付ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。