[論文レビュー] Evaluating Explainable AI Attribution Methods in Neural Machine Translation via Attention-Guided Knowledge Distillation
論文は、TransformerベースのNMTにおけるXAIアトリビューション手法を評価するため、teacher-derived attribution mapsを studentモデルのattentionに注入する teacher-student フレームワークを提案し、複数のアトリビューション手法を言語ペア間で比較、attention由来のアトリビューションがしばしば最良の改善をもたらすことを示す。
The study of the attribution of input features to the output of neural network models is an active area of research. While numerous Explainable AI (XAI) techniques have been proposed to interpret these models, the systematic and automated evaluation of these methods in sequence-to-sequence (seq2seq) models is less explored. This paper introduces a new approach for evaluating explainability methods in transformer-based seq2seq models. We use teacher-derived attribution maps as a structured side signal to guide a student model, and quantify the utility of different attribution methods through the student's ability to simulate targets. Using the Inseq library, we extract attribution scores over source-target sequence pairs and inject these scores into the attention mechanism of a student transformer model under four composition operators (addition, multiplication, averaging, and replacement). Across three language pairs (de-en, fr-en, ar-en) and attributions from Marian-MT and mBART models, Attention, Value Zeroing, and Layer Gradient $ imes$ Activation consistently yield the largest gains in BLEU (and corresponding improvements in chrF) relative to baselines. In contrast, other gradient-based methods (Saliency, Integrated Gradients, DeepLIFT, Input $ imes$ Gradient, GradientShap) lead to smaller and less consistent improvements. These results suggest that different attribution methods capture distinct signals and that attention-derived attributions better capture alignment between source and target representations in seq2seq models. Finally, we introduce an Attributor transformer that, given a source-target pair, learns to reconstruct the teacher's attribution map. Our findings demonstrate that the more accurately the Attributor can reproduce attribution maps, the more useful an injection of those maps is for the downstream task. The source code can be found on GitHub.
研究の動機と目的
- seq2seq NMT の Explainable AI アトリビューション手法の自動化・タスク特化評価を動機づける。
- アトリビューションマップが訓練中の student transformer を導く教師-生徒フレームワークを提案する。
- アトリビュレーションを attention 機構へ注入することにより複数のアトリビューション手法を系統的に比較する。
- Transformer NMT における source–target の整合性を最もよく捉えるアトリビュレーション種を調査する。
提案手法
- Inseq ライブラリを用いて teacher NMT モデルから eight XAI methods でアトリビューションマップを抽出する。
- アトリビューションマップを正規化し、four composition operators(addition、multiplication、averaging、replacement)を介して encoder-decoder attention に注入する。
- アトリビュレーション強化付き attention を用い、teacher-forced inputs で未訓練 student モデルを訓練する。
- 言語ペアと teacher モデルをまたいで MT 品質指標(BLEU、chrF)に対する student の性能を評価する。
- Attributor transformer を導入し、teacher のアトリビューションマップを再構成することを学習させ、その精度と下流の MT 性能との相関を評価する。
- どのアトリビューション源(例:teacher attention)とどのネットワーク構成要素(encoder attention)が最も強い効果を生むかを分析する。
実験結果
リサーチクエスチョン
- RQ1アトリビュレーションに導かれた attention priors が、oracle 設定下で student モデルが gold translations を再現したり teacher を模倣したりする能力をどの程度高められるか。
- RQ2どの XAI アトリビューション手法が、NMT における teacher の入力–出力挙動を模倣するのに最も有用なマップを生むか。
- RQ3アトリビューション信号を attention に注入することが、言語ペアやモデルを跨いで翻訳品質にどのように影響するか。
- RQ4Attributor ネットワークがアトリビューションマップを再現する能力は、それらのマップを使用した場合の下流の MT 性能と相関するか。
- RQ5どの attention コンポーネント(encoder 対 decoder)が外部注入アトリビューション信号に最も敏感か。
主な発見
- Attention 由来のアトリビューション、特に Attention、Value Zeroing、Layer Gradient × Activation は、基準値に対して言語ペアおよび teacher モデルを跨いで最も大きな BLEU および chrF の改善をもたらす。
- 他の勾配ベース手法(Saliency、Integrated Gradients、DeepLIFT、Input × Gradient、GradientShap)は、より小さく一貫性のない改善を示す。
- teacher の attention に紐づけられたアトリビューションマップは student を導くのにより有効である傾向があり、Attributor が target token ごとに top-3 salient scores を再現する能力と一致する。
- Attributor がアトリビューションマップを再構成する成功は、それらのマップを使用したときの student の MT 性能と強く相関する。
- アトリビューション信号を注入する効果は、encoder attention に適用したときに decoder コンポーネントよりも強く現れる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。