[論文レビュー] On Identifiability in Transformers
本研究は、Transformerにおけるアテンションウェイトとトークン埋め込みの識別可能性を分析し、有効なアテンションとHidden Token Attributionを導入し、文脈の混合に起因する深さとともにトークン同一性の保持がかなりの程度ではあるが完全にはないことを示す。
In this paper we delve deep in the Transformer architecture by investigating two of its core components: self-attention and contextual embeddings. In particular, we study the identifiability of attention weights and token embeddings, and the aggregation of context into hidden tokens. We show that, for sequences longer than the attention head dimension, attention weights are not identifiable. We propose effective attention as a complementary tool for improving explanatory interpretations based on attention. Furthermore, we show that input tokens retain to a large degree their identity across the model. We also find evidence suggesting that identity information is mainly encoded in the angle of the embeddings and gradually decreases with depth. Finally, we demonstrate strong mixing of input information in the generation of contextual embeddings by means of a novel quantification method based on gradient attribution. Overall, we show that self-attention distributions are not directly interpretable and present tools to better understand and further investigate Transformer models.
研究の動機と目的
- アテンションウェイトがモデルの出力によって一意に決定されるか(アテンション識別性)を評価する。
- 入力トークンの同一性が層をまたいだ文脈埋め込みに保持されるかを評価する(トークン識別性)。
- 勾配ベースの帰属を用いて、文脈が隠れ埋め込みへどの程度混ざっているか(文脈寄与)を定量化する。
- アテンションの解釈性を改善するツール(effective attention)を提案する。
- Transformer層を通じて同一性情報と文脈がどのように進化するかについて実証的なエビデンスを提供する。
提案手法
- 変換値行列 T = E W_V H の秩の上限を理論的に導出し、シーケンス長がアテンションヘッドの次元 dv を超える場合に識別不能性を示す。
- 左零空間 LN(T) を特徴づけ、 simplex 制約を満たす LN(T) に非自明な Ã が存在することを証明し、アテンションウェイトの唯一性の欠如を示唆する。
- 出力に影響を与えるアテンション成分を分離するため、effective attention A⊥ = A − ProjectionLN(T)(A) を導入する。
- 層を通じて隠れ埋め込みから入力トークンへの最近傍マッピング(コサイン類似度およびL2距離)を用いてトークン識別性を経験的に検証する。
- 中間埋め込みへの寄与を定量化するため、入力トークンの寄与を勾配帰属に基づいて定義する。
- 勾配ベースの解析を用いて、文脈が隠れ埋め込みにどのように寄与するかを検討し、局所的 vs 遠位トークンの影響を定量化する。
実験結果
リサーチクエスチョン
- RQ1特定の入力列に対して、Transformerの出力からアテンションウェイトの分布は識別可能ですか?
- RQ2文脈埋め込みは層を通じて入力トークンの同一性情報を保持しますか?
- RQ3文脈は隠れ埋め込みへどのように集約され、深さが進むにつれてトークンは文脈とどの程度混ざりますか?
- RQ4生のウェイトを超えてアテンションをより良く解釈する診断ツール(effective attention)を開発できますか?
- RQ5深さが増すにつれて、トークン埋め込みへの文脈寄与はどれくらい局所的または全体的ですか?
主な発見
- アテンションウェイトは識別不能になる。シーケンス長がアテンションヘッドの次元を超える場合、同じ出力を生み出す無限に多くのアテンション設定が存在する。
- effective attention はシーケンス長が増えるにつれて生のアテンションから離れ、出力に影響を与えるものをより忠実に診断する。
- 入力トークンは層を通じて大部分が同一性を保持し、線形写像と最近傍探索を通じて同一性情報を取り戻せることが多く、特に初期層で顕著。
- 同一性情報は主に埋め込み角度にコードされ、深い層では低下し、正確なトークン同一性の段階的な喪失を示している。
- Hidden Token Attributionは、埋め込みにおけるトークンと文脈情報の強い混合を示す。文脈の集約は基本的に局所的で、深い層ではより遠いトークンの寄与が現れる。
- 全体として、自己注意分布は直接的には解釈できない。論文はTransformer内部をより理解するためのツールを提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。