[論文レビュー] Do Attention Heads in BERT Track Syntactic Dependencies?
本論文は、BERT、RoBERTa、およびファインチューニングされた派生モデルの個々のアテンションヘッドが、統語依存関係を暗黙的に捉えているかを、Max attentionとmaximum spanning tree法を用いて依存関係を抽出し、UDツリーと比較する。
We investigate the extent to which individual attention heads in pretrained transformer language models, such as BERT and RoBERTa, implicitly capture syntactic dependency relations. We employ two methods---taking the maximum attention weight and computing the maximum spanning tree---to extract implicit dependency relations from the attention weights of each layer/head, and compare them to the ground-truth Universal Dependency (UD) trees. We show that, for some UD relation types, there exist heads that can recover the dependency type significantly better than baselines on parsed English text, suggesting that some self-attention heads act as a proxy for syntactic structure. We also analyze BERT fine-tuned on two datasets---the syntax-oriented CoLA and the semantics-oriented MNLI---to investigate whether fine-tuning affects the patterns of their self-attention, but we do not observe substantial differences in the overall dependency relations extracted using our methods. Our results suggest that these models have some specialist attention heads that track individual dependency types, but no generalist head that performs holistic parsing significantly better than a trivial baseline, and that analyzing attention weights directly may not reveal much of the syntactic knowledge that BERT-style models are known to learn.
研究の動機と目的
- BERT/RoBERTaの自己アテンションヘッドが統語依存関係を追跡しているかを評価する。
- 特定のヘッドが特定の依存関係(例:nsubj、obj)に対して専門家として機能するかを判断する。
- 構文関連タスク(例:CoLA)または意味論関連タスク(例:MNLI)でのファインチューニングが、アテンションに基づく統語シグナルを変化させるかを評価する。
- 追加のトレーニングなしで、抽出手法をグラウンドトゥルースのUDツリーと比較する。
- 専門家ヘッドとモデルの全体的なパース能力を対比する。
提案手法
- 注意重み行列を用いて、各アテンションヘッドと層から依存関係を抽出する。
- 各トークンについて最も高いアテンションを示す親を選択して関係を形成するMax法を適用する。
- Maximum Spanning Tree (MST) 法を適用して、Chu-Liu-Edmondsアルゴリズムによる完全な依存木を構築する。
- 抽出された関係/木をGold標準としてEnglish Parallel Universal Dependencies (PUD)と比較して評価する。
- 特殊トークンを除外し、モデル入力とトークン化を一致させるために一致しないサブトークンを統合する。
- 事前学習済みのBERT/RoBERTaとファインチューニング済み派生(CoLA-BERT, MNLI-BERT)を関係抽出性能で比較する。
実験結果
リサーチクエスチョン
- RQ1BERT/RoBERTaの個々のアテンションヘッドは、特定の統語依存関係を信頼性高くエンコードしているか?
- RQ22つのシンプルで訓練を必要としない手法(MaxとMST)は、アテンション重みに基づく意味のある依存構造を回復できるか?
- RQ3構文指向のタスク(CoLA)または意味指向のタスク(MNLI)でのファインチューニングが、アテンションヘッドが捉える統語シグナルを変えるか?
- RQ4総合的なパース機能を、平凡なベースラインよりも良く可能にする一般主義的なアテンションヘッドは存在するか?
主な発見
- いくつかのアテンションヘッドは、特定の依存型(例:nsubj、obj)の追跡に特化しており、ベースラインより有意に高い精度を示す。
- MNLIでのファインチューニングは長距離の節依存を改善する一方、短距離の依存にはわずかに悪影響を与える。CoLAのファインチューニングは影響が小さい。
- アテンション重みからのMSTベースの木は、ベースラインを意味的に上回らず、全体的なパースのための一般化ヘッドが欠如していることを示している。
- ランダム初期化や単純なベースラインと比較して、学習済みモデルは複数の依存タイプでベースラインを上回るが、全体のUUASの増加は控えめである。
- CoLAまたはMNLIでのファインチューニングは、分析の文脈において全体的な自己注意パターンを劇的に変えない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。