QUICK REVIEW

[논문 리뷰] Do Attention Heads in BERT Track Syntactic Dependencies?

Phu Mon Htut, Jason Phang|arXiv (Cornell University)|2019. 11. 27.

Topic Modeling참고 문헌 24인용 수 88

한 줄 요약

논문은 BERT, RoBERTa 및 미세조정 버전에 대해 개별 어텐션 헤드가 합성 구문 의존 관계를 암시적으로 포착하는지 여부를 분석하고, Max attention과 최대 스패닝 트리 방법으로 의존 관계를 추출한 뒤 UD 트리와 비교한다.

ABSTRACT

We investigate the extent to which individual attention heads in pretrained transformer language models, such as BERT and RoBERTa, implicitly capture syntactic dependency relations. We employ two methods---taking the maximum attention weight and computing the maximum spanning tree---to extract implicit dependency relations from the attention weights of each layer/head, and compare them to the ground-truth Universal Dependency (UD) trees. We show that, for some UD relation types, there exist heads that can recover the dependency type significantly better than baselines on parsed English text, suggesting that some self-attention heads act as a proxy for syntactic structure. We also analyze BERT fine-tuned on two datasets---the syntax-oriented CoLA and the semantics-oriented MNLI---to investigate whether fine-tuning affects the patterns of their self-attention, but we do not observe substantial differences in the overall dependency relations extracted using our methods. Our results suggest that these models have some specialist attention heads that track individual dependency types, but no generalist head that performs holistic parsing significantly better than a trivial baseline, and that analyzing attention weights directly may not reveal much of the syntactic knowledge that BERT-style models are known to learn.

연구 동기 및 목표

BERT/RoBERTa의 자기 주의(head)가 구문 의존 관계를 추적하는지 평가한다.
특정 헤드가 특정 의존성(예: nsubj, obj)에 대해 전문화된 역할을 하는지 판단한다.
구문 관련 작업(CoLA) 또는 의미론 관련 작업(MNLI)으로의 미세조정이 어텐션 기반의 구문 신호를 변화시키는지 평가한다.
추출 방법을 추가 학습 없이 실제 UD 트리와 대조한다.
전문가 헤드와 모델의 전체 파싱 능력을 대비한다.

제안 방법

어텐션 가중치 행렬을 사용하여 각 어텐션 헤드 및 계층에서 의존 관계를 추출한다.
각 토큰마다 가장 높은 어텐션 가중치를 가진 부모를 선택하여 관계를 형성하는 Max 방법을 적용한다.
Chu-Liu-Edmonds 알고리즘을 이용해 MST 방법으로 완전한 의존 트리를 구성한다.
추출된 관계/트리를 골드 표준으로서 English Parallel Universal Dependencies (PUD)와 대조하여 평가한다.
특수 토큰을 제외하고 일치하지 않는 서브토큰을 병합하여 모델 입력과 토큰화가 일치하도록 한다.
사전 학습된 BERT/RoBERTa와 미세조정 변형(CoLA-BERT, MNLI-BERT)을 관계 추출 성능에서 비교한다.

실험 결과

연구 질문

RQ1BERT/RoBERTa의 개별 어텐션 헤드가 특정 구문 의존 관계를 신뢰성 있게 인코딩하는가?
RQ2두 가지 간단한 비학습 방법(Max 및 MST)이 어텐션 가중치에서 의미 있는 의존성 구조를 복구할 수 있는가?
RQ3구문 지향(CoLA) 또는 의미 지향(MNLI) 작업으로의 미세조정이 어텐션 헤드가 포착하는 구문 신호를 변경하는가?
RQ4무의미한 기준선보다 전체 파싱을 가능하게 하는 일반적 어텐션 헤드가 있는가?

주요 결과

일부 어텐션 헤드는 특정 의존 유형(nsubj, obj 등)을 추적하는 데 전문화되어 있으며 기준선보다 유의하게 높은 정확도를 보인다.
MNLI로의 미세조정은 긴 거리의 절 구성 의존성을 개선하지만 단거리 의존성은 약간 악화시키며, CoLA 미세조정은 큰 영향을 보이지 않는다.
MST 기반 트리는 어텐션 가중치로부터의 성능이 의미 있게 기준선을 능가하지 못하며, 전체 파싱을 위한 일반ist 헤드의 부재를 시사한다.
랜덤 초기화 및 단순 기준선과 비교할 때 학습된 모델이 여러 의존 유형에서 기준선을 능가하지만 전반적인 UUAS 상승은 미미하다.
CoLA 또는 MNLI의 미세조정은 분석 맥락에서 전체 자기 주의 패턴을 급격히 변화시키지 않는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.