Skip to main content
QUICK REVIEW

[논문 리뷰] DropAttention: A Regularization Method for Fully-Connected Self-Attention Networks

Zehui Lin, Pengfei Liu|arXiv (Cornell University)|2019. 07. 25.
Domain Adaptation and Few-Shot Learning참고 문헌 25인용 수 34
한 줄 요약

DropAttention은 Transformer의 완전 연결 형태의 self-attention에 특화된 드롭아웃을 도입하여 서로의 적합화를 줄이고 여러 태스크에서 일반화를 개선한다.

ABSTRACT

Variants dropout methods have been designed for the fully-connected layer, convolutional layer and recurrent layer in neural networks, and shown to be effective to avoid overfitting. As an appealing alternative to recurrent and convolutional layers, the fully-connected self-attention layer surprisingly lacks a specific dropout method. This paper explores the possibility of regularizing the attention weights in Transformers to prevent different contextualized feature vectors from co-adaption. Experiments on a wide range of tasks show that DropAttention can improve performance and reduce overfitting.

연구 동기 및 목표

  • Transformer의 self-attention에 맞춘 드롭아웃 변형의 필요성을 제시한다.
  • 주의 가중치를 정규화하기 위해 DropAttention(DropAttention(c) 및 DropAttention(e))를 제안한다.
  • 주목(attention) 드롭아웃에서 연속 영역을 드롭하고 정규화된 재스케일링의 이점을 조사한다.
  • 텍스트 분류, 시퀀스 라벨링, 텍스트적 함의, 기계 번역 전반에 걸친 DropAttention를 평가한다.

제안 방법

  • self-attention 출력은 ϕH̃ = f(ΛV)로 재서술되며, 여기서 Λ = softmax(QK^T / sqrt(d_k))이고 V는 H로부터 계산된다.
  • 두 가지 DropAttention 변형을 도입한다: DropAttention(c)는 주의 열(벡터 수준)을 드롭하고, DropAttention(e)는 Λ의 개별 원소를 드롭한다.
  • DropBlock에서 영감을 받은 연속 영역 드롭을 보강하며, 윈도우 크기 w와 드롭 비율 p를 사용한다.
  • 드롭 후 주의 가중치의 합이 1이 되도록 정규화된 재스케일링을 적용하여 학습 안정성을 향상시킨다.
  • DropAttention(e)에 대한 의사코드와 DropAttention(c)에 대한 유사 절차를 제공한다.
  • 표준 NLP 태스크에 대해 평가하여 규제 효과와 표준 드롭아웃과의 보완성을 평가한다.

실험 결과

연구 질문

  • RQ1DropAttention이 완전 연결 self-attention 네트워크에서 일반화를 향상시키고 과적합을 줄이는가?
  • RQ2DropAttention(c)와 DropAttention(e)는 태스크 간 성능과 강건성 측면에서 어떻게 비교되는가?
  • RQ3연속 영역(w)을 드롭하는 것이 주의 분포 및 모델 동작에 미치는 영향은 무엇인가?
  • RQ4주의 드롭아웃에서 정규화된 재스케일링이 기존 드롭아웃 재스케일링보다 바람직한가?
  • RQ5표준 드롭아웃과 함께 사용할 때 DropAttention은 어떻게 상호작용하는가?

주요 결과

  • DropAttention은 텍스트 분류, 시퀀스 라벨링, 텍스트적 함의, 기계 번역 태스크에서 성능을 향상시킨다.
  • 정규화된 재스케일링은 일반적으로 DropAttention에서 전통적인 재스케일링(1-p)보다 뛰어나다.
  • 분류 태스크에서 DropAttention(c)가 종종 DropAttention(e)보다 더 높은 성능을 낸다.
  • 연속 영역을 더 크게 드롭하는 것(larger w) 및 더 높은 드롭 비율은 주의 분포 엔트로피와 헤드 다양성을 증가시켜 강건성을 높이는 경향이 있다.
  • DropAttention은 표준 드롭아웃을 보완하고 함께 사용할 때 추가 이점을 얻을 수 있다(Dropout + DropAttention).
  • 대규모 기계번역(WMT'16 En-De)에서 p=0.2, w=2인 DropAttention은 기준선 대비 주목할 만한 BLEU 향상을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.