QUICK REVIEW

[논문 리뷰] DropAttention: A Regularization Method for Fully-Connected Self-Attention Networks

Zehui Lin, Pengfei Liu|arXiv (Cornell University)|2019. 07. 25.

Domain Adaptation and Few-Shot Learning참고 문헌 25인용 수 34

한 줄 요약

DropAttention은 Transformer의 완전 연결 형태의 self-attention에 특화된 드롭아웃을 도입하여 서로의 적합화를 줄이고 여러 태스크에서 일반화를 개선한다.

ABSTRACT

Variants dropout methods have been designed for the fully-connected layer, convolutional layer and recurrent layer in neural networks, and shown to be effective to avoid overfitting. As an appealing alternative to recurrent and convolutional layers, the fully-connected self-attention layer surprisingly lacks a specific dropout method. This paper explores the possibility of regularizing the attention weights in Transformers to prevent different contextualized feature vectors from co-adaption. Experiments on a wide range of tasks show that DropAttention can improve performance and reduce overfitting.

연구 동기 및 목표

Transformer의 self-attention에 맞춘 드롭아웃 변형의 필요성을 제시한다.
주의 가중치를 정규화하기 위해 DropAttention(DropAttention(c) 및 DropAttention(e))를 제안한다.
주목(attention) 드롭아웃에서 연속 영역을 드롭하고 정규화된 재스케일링의 이점을 조사한다.
텍스트 분류, 시퀀스 라벨링, 텍스트적 함의, 기계 번역 전반에 걸친 DropAttention를 평가한다.

제안 방법

self-attention 출력은 ϕH̃ = f(ΛV)로 재서술되며, 여기서 Λ = softmax(QK^T / sqrt(d_k))이고 V는 H로부터 계산된다.
두 가지 DropAttention 변형을 도입한다: DropAttention(c)는 주의 열(벡터 수준)을 드롭하고, DropAttention(e)는 Λ의 개별 원소를 드롭한다.
DropBlock에서 영감을 받은 연속 영역 드롭을 보강하며, 윈도우 크기 w와 드롭 비율 p를 사용한다.
드롭 후 주의 가중치의 합이 1이 되도록 정규화된 재스케일링을 적용하여 학습 안정성을 향상시킨다.
DropAttention(e)에 대한 의사코드와 DropAttention(c)에 대한 유사 절차를 제공한다.
표준 NLP 태스크에 대해 평가하여 규제 효과와 표준 드롭아웃과의 보완성을 평가한다.

실험 결과

연구 질문

RQ1DropAttention이 완전 연결 self-attention 네트워크에서 일반화를 향상시키고 과적합을 줄이는가?
RQ2DropAttention(c)와 DropAttention(e)는 태스크 간 성능과 강건성 측면에서 어떻게 비교되는가?
RQ3연속 영역(w)을 드롭하는 것이 주의 분포 및 모델 동작에 미치는 영향은 무엇인가?
RQ4주의 드롭아웃에서 정규화된 재스케일링이 기존 드롭아웃 재스케일링보다 바람직한가?
RQ5표준 드롭아웃과 함께 사용할 때 DropAttention은 어떻게 상호작용하는가?

주요 결과

DropAttention은 텍스트 분류, 시퀀스 라벨링, 텍스트적 함의, 기계 번역 태스크에서 성능을 향상시킨다.
정규화된 재스케일링은 일반적으로 DropAttention에서 전통적인 재스케일링(1-p)보다 뛰어나다.
분류 태스크에서 DropAttention(c)가 종종 DropAttention(e)보다 더 높은 성능을 낸다.
연속 영역을 더 크게 드롭하는 것(larger w) 및 더 높은 드롭 비율은 주의 분포 엔트로피와 헤드 다양성을 증가시켜 강건성을 높이는 경향이 있다.
DropAttention은 표준 드롭아웃을 보완하고 함께 사용할 때 추가 이점을 얻을 수 있다(Dropout + DropAttention).
대규모 기계번역(WMT'16 En-De)에서 p=0.2, w=2인 DropAttention은 기준선 대비 주목할 만한 BLEU 향상을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.