[논문 리뷰] Reducing Transformer Depth on Demand with Structured Dropout
LayerDrop은 단일 과다 매개변수화된 Transformer를 학습시켜 어떤 서브 네트워크 깊이도 추론 시 미세조정 없이 추출할 수 있도록 하며, 강력한 성능을 유지하면서도 필요한 때에만 사용할 수 있는 효율적인 온-디맨드 모델을 가능하게 한다.
Overparameterized transformer networks have obtained state of the art results in various natural language processing tasks, such as machine translation, language modeling, and question answering. These models contain hundreds of millions of parameters, necessitating a large amount of computation and making them prone to overfitting. In this work, we explore LayerDrop, a form of structured dropout, which has a regularization effect during training and allows for efficient pruning at inference time. In particular, we show that it is possible to select sub-networks of any depth from one large network without having to finetune them and with limited impact on performance. We demonstrate the effectiveness of our approach by improving the state of the art on machine translation, language modeling, summarization, question answering, and language understanding benchmarks. Moreover, we show that our approach leads to small BERT-like models of higher quality compared to training from scratch or using distillation.
연구 동기 및 목표
- NLP 과제에서 메모리 및 계산 효율이 높은 Transformer 모델의 필요성을 제시한다.
- 미세조정 없이 다양한 깊이의 서브 네트워크를 강건하게 만드는 학습 규제화를 도입한다.
- 더 짧은 깊이로의 가지치기가 벤치마크 전반에서 경쟁력 있는 또는 최첨단 성능을 낳는다는 것을 보인다.
제안 방법
- 모델 구조(예: 레이어)와 정렬되는 가중치 그룹을 무작위로 제거하는 구조적 드롭아웃을 적용한다.
- 추론 시 필요한 깊이를 가능하게 하기 위해 전체 Transformer 레이어를 제거하는 LayerDrop에 집중한다.
- Every Other, Search on Valid, Data Driven 등 가지치기 전략을 설명하고, 단순성과 효과를 위해 Every Other를 선호한다.
- 원하는 깊이를 목표로 하기 위한 최적 가지치기 드롭 비율 p* = 1 - r/N의 관계를 제시한다.
- 한 번에서 큰 Transformer 모델을 학습시키고, 테스트 시점에 미세조정 없이 더 얕은 서브 네트워크를 추출한다.
실험 결과
연구 질문
- RQ1LayerDrop가 추론 시 계층 단위 가지치기에 대해 Transformer를 견고하게 만드는 규제화가 될 수 있는가?
- RQ2LayerDrop를 통한 온-디맨드 깊이가 NLP 과제에서 별도의 작은 모델 학습이나 지식 증류(distillation)와 어떻게 비교되는가?
- RQ3가지치기 시 어떤 레이어를 유지할지 선택하기 위한 효과적인 가지치기 전략은 무엇인가?
- RQ4LayerDrop가 번역, 언어 모델링, 요약, 질의응답, NLU 벤치마크 전반에서 최첨단 성과를 가능하게 하는가?
주요 결과
- LayerDrop은 매우 깊은 Transformer를 정규화하여 학습을 안정시키고 다수의 NLP 벤치마크에서 강력한 성과를 달성한다.
- 하나의 큰 사전 학습 모델에서, 테스트 시점에 미세조정 없이 임의의 깊이의 작고 효율적인 서브 네트워크를 추출할 수 있다.
- LayerDrop를 이용한 가지치기는 생성 및 사전 학습 과제 전반에서, 처음부터 작은 모델을 학습시키거나 LayerDrop 없이 하는 표준 가지치기보다 종종 더 나은 성능을 보인다.
- 전체 레이어를 제거하는 것이 효과적이며, Every Other 레이어가 다양한 과제에서 강력하고 단순한 가지치기 전략이다.
- LayerDrop으로 RoBERTa 유사 모델의 가지치기는 일반적으로 처음부터 BERT/RoBERTa를 학습시키거나 증류하는 것보다 더 나은 성능을 내며, 특히 데이터가 더 많을수록 그렇다.
- 깊이의 상당한 감소가 필요한 경우 더 큰 LayerDrop으로 학습하는 것이 성능을 향상시키며, 학습 시점과 테스트 시점의 조건을 맞춘다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.