[논문 리뷰] BERT and PALs: Projected Attention Layers for Efficient Adaptation in Multi-Task Learning
이 논문은 PALs를 도입합니다. PALs는 공유된 BERT-base 모델 위에서 다중 작업 학습을 가능하게 하는 매개변수 효율적인 적응 모듈로, 약 7배 적은 매개변수로 GLUE 성능에 근접하고 RTE에서 최첨단을 달성합니다.
Multi-task learning shares information between related tasks, sometimes reducing the number of parameters required. State-of-the-art results across multiple natural language understanding tasks in the GLUE benchmark have previously used transfer from a single large task: unsupervised pre-training with BERT, where a separate BERT model was fine-tuned for each task. We explore multi-task approaches that share a single BERT model with a small number of additional task-specific parameters. Using new adaptation modules, PALs or `projected attention layers', we match the performance of separately fine-tuned models on the GLUE benchmark with roughly 7 times fewer parameters, and obtain state-of-the-art results on the Recognizing Textual Entailment dataset.
연구 동기 및 목표
- 큰 사전 학습 변환기(BERT) 위에서 매개변수 효율적인 다중 작업 학습을 동기 부여하고 개발합니다.
- PALs를 self-attention 계층을 보강하는 저충실도, 공유 매개변수 적응기로 제안합니다.
- 다중 작업 학습 중 작업 불균형을 완화하기 위한 학습 일정(샘플링 전략)을 탐구합니다.
- GLUE 작업에서 PALs를 다른 적응 모듈 및 기준과 비교하여 효율성과 성능을 평가합니다.
제안 방법
- PALs(Projected Attention Layers)를 저차원 공유 인코더/디코더 변환으로 도입하여 BERT 계층 내 또는 최상단에 적용합니다.
- 1.13x 매개변수 예산 하에서 여러 적응 전략(PALs, 저랭크 계층, 상단/하단 추가)을 실험합니다.
- V^E 및 V^D 인코더/디코더 행렬과 축소된 숨김 크기 d_s를 사용하여 공유 방식으로 작업별 변환 g(·)를 생성합니다.
- 다중 작업 학습 규칙 및 샘플링의 annealed/sqrt 샘플링으로 작업 균형을 맞추며 여덟 가지 GLUE 작업에서 평가합니다.
- MNLI, QQP, QNLI, SST-2, CoLA, STS-B, MRPC, RTE에 대해 미세 조정된 BERT-base 및 다른 어댑터와 비교하며 성능을 보고합니다.
실험 결과
연구 질문
- RQ1하나의 BERT base 모델을 어떻게 효율적으로 여러 작업에 적용하여 적은 수의 작업별 매개변수를 얻을 수 있는가?
- RQ2PALs 또는 다른 어댑터의 추가가 전체 미세조정 및 다른 적응 전략에 비해 GLUE 성능에 미치는 영향은 무엇인가?
- RQ3네트워크의 어느 위치에 적응 매개변수를 배치하는 것이 다중 작업의 효율성과 성능에 가장 좋은가(상단 대 계층 내)?
- RQ4다중 작업 학습에서 작업 불균형을 가장 잘 완화하는 학습 일정 전략은 무엇인가?
주요 결과
| Method | Params | MNLI-(m/mm) | QQP | QNLI | SST-2 | CoLA | STS-B | MRPC | RTE | Av. |
|---|---|---|---|---|---|---|---|---|---|---|
| BERT-base | 8 × | 84.6 /83.4 | 89.2 /71.2 | 90.1 | 93.5 | 52.1 | 85.8 | 84.8 / 88.9 | 66.4 | 79.6 |
| Shared | 1.00 × | 84.0/83.4 | 88.9/70.8 | 89.3 | 93.4 | 51.2 | 83.6 | 81.3/86.7 | 76.6 | 79.9 |
| Top Proj. Attn. | 1.10 × | 84.0/83.2 | 88.8/71.2 | 89.7 | 93.2 | 47.1 | 85.3 | 83.1/87.5 | 75.5 | 79.6 |
| PALs (204) | 1.13 × | 84.3/ 83.5 | 89.2 / 71.5 | 90.0 | 92.6 | 51.2 | 85.8 | 84.6/88.7 | 76.0 | 80.4 |
- PALs는 많은 GLUE 작업에서 미세 조정된 BERT-base와 비슷한 성능을 약 7배 적은 매개변수로 달성합니다.
- PALs는 RTE 성능을 크게 향상시켜 BERT-large 및 MT-DNN 베이스라인에 비해 최첨단 성능을 달성합니다.
- 대형 문장 쌍 작업(MNLI, QQP, QNLI)에서 PALs는 BERT-base 성능과 같거나 약간 더 나은 결과를 보여줍니다.
- 작업 내/작업 간 매개변수 공유 전략은 PALs 또는 저랭크 계층으로 모든 계층을 적응시키는 것이 상단이나 일부 계층만 적응하는 것보다 일반적으로 더 나은 성능을 나타냅니다.
- 6계층 PALs(공유 V^E 및 V^D) 및 저랭크 어댑터가 1.13x 매개변수 예산 내에서 강력한 성능을 제공합니다.
- 작업 간 완전 공유 모델의 간단한 공유도 경쟁력이 있지만, 작업별 풀링 및 상단 적응은 RTE와 같은 특정 작업에서 성능을 저하시킬 수 있습니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.