QUICK REVIEW

[논문 리뷰] BERT and PALs: Projected Attention Layers for Efficient Adaptation in Multi-Task Learning

Asa Cooper Stickland, Iain Murray|arXiv (Cornell University)|2019. 02. 07.

Topic Modeling인용 수 113

한 줄 요약

이 논문은 PALs를 도입합니다. PALs는 공유된 BERT-base 모델 위에서 다중 작업 학습을 가능하게 하는 매개변수 효율적인 적응 모듈로, 약 7배 적은 매개변수로 GLUE 성능에 근접하고 RTE에서 최첨단을 달성합니다.

ABSTRACT

Multi-task learning shares information between related tasks, sometimes reducing the number of parameters required. State-of-the-art results across multiple natural language understanding tasks in the GLUE benchmark have previously used transfer from a single large task: unsupervised pre-training with BERT, where a separate BERT model was fine-tuned for each task. We explore multi-task approaches that share a single BERT model with a small number of additional task-specific parameters. Using new adaptation modules, PALs or `projected attention layers', we match the performance of separately fine-tuned models on the GLUE benchmark with roughly 7 times fewer parameters, and obtain state-of-the-art results on the Recognizing Textual Entailment dataset.

연구 동기 및 목표

큰 사전 학습 변환기(BERT) 위에서 매개변수 효율적인 다중 작업 학습을 동기 부여하고 개발합니다.
PALs를 self-attention 계층을 보강하는 저충실도, 공유 매개변수 적응기로 제안합니다.
다중 작업 학습 중 작업 불균형을 완화하기 위한 학습 일정(샘플링 전략)을 탐구합니다.
GLUE 작업에서 PALs를 다른 적응 모듈 및 기준과 비교하여 효율성과 성능을 평가합니다.

제안 방법

PALs(Projected Attention Layers)를 저차원 공유 인코더/디코더 변환으로 도입하여 BERT 계층 내 또는 최상단에 적용합니다.
1.13x 매개변수 예산 하에서 여러 적응 전략(PALs, 저랭크 계층, 상단/하단 추가)을 실험합니다.
V^E 및 V^D 인코더/디코더 행렬과 축소된 숨김 크기 d_s를 사용하여 공유 방식으로 작업별 변환 g(·)를 생성합니다.
다중 작업 학습 규칙 및 샘플링의 annealed/sqrt 샘플링으로 작업 균형을 맞추며 여덟 가지 GLUE 작업에서 평가합니다.
MNLI, QQP, QNLI, SST-2, CoLA, STS-B, MRPC, RTE에 대해 미세 조정된 BERT-base 및 다른 어댑터와 비교하며 성능을 보고합니다.

실험 결과

연구 질문

RQ1하나의 BERT base 모델을 어떻게 효율적으로 여러 작업에 적용하여 적은 수의 작업별 매개변수를 얻을 수 있는가?
RQ2PALs 또는 다른 어댑터의 추가가 전체 미세조정 및 다른 적응 전략에 비해 GLUE 성능에 미치는 영향은 무엇인가?
RQ3네트워크의 어느 위치에 적응 매개변수를 배치하는 것이 다중 작업의 효율성과 성능에 가장 좋은가(상단 대 계층 내)?
RQ4다중 작업 학습에서 작업 불균형을 가장 잘 완화하는 학습 일정 전략은 무엇인가?

주요 결과

Method	Params	MNLI-(m/mm)	QQP	QNLI	SST-2	CoLA	STS-B	MRPC	RTE	Av.
BERT-base	8 ×	84.6 /83.4	89.2 /71.2	90.1	93.5	52.1	85.8	84.8 / 88.9	66.4	79.6
Shared	1.00 ×	84.0/83.4	88.9/70.8	89.3	93.4	51.2	83.6	81.3/86.7	76.6	79.9
Top Proj. Attn.	1.10 ×	84.0/83.2	88.8/71.2	89.7	93.2	47.1	85.3	83.1/87.5	75.5	79.6
PALs (204)	1.13 ×	84.3/ 83.5	89.2 / 71.5	90.0	92.6	51.2	85.8	84.6/88.7	76.0	80.4

PALs는 많은 GLUE 작업에서 미세 조정된 BERT-base와 비슷한 성능을 약 7배 적은 매개변수로 달성합니다.
PALs는 RTE 성능을 크게 향상시켜 BERT-large 및 MT-DNN 베이스라인에 비해 최첨단 성능을 달성합니다.
대형 문장 쌍 작업(MNLI, QQP, QNLI)에서 PALs는 BERT-base 성능과 같거나 약간 더 나은 결과를 보여줍니다.
작업 내/작업 간 매개변수 공유 전략은 PALs 또는 저랭크 계층으로 모든 계층을 적응시키는 것이 상단이나 일부 계층만 적응하는 것보다 일반적으로 더 나은 성능을 나타냅니다.
6계층 PALs(공유 V^E 및 V^D) 및 저랭크 어댑터가 1.13x 매개변수 예산 내에서 강력한 성능을 제공합니다.
작업 간 완전 공유 모델의 간단한 공유도 경쟁력이 있지만, 작업별 풀링 및 상단 적응은 RTE와 같은 특정 작업에서 성능을 저하시킬 수 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.