QUICK REVIEW

[논문 리뷰] Parameter-Efficient Transfer Learning with Diff Pruning

Demi Guo, Alexander M. Rush|arXiv (Cornell University)|2020. 12. 14.

Domain Adaptation and Few-Shot Learning참고 문헌 70인용 수 23

한 줄 요약

이 논문은 미세조정을 통해 학습된 희소하고 작업별로 특화된 차이 벡터($\bm{δ}[_{\text{task}}$]$)를 통해 사전학습된 모델을 확장하는 파rameter 효율적인 전이 학습 방법인 diff pruning을 제안한다. 이 방법은 유연한 $L_0$-노름 근사화를 통해 희소성을 유도하는 미분 가능한 정규화를 적용한다. 이는 GLUE 벤치마크에서 전체 미세조정 성능에 근접한 결과를 달성하면서도, 작업당 모델 파라미터의 0.5%만 수정함으로써 저장소 오버헤드가 최소한인 효율적인 디바이스 내 배포를 가능하게 한다.

ABSTRACT

While task-specific finetuning of pretrained networks has led to significant empirical advances in NLP, the large size of networks makes finetuning difficult to deploy in multi-task, memory-constrained settings. We propose diff pruning as a simple approach to enable parameter-efficient transfer learning within the pretrain-finetune framework. This approach views finetuning as learning a task-specific diff vector that is applied on top of the pretrained parameter vector, which remains fixed and is shared across different tasks. The diff vector is adaptively pruned during training with a differentiable approximation to the L0-norm penalty to encourage sparsity. Diff pruning becomes parameter-efficient as the number of tasks increases, as it requires storing only the nonzero positions and weights of the diff vector for each task, while the cost of storing the shared pretrained model remains constant. It further does not require access to all tasks during training, which makes it attractive in settings where tasks arrive in stream or the set of tasks is unknown. We find that models finetuned with diff pruning can match the performance of fully finetuned baselines on the GLUE benchmark while only modifying 0.5% of the pretrained model's parameters per task.

연구 동기 및 목표

메모리 제약 조건이 있는 환경(예: 디바이스 내 응용 프로그램)에서 다수의 작업에 대해 대규모 사전학습된 모델을 미세조정할 경우 발생하는 높은 저장소 비용을 해결하기 위해.
모두의 작업에 접근할 수 없는 환경에서도 파라미터 효율적인 전이 학습을 가능하게 하여 스트림 기반 또는 피어 투 피어 작업 배포를 지원하기 위해.
모든 작업에 대해 훈련 가능한 파라미터의 수를 극적으로 줄이면서도 전체 미세조정 성능에 근접한 높은 성능을 유지하기 위해.
모델 업데이트가 희소하고 구조적이며, 비제로 가중치와 위치만 저장되어도 효율적으로 저장될 수 있는 새로운 패러다임을 탐색하기 위해.

제안 방법

작업별 모델 파라미터를 $\bm{\theta}_{\text{task}} = \bm{\theta}_{\text{pretrained}} + \bm{\delta}_{\text{task}}$로 재구성하여 사전학습된 가중치는 고정한다.
사전학습된 가중치는 그대로 유지하고, 작업별 차이 벡터 $\bm{\delta}_{\text{task}}$만 훈련하며, $L_0$-노름 페널티의 유연한 근사화를 적용하여 희소성을 유도한다.
온도 조절된 시그모이드를 사용한 소프트 마스킹 메커니즘을 도입하여 훈련 중 $\bm{\delta}_{\text{task}}$의 요소를 차별적으로 제거한다.
각 작업당 $\bm{\delta}_{\text{task}}$의 비제로 항목(위치와 값)만 저장함으로써, 작업 수에 관계없이 일정한 암모라이즈드 저장소 비용을 확보한다.
특징 차원에 걸쳐 희소성 제약을 적용하는 구조적 변형을 도입하여 일반화 능력과 성능 향상을 도모한다.
표준 백프로파게이션을 사용해 종합적으로 모델을 훈련하며, 희소성 유도 메커니즘을 통해 기울기 흐름이 가능하도록 미분 가능한 이완을 적용한다.

실험 결과

연구 질문

RQ1희소하고 작업별로 특화된 업데이트 벡터가 모델의 파라미터를 아주 소수만 수정함으로써 전체 미세조정 성능에 근접한 성능를 달성할 수 있는가?
RQ2유연한 $L_0$-노름 근사화를 사용할 경우, 정확도를 손상시키지 않으면서도 업데이트 벡터의 효과적이고 효율적인 희소성을 유도할 수 있는가?
RQ3작업 수가 증가함에 따라, 표준 미세조정 및 기타 희소화 기반 방법과 비교해 diff pruning의 저장소 효율성은 어떻게 변화하는가?
RQ4작업이 순차적으로 도착하는 스트림 또는 분산형 환경에서 diff pruning을 적용할 수 있는가?
RQ5비구조적 버전에 비해 구조적 변형된 diff pruning이 성능나 일반화 능력을 향상시키는가?

주요 결과

Diff pruning는 GLUE 벤치마크에서 전체 미세조정된 BERT 기반 모델과 비교해 성능가 비슷하거나 뛰어나며, 작업당 모델 파라미터의 0.5%만 수정한다.
작업 수가 증가함에 따라 저장소 효율성이 유의미하게 향상되며, 전체 미세조정이나 표준 희소화 방법에 비해 훨씬 낮은 저장소 요구량을 보인다. 이는 비제로 업데이트만 희소하게 저장하기 때문이다.
구조적 변형된 diff pruning은 성능 향상을 추가로 이끌어내며, 이는 구조적 희소성이 일반화 능력과 모델 효율성을 향상시킬 수 있음을 시사한다.
Diff pruning은 표준 미세조정 대비 미니배치당 약 1.5배에서 2배 정도 느리지만, 파라미터 효율성 향상의 이점을 고려하면 이는 수용 가능한 희생이다.
이 방법은 디바이스 내 배포와 스트림 기반 작업 학습을 가능하게 하며, 훈련 중 모든 작업에 접근할 필요가 없다는 점에서 유리하다.
이 방법은 정규화 효과를 보이며, 특히 데이터가 적은 환경에서 표준 미세조정을 뛰어넘는 일반화 능력을 확보하는 경우가 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.