[논문 리뷰] Optimal Subarchitecture Extraction For BERT
이 논문은 모델 크기, 추론 속도, 정확도를 종합적으로 최적화하는 데 사용된 완전 다항식 시간 근사법(FPTAS)을 활용해 BERT에서 최적의 하위 아키텍처인 Bort를 추출한다. Bort는 BERT-large의 효과적 파라미터 수의 5.5%에 해당하며, 네트워크 크기는 16%에 불과하다. Pretraining에는 단지 288 GPU 시간( RoBERTa-large의 1.2%)이 소요되며, 여러 NLU 벤치마크에서 BERT-large를 0.3%에서 31%까지 뛰어넘는 성능을 보이며 CPU에서 7.9배 빠른 속도를 기록한다.
We extract an optimal subset of architectural parameters for the BERT architecture from Devlin et al. (2018) by applying recent breakthroughs in algorithms for neural architecture search. This optimal subset, which we refer to as "Bort", is demonstrably smaller, having an effective (that is, not counting the embedding layer) size of $5.5\%$ the original BERT-large architecture, and $16\%$ of the net size. Bort is also able to be pretrained in $288$ GPU hours, which is $1.2\%$ of the time required to pretrain the highest-performing BERT parametric architectural variant, RoBERTa-large (Liu et al., 2019), and about $33\%$ of that of the world-record, in GPU hours, required to train BERT-large on the same hardware. It is also $7.9$x faster on a CPU, as well as being better performing than other compressed variants of the architecture, and some of the non-compressed variants: it obtains performance improvements of between $0.3\%$ and $31\%$, absolute, with respect to BERT-large, on multiple public natural language understanding (NLU) benchmarks.
연구 동기 및 목표
- 추론 및 pretraining 과정에서 대규모 BERT 모델의 비효율성과 높은 계산 비용을 해결하기 위해.
- 이전의 BERT 압축 방법에서의 임의적이고 최적화되지 않은 아키텍처 선택 문제를 극복하기 위해.
- 최소한의 크기이면서도 높은 성능을 보이는 BERT 하위 아키텍처를 추출하기 위한 체계적이고 알고리즘적으로 보장된 방법을 개발하기 위해.
- 최적의 하위 아키텍처가 전체 크기의 BERT 버전을 초월하는 정확도를 달성하면서도 훨씬 작고 빠르게 학습될 수 있음을 입증하기 위해.
- 표준 NLU 벤치마크에서 pretraining 및 fine-tuning을 통해 FPTAS 기반 방법의 효과성을 검증하기 위해.
제안 방법
- BERT의 아키텍처 하이퍼파라미터(깊이, 어텐션 헤드 수, 히든/인터미디어트 레이어 크기)의 최적 조합을 찾기 위해 완전 다항식 시간 근사법(FPTAS)을 적용한다.
- BERT가 강한 $AB^nC$ 성질을 만족함을 증명함으로써, FPTAS가 추론 지연, 파라미터 수, 오차율 등에 대해 이론적으로 최적의 해를 제공할 수 있음을 보장한다.
- 사전 학습된 RoBERTa-large를 테이처 모델로 활용하여 지식 정렬을 통해 추출된 하위 아키텍처(Bort)를 수렴할 수 있도록 미세조정한다.
- Agora라는 수렴성이 입증된 최적화 알고리즘을 사용하여 하위 작업에서 Bort의 안정적이고 효과적인 미세조정을 보장한다.
- MultiRC 및 ReCoRD와 같은 데이터셋에서 클래스 불균형 문제를 완화하기 위해 균형 잡힌 샘플링 전략을 적용한다.
- RACE와 같은 대규모 데이터셋의 반을 무작위로 제거하여 학습 시간을 단축시키면서도 성능에 영향을 주지 않도록 한다.
실험 결과
연구 질문
- RQ1FPTAS 기반의 알고리즘적 접근이 기존 버전보다 동시에 더 작고, 더 빠르게 학습되며, 더 높은 정확도를 보이는 BERT 하위 아키텍처를 도출할 수 있는가?
- RQ2FPTAS를 통해 추출된 최적의 하위 아키텍처가 장문의 컨텍스트나 추론 중심 작업을 포함한 다양한 NLU 벤치마크에서 잘 일반화되는가?
- RQ3추출된 하위 아키텍처의 pretraining 효율성은 테이처 모델과 정렬 전략의 선택에 얼마나 의존하는가?
- RQ4FPTAS로 추출된 아키텍처의 성능이 표준 벤치마크에서 여러 지표(정확도, 지연, 파라미터 수)에 대해 압축된 BERT 및 전체 크기의 BERT 버전과 비교해 어떻게 되는가?
- RQ5FPTAS 기반 방법은 훨씬 작고 빠르게 pretraining되는 모델을 생성할 수 있으며, 이는 RoBERTa-large를 초월하는 성능을 낼 수 있는가?
주요 결과
- Bort는 BERT-large의 크기의 16%이며, 임베딩 레이어를 제외한 효과적 파라미터 수의 5.5%에 해당하여 파라미터 효율성이 뛰어나다.
- Bort는 pretraining에 단지 288 GPU 시간이 소요되며, RoBERTa-large가 필요로 하는 24,576 GPU 시간의 1.2%에 불과하고, BERT-large의 1,153 GPU 시간의 25%에 해당하여 pretraining 비용이 극적으로 감소함을 보여준다.
- GLUE 벤치마크에서 Bort는 BERT-large를 0.3%에서 31%까지 절대적 성능 향상을 보이며, 특히 장문의 컨텍스트나 추론 중심 작업에서 가장 큰 향상을 보였다.
- RACE 데이터셋에서 Bort는 RACE-H(고등학교)와 RACE-M(중학교) 하위셋에서 각각 85.9%와 80.7%의 정확도로 BERT-large를 9~10% 이상 뛰어넘었다.
- Bort는 CPU 추론에서 BERT-large보다 7.9배 더 빠르며, 실시간 배포 가능성 향상에 기여한다.
- 간단한 선형 분류기와 표준 미세조정을 사용함에도 불구하고, Bort는 여러 벤치마크에서 최신 기술 수준의 성능을 달성하여 강력한 일반화 능력과 하이퍼파라미터 선택에 대한 강건성을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.