Skip to main content
QUICK REVIEW

[논문 리뷰] BERT Loses Patience: Fast and Robust Inference with Early Exit

Wangchunshu Zhou, Canwen Xu|arXiv (Cornell University)|2020. 06. 07.
Topic Modeling참고 문헌 52인용 수 45
한 줄 요약

Patience-based Early Exit (PABEE)는 PLM의 각 층에 내부 분류기를 부착하고 예측이 t consecutive steps 동안 안정되면 차례로 종료하여 속도와 정확도 모두를 향상시킵니다(예: ALBERT-base의 ~1.57x 속도 향상과 더 높은 GLUE 점수).

ABSTRACT

In this paper, we propose Patience-based Early Exit, a straightforward yet effective inference method that can be used as a plug-and-play technique to simultaneously improve the efficiency and robustness of a pretrained language model (PLM). To achieve this, our approach couples an internal-classifier with each layer of a PLM and dynamically stops inference when the intermediate predictions of the internal classifiers remain unchanged for a pre-defined number of steps. Our approach improves inference efficiency as it allows the model to make a prediction with fewer layers. Meanwhile, experimental results with an ALBERT model show that our method can improve the accuracy and robustness of the model by preventing it from overthinking and exploiting multiple classifiers for prediction, yielding a better accuracy-speed trade-off compared to existing early exit methods.

연구 동기 및 목표

  • 추론 중 과다한 고민(overthinking)을 다룸으로써 대형 사전 학습 언어 모델에서 추론 비용과 지연을 감소시키려는 동기를 제시한다.
  • 계산 중지 시점을 정하기 위해 내부 분류기들 간의 상호 합의(cross-layer agreement)를 이용하는 동적 조기 종료 메커니즘을 제안한다.
  • 이 방법이 GLUE 벤치마크에서 추론 속도를 높이는 동시에 정확도를 향상시킬 수 있음을 보인다.
  • PABEE가 이전의 예측 점수 기반 종료에 비해 적대적 공격에 대한 강건성을 향상시킨다는 것을 보여준다.

제안 방법

  • 사전 학습된 언어 모델의 모든 층 뒤에 내부 분류기를 부착한다.
  • 레이어별 예측을 계산하고 최상 예측이 변하지 않는 연속 단계를 세어 인내치(t) 도달할 때까지 누적한다.
  • 연속 안정 조건 cnt = t가 만족하는 층에서 조기 종료하고, 그렇지 않으면 최종 층 분류기를 사용한다.
  • 모든 층별 손실을 결합하는 가중 손실을 사용하여 내부 분류기를 기반 모델과 함께 학습한다.
  • 표준 추론에 비해 PABEE가 정확도를 향상시킬 수 있는 이론적 조건을 제시한다.
  • ALBERT-base/BERT-base를 GLUE 벤치마크와 적대적 강건성 테스트로 구현하고 평가한다.

실험 결과

연구 질문

  • RQ1인내 기반의 층간 교차 종료 기준이 단일 층 종료 기준과 비교하여 PLM의 정확도와 효율성을 향상시킬 수 있는가?
  • RQ2추론 지연 시간을 줄이면서 PABEE가 적대적 텍스트 공격에 대한 강건성을 유지하거나 향상시키는가?
  • RQ3GLUE 태스크 전반에서 인내 매개변수 t가 속도-정확도 트레이드오프에 어떤 영향을 미치는가?
  • RQ4다양한 백본 모델(ALBERT/BERT) 및 깊이에서 PABEE가 효과적인가?

주요 결과

  • PABEE는 GLUE 태스크에서 정확도를 향상시키거나 유지하면서 주목할 만한 속도 향상을 달성합니다(예: ALBERT-base에서 ~1.57x).
  • PABEE는 여러 태스크에 걸친 속도-정확도 트레이드오프에서 예측 확률 기반 종료(BranchyNet, Shallow-Deep)보다 우수합니다.
  • 이 방법은 기준선 대비 적대적 강건성을 향상시키며 공격자가 해야 하는 질의 수를 증가시킵니다.
  • PABEE를 적용한 더 깊은 모델 깊이(ALBERT-large, 24층 등)는 상당한 속도 향상과 함께 정확도 이득을 계속 제공합니다.
  • 학습 오버헤드는 미미하며 파라미터가 0.4% 미만 증가하고 학습 속도 저하가 뚜렷하지 않습니다.
  • PABEE의 정확도 대 속도 효과는 인내에 대해 역 U자 곡선을 나타내며, t의 최적 범위를 시사합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.