[논문 리뷰] Confident Adaptive Language Modeling
CALM은 Transformer 언어 모델(LMs)에 대해 원리적이며 토큰 단위의 조기 종료 판단을 도입하고, 로컬 종료를 보정하여 전역 시퀀스 품질을 보장함으로써 여러 생성 과제에서 최대 약 ~3배 빠른 추론을 달성합니다.
Recent advances in Transformer-based large language models (LLMs) have led to significant performance improvements across many tasks. These gains come with a drastic increase in the models' size, potentially leading to slow and costly use at inference time. In practice, however, the series of generations made by LLMs is composed of varying levels of difficulty. While certain predictions truly benefit from the models' full capacity, other continuations are more trivial and can be solved with reduced compute. In this work, we introduce Confident Adaptive Language Modeling (CALM), a framework for dynamically allocating different amounts of compute per input and generation timestep. Early exit decoding involves several challenges that we address here, such as: (1) what confidence measure to use; (2) connecting sequence-level constraints to local per-token exit decisions; and (3) attending back to missing hidden representations due to early exits in previous tokens. Through theoretical analysis and empirical experiments on three diverse text generation tasks, we demonstrate the efficacy of our framework in reducing compute -- potential speedup of up to $ imes 3$ -- while provably maintaining high performance.
연구 동기 및 목표
- 대형 Transformer 언어 모델의 출력 품질을 해치지 않으면서 추론 비용을 줄이는 목표를 제시한다.
- 지역별 토큰 종료를 통해 전역 시퀀스 수준 제약을 강제하는 원리적 보정 프레임워크를 개발한다.
- 조기 종료 분류기용 효과적인 층별 신뢰도 신호와 학습 목표를 식별한다.
- 다양한 텍스트 생성 작업에서 효율성 향상과 신뢰성을 시연한다.
제안 방법
- CALM을 제안한다: 로컬 토큰별 신뢰도 점수를 사용하여 자기회귀 디코딩 중 조기 종료를 결정하는 프레임워크.
- 확률 분포에 의존하지 않는 위험 관리 및 Learn-Then-Test(LTT) 보정을 사용하여 높은 확률로 충족되어야 하는 전역 일관성 제약(텍스트 기반 또는 위험 기반)을 형식화한다.
- 신뢰도가 보정된 임계값을 초과하는 가장 빠른 층에서 종료되도록 하는 중지 정책을 도출하되, 자기회귀 디코딩에서의 상태 전파를 고려한다.
- 경량화된 층별 조기 종료 분류기를 학습하고 다양한 신뢰도 측정치(소프트맥스-다름, 숨겨진 상태 포화, 명시적 종료 분류기)를 분석한다.
- 효율성과 디코딩 단계 간의 견고성을 조화시키기 위해 감소하는 임계값을 도입한다(λ′(λ,t)).
실험 결과
연구 질문
- RQ1토큰 단위의 종료 결정을 어떻게 정량화하고 보정하여 전역 시퀀스 수준 제약이 높은 확률로 충족되도록 보장할 수 있는가?
- RQ2자 autoregressive Transformer 디코딩에서 안전한 조기 종료를 가장 잘 예측하는 신뢰도 신호는 무엇인가?
- RQ3다양한 생성 작업(요약, 번역, QA)에 CALM을 적용했을 때의 효율성 향상과 성능 트레이드오프는 무엇인가?
- RQ4상태 전파가 조기 종료와 어떻게 상호작용하며, 보정 및 학습 전략을 통해 잠재적 열화를 완화할 수 있는가?
주요 결과
- CALM은 전역 보장을 가진 상당한 계산 감소를 달성하며 평가 및 훈련 설정에서 약 3배의 속도향상을 얻는다.
- 보정된 신뢰도에 기반한 조기 종료 결정은 CNN/DM, WMT, SQuAD 작업에서 전체 모델 성능의 대부분을 보존하면서도 FLOPs를 크게 줄인다.
- 생략된 층에 대한 상태 전파 기술과 감소하는 임계값은 토큰별 종료의 견고성과 효율성을 향상시킨다.
- 다양한 지역 신뢰도 측정치 간에는 서로 다른 트레이드오프가 존재한다; 소프트맥스 기반 신뢰도는 종종 강한 성능과 상당한 효율 향상을 제공하는 반면, 종료 분류기는 고성능 영역에서 FLOP 효율이 더 높을 수 있다.
- Learn-Then-Test 보정 프레임워크는 텍스트 기반 또는 위험 기반의 전역 제약을 허용 오차를 제어하며 만족시키는 종료 임계값을 선택하는 원리적 방법을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.