[논문 리뷰] Plex: Towards Reliability using Pretrained Large Model Extensions
Plex는 ViT-Plex와 T5-Plex를 도입합니다. 이는 시각 및 언어 분야에서 작업별 튜닝 없이도 불확실성, 견고한 일반화 및 적응 작업에 걸쳐 신뢰성을 향상시키는 사전 학습된 대형 모델 확장입니다. 이 논문은 모델 크기와 사전 학습 데이터의 확장, 앙상블링 및 마지막 계층 기법의 결합이 40개 데이터셋 전반에서 최첨단 신뢰성을 달성한다는 것을 보여줍니다.
A recent trend in artificial intelligence is the use of pretrained models for language and vision tasks, which have achieved extraordinary performance but also puzzling failures. Probing these models' abilities in diverse ways is therefore critical to the field. In this paper, we explore the reliability of models, where we define a reliable model as one that not only achieves strong predictive performance but also performs well consistently over many decision-making tasks involving uncertainty (e.g., selective prediction, open set recognition), robust generalization (e.g., accuracy and proper scoring rules such as log-likelihood on in- and out-of-distribution datasets), and adaptation (e.g., active learning, few-shot uncertainty). We devise 10 types of tasks over 40 datasets in order to evaluate different aspects of reliability on both vision and language domains. To improve reliability, we developed ViT-Plex and T5-Plex, pretrained large model extensions for vision and language modalities, respectively. Plex greatly improves the state-of-the-art across reliability tasks, and simplifies the traditional protocol as it improves the out-of-the-box performance and does not require designing scores or tuning the model for each task. We demonstrate scaling effects over model sizes up to 1B parameters and pretraining dataset sizes up to 4B examples. We also demonstrate Plex's capabilities on challenging tasks including zero-shot open set recognition, active learning, and uncertainty in conversational language understanding.
연구 동기 및 목표
- AI 시스템의 신뢰성을 불확실성, 견고한 일반화, 적응 작업에서 작업 특이적 조정 없이 일관된 성능으로 정의한다.
- 시각 및 언어의 40개 데이터셋에서 10가지 작업 유형에 대해 대형 사전 학습 모델을 평가한다.
- ViT-Plex와 T5-Plex를 개발하고, 크기 확장, 앙상블링 및 마지막 계층 기법이 신뢰성에 미치는 영향을 평가한다.
제안 방법
- ViT 및 T5 아키텍처를 기반으로 3가지 크기 축으로 구성된 ViT-Plex(비전)와 T5-Plex(언어)를 사용한다(작은, 기본, 큰).
- 대규모의 다양한 데이터셋에서 사전 학습(비전은 최대 4B 이미지, 언어는 C4 텍스트)을 수행하고 계층 간 효율적인 앙상블링(BatchEnsemble)을 적용한다.
- 불확실성 및 라벨 노이스를 포착하기 위해 마지막 계층 변화를 적용한다(Gaussian process 마지막 계층, 이질적Last 계층).
- 불확실성의 새로운 집합 ImageNet ReaL-H와 NLU의 불확실성을 위한 NaLUE를 포함해 40개 데이터셋에 걸쳐 10가지 작업 유형으로 신뢰성을 평가한다.
- 사전 학습 대/소 특성 기여도와 신뢰성 지표에 대한 스케일링 동향을 분석하고, 확장 추세를 확인한다.
실험 결과
연구 질문
- RQ1대규모 사전 학습 모델은 작업별 튜닝 없이 불확실성, 일반화 및 적응 벤치마크에서 얼마나 신뢰성 있게 작동하는가?
- RQ2모델 크기, 사전 학습 데이터 크기, 신뢰성 증가 기법(앙상블링, GP 마지막 계층, Het 마지막 계층)이 시각 및 언어의 신뢰성 지표에 미치는 영향은 무엇인가?
- RQ3사전 학습 신호가 다운스트림 신뢰성 성능을 예측하는가?
- RQ4Plex에 대한 사전 학습 대 미세 조정 단계가 신뢰성 향상에 어떻게 기여하는가?
- RQ5ViT-Plex와 T5-Plex의 신뢰성 지표에서의 스케일링 추세는 무엇인가?
주요 결과
- 모델 크기 확장이 시각 및 언어 작업 전반의 신뢰성을 향상시킨다.
- 더 큰 사전 학습 데이터 세트(최대 4B 예시)가 더 작은 데이터 세트보다 더 나은 신뢰성을 제공한다.
- 효율적 앙상블링(BatchEnsemble) 및 마지막 계층 방법(GP 또는 Het)을 사용한 조합이 신뢰성 궤도 분석에서 일관되게 최고로 평가된다.
- 사전 학습 성능(예: JFT)이 다운스트림 신뢰도 점수와 강하게 상관하며, 데이터 세트 크기 자체보다 더 큰 영향을 미친다.
- Plex는 많은 작업에서 최첨단 신뢰성을 달성하고 작업별 튜닝 없이도 즉시 신뢰성을 제공한다.
- T5-Plex L은 종종 T5-Plex B보다 더 나은 성능을 보이며, 규모의 이점을 시사한다. BE+GP 및 BE 구성은 MNLI와 NaLUE에서 특히 좋은 성능을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.