[논문 리뷰] Language Models are General-Purpose Interfaces
MetaLM은 양방향 인코더(언어 및 시각)를 인과적 언어 모델과 연결하는 반-인과적 언어 모델을 학습시켜 다양한 작업에 대한 범용 인터페이스로 작동하도록 하며, 언어-전용 및 시각-언어 설정에서 다중 작업 파인튜닝, 지시 학습 및 컨텍스트 내 학습을 가능하게 한다.
Foundation models have received much attention due to their effectiveness across a broad range of downstream applications. Though there is a big convergence in terms of architecture, most pretrained models are typically still developed for specific tasks or modalities. In this work, we propose to use language models as a general-purpose interface to various foundation models. A collection of pretrained encoders perceive diverse modalities (such as vision, and language), and they dock with a language model that plays the role of a universal task layer. We propose a semi-causal language modeling objective to jointly pretrain the interface and the modular encoders. We subsume the advantages and capabilities from both causal and non-causal modeling, thereby combining the best of two worlds. Specifically, the proposed method not only inherits the capabilities of in-context learning and open-ended generation from causal language modeling, but also is conducive to finetuning because of the bidirectional encoders. More importantly, our approach seamlessly unlocks the combinations of the above capabilities, e.g., enabling in-context learning or instruction following with finetuned encoders. Experimental results across various language-only and vision-language benchmarks show that our model outperforms or is competitive with specialized models on finetuning, zero-shot generalization, and few-shot learning.
연구 동기 및 목표
- 일반적 작업 레이어에 의해 매개되는 단일 개방형 생성 인터페이스 아래에서 다양한 작업을 통합한다.
- 인코더와 인터페이스를 함께 학습시키는 반-인과적 사전학습 목표를 개발한다.
- 메타LM 인터페이스가 언어-전용 및 시각-언어 작업에서 컨텍스트 학습, 파인튜닝 및 제로샷/소수샷 일반화를 지원함을 입증한다.
- 비인과 인코더를 인과 디코더와 결합하면 작업별 모델에 비해 경쟁적이거나 우수한 성능을 낸다는 점을 보여준다.
제안 방법
- 다양한 모달리티를 위한 단방향 디코더와 다수의 양방향 인코더(커넥터)를 갖춘 반-인과적 언어 모델인 MetaLM을 도입한다.
- 인코더의 양방향-스팬 표현에 조건부로 토큰을 자기회귀적으로 생성하는 반-인과적 목표를 설계한다.
- 커넥터 레이어를 사용해 인코더 출력을 범용 태스크 레이어로 매핑하고 토큰 예측을 위한 출력 어휘를 공유한다.
- 대형 영어 텍스트(Pile)에서 사전학습하고 시각-언어 작업의 경우 시각-텍스트 쌍에 대해 공동 사전학습 목표로 학습한다.
- 다중 작업 파인튜닝, 단일 작업 파인튜닝, 지시 튜닝, 컨텍스트 학습, 제로-/소수샷 설정 및 다운스트림 파인튜닝에서 언어-전용 및 시각-언어 벤치마크를 평가한다.
- 다중 작업 파인튜닝 및 여러 작업군에서 GPT와의 비교를 제시한다.
실험 결과
연구 질문
- RQ1반-인과적 사전학습 목표가 보편적 언어 모델 인터페이스가 인과 인코더와 양방향 인코더의 이점을 모두 활용하게 할 수 있는가?
- RQ2다수의 양방향 인코더를 인과 디코더에 연결하는 것이 언어 전용 및 다중 모달 작업 전반에서 효과적인 다중 작업 파인튜닝, 지시 수행 및 컨텍스트 학습을 가능하게 하는가?
- RQ3제로샷/소수샷 일반화, 컨텍스트 학습 및 파인튜닝에서 MetaLM의 성능은 작업별 기준선과 비교하여 어떤가?
- RQ4인터페이스를 고정한 채 인코더만 업데이트할 때의 단일 작업 파인튜닝의 이점은 무엇인가?
- RQ5적절한 커넥터를 갖춘 동일한 반-인과 인터페이스를 통해 시각-언어 작업이 효과적으로 처리될 수 있는가?
주요 결과
| 작업 클러스터 | GPT | MetaLM |
|---|---|---|
| 자연어 추론 | 65.0 | 79.1 |
| 감정 분석 | 92.9 | 94.6 |
| 의역/패러프레이즈 | 83.9 | 89.6 |
| 코어퍼런스 추론 | 67.1 | 84.3 |
| 상식 추론 | 63.3 | 84.2 |
| 독해 | 64.5 | 73.1 |
| 기타 | 80.3 | 84.3 |
| 폐쇄형 질의응답 | 38.2 | 44.3 |
| 구조화→텍스트 | 44.2 | 44.1 |
| 요약 | 29.8 | 31.0 |
- 메타LM은 대부분의 다중 작업 파인튜닝 작업군에서 GPT를 지속적으로 능가하며, 특히 NLU와 독해에서 두드러진다.
- 인코더만 업데이트하는 단일 작업 파인튜닝은 인터페이스를 고정한 상태에서도 강력한 기준선과 경쟁력 있는 결과를 낸다.
- 메타LM의 지시 학습은 다군에서 제로샷 및 최적 템플릿 성능을 크게 향상시킨다.
- 메타LM으로의 컨텍스트 학습은 StoryCloze, HellaSwag, Winograd 스타일 및 상식 문제에서 GPT와 일치하거나 이를 초과한다.
- 시각-언어 작업에서 이 프레임워크는 제로샷, 컨텍스트, 파인튜닝 모드를 지원하며 VQA, 캡션 작성, 시각적 추론 및 설명에서 경쟁력 있는 결과를 보인다.
- 언어 전용 작업에서 파인튜닝 시 인터페이스를 고정하고 인코더만 파인튜닝할 때 자연어 추론, 감정 분석, 의역, 질의응답 클러스터에서 뚜렷한 이점을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.