QUICK REVIEW

[논문 리뷰] Standing on the Shoulders of Giant Frozen Language Models

Yoav Levine, Itay Dalmedigos|arXiv (Cornell University)|2022. 04. 21.

Topic Modeling인용 수 20

한 줄 요약

논문은 세 가지 새로운 동결 모델 방법—입력 의존 프롬프트 조정, 동결 리더, 재귀 LM—가 기본 모델 가중치를 업데이트하지 않고도 어려운 NLP 작업에서 미세조정된 모델과 대등하거나 능가할 수 있음을 보여준다. 또한 동결 LM의 다재다능성을 유지하고 이를 활용하는 실용적인, 비용이 더 높지만 효과적인 기술을 도입한다.

ABSTRACT

Huge pretrained language models (LMs) have demonstrated surprisingly good zero-shot capabilities on a wide variety of tasks. This gives rise to the appealing vision of a single, versatile model with a wide range of functionalities across disparate applications. However, current leading techniques for leveraging a "frozen" LM -- i.e., leaving its weights untouched -- still often underperform fine-tuning approaches which modify these weights in a task-dependent way. Those, in turn, suffer forgetfulness and compromise versatility, suggesting a tradeoff between performance and versatility. The main message of this paper is that current frozen-model techniques such as prompt tuning are only the tip of the iceberg, and more powerful methods for leveraging frozen LMs can do just as well as fine tuning in challenging domains without sacrificing the underlying model's versatility. To demonstrate this, we introduce three novel methods for leveraging frozen models: input-dependent prompt tuning, frozen readers, and recursive LMs, each of which vastly improves on current frozen-model approaches. Indeed, some of our methods even outperform fine-tuning approaches in domains currently dominated by the latter. The computational cost of each method is higher than that of existing frozen model methods, but still negligible relative to a single pass through a huge frozen LM. Each of these methods constitutes a meaningful contribution in its own right, but by presenting these contributions together we aim to convince the reader of a broader message that goes beyond the details of any given method: that frozen models have untapped potential and that fine-tuning is often unnecessary.

연구 동기 및 목표

백본 모델의 미세조정 없이 다중 작업 및 개방형 도메인 QA 벤치마크에서 동결된 LM이 경쟁력 있는 성능을 달성할 수 있음을 시연한다.
전통적인 프롬프트 조정을 넘어 동결 LM의 기능을 확장하는 방법을 제시하고 검증한다.
도메인에서의 도전에도 불구하고 동결 LM 기반 구성요소가 미세조정 접근법과 어깨를 나란히 하거나 능가할 수 있음을 보여주며 모델의 다재다능성을 보존한다.
실제 배치에서 동결 LM을 사용하는 비용과 확장성 같은 실용적 고려사항을 강조한다.

제안 방법

입력 의존 프롬프트 조정(ID-PT)을 도입하여 작은 프롬프트 생성기 네트워크를 사용해 입력 특성에 맞는 프롬프트를 생성한다.
조회-강화 생성(retrieval-augmented generation)을 입증하기 위해 대형 동결 LM을 리더로 사용하고 검색된 문서에 대한 재정렬 단계를 적용한다.
동결 LM을 여러 차례 거치도록 하는 LM 재귀 접근법(텍스트 기반 및 신경 기반)을 개발하여 입력으로부터 더 많은 정보를 추출한다.
다중 작업 및 개방형 도메인 QA 벤치마크에서 동결 LM 접근법을 강력한 미세조정 기반과 비교한다.
ID-PT 프롬프트 생성기와 교차 주의 기반 프롬프트 합성 메커니즘에 대한 아키텍처 및 학습 세부 정보를 제공한다.

실험 결과

연구 질문

RQ1대규모 다중 작업 설정에서 동결된 언어 모델이 미세조정된 모델과 대등하거나 능가할 수 있는가?
RQ2동결 LM이 외부 구성요소(프롬프트 생성기, 재정렬기, 재귀적 패스)로 강화되면 개방형 도메인 QA에서 미세조정과의 격차를 좁힐 수 있는가?
RQ3DPR과 같은 리트리버를 사용한 동일 구성에서 Natural Questions와 같은 벤치마크에서 조회-강화 생성의 성능을 얼마나 끌어올릴 수 있는가?
RQ4실제 운영에서 동결-LM 기반 시스템의 비용 및 확장성은 미세조정 모델에 비해 어떤 영향을 받는가?

주요 결과

Task Cluster	T0++	ID-PT+J1-Large
추출형 QA	28.5	26.0
다지선다형 QA	62.8	62.9
감정분석	84.6	91.9
패러프레이즈 판별	62.9	66.8
주제 분류	95.4	95.5
폐쇄형 질의응답	64.7	65.1
문장 완성	49.3	49.6
구조-텍스트 변환	57.9	50.7
요약	40.0	35.9
자연어 추론	36.0	33.7
모든 데이터셋 평균	61.6	61.9

ID-PT가 7B J1-Large 동결 모델에서 P3 다중 작업 스위트의 미세조정된 11B T0++ 모델에 거의 근접한 성능을 보이며 작업 클러스터 간의 성능도 유사하게 나타난다.
ID-PT+J1-Large는 감정 분석 및 패러프레이즈 작업에서 평균 점수가 더 높았고, 구조-텍스트 및 요약 작업에서 T0++가 더 나은 성능을 보였다.
동결 J1-Large-7B 리더와 재정렬된 문헌이 같은 검색기(DPR)를 사용할 때 Natural Questions에서 일부 미세조정 리더를 능가할 수 있으며 Spider+BM25 검색으로 개선된다.
17B 동결 J1-Grande 리더와 재정렬은 특정 리트리버 설정에서 Natural Questions에서 FiD-Distill 및 EMDR2 기반의 벤치마크를 상회하거나 동일하게 만들 수 있다.
동결 LM을 여러 차례 거치게 하는 재귀가 단일 패스에 비해 폐쇄형 ODQA 설정에서 상당한 이점을 준다.
전반적으로 동결-LM 접근 방식은 모델의 다재다능성을 보존하면서 강력한 여러 개의 미세조정 벤치마크와 대등하거나 더 나은 성능을 낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.