[논문 리뷰] The False Promise of Imitating Proprietary LLMs
논문은 강한 모델의 출력으로 오픈 모델을 미세조정하여 독점형 LLM을 모방하는 것을 비판적으로 평가한다(예: ChatGPT). 광범위한 모방은 능력 격차를 크게 좁히지 못하는 반면, 특정 작업에 대한 로컬 모방은 더 실현 가능하다. 전반적으로, 기본 오픈 소스 LMs를 개선하는 것이 모방보다 더 효과적이다.
An emerging method to cheaply improve a weaker language model is to finetune it on outputs from a stronger model, such as a proprietary system like ChatGPT (e.g., Alpaca, Self-Instruct, and others). This approach looks to cheaply imitate the proprietary model's capabilities using a weaker open-source model. In this work, we critically analyze this approach. We first finetune a series of LMs that imitate ChatGPT using varying base model sizes (1.5B--13B), data sources, and imitation data amounts (0.3M--150M tokens). We then evaluate the models using crowd raters and canonical NLP benchmarks. Initially, we were surprised by the output quality of our imitation models -- they appear far better at following instructions, and crowd workers rate their outputs as competitive with ChatGPT. However, when conducting more targeted automatic evaluations, we find that imitation models close little to none of the gap from the base LM to ChatGPT on tasks that are not heavily supported in the imitation data. We show that these performance discrepancies may slip past human raters because imitation models are adept at mimicking ChatGPT's style but not its factuality. Overall, we conclude that model imitation is a false promise: there exists a substantial capabilities gap between open and closed LMs that, with current methods, can only be bridged using an unwieldy amount of imitation data or by using more capable base LMs. In turn, we argue that the highest leverage action for improving open-source models is to tackle the difficult challenge of developing better base LMs, rather than taking the shortcut of imitating proprietary systems.
연구 동기 및 목표
- Open-source LMs을 ChatGPT 출력에 대해 파인튜닝하는 것이 다양한 작업에서 독점 모델과 비슷한 성능을 내는지 평가한다.
- 모방 데이터 양, 기본 모델 크기, 데이터 소스가 성능에 어떤 영향을 주는지 조사한다.
- crowd 기반 평가와 자동화 평가를 비교하여 평가 차이를 밝혀낸다.
- 모방이 표면적 지시 수행을 넘어 사실성, 코딩, 문제 해결 능력을 향상시키는지 평가한다.
제안 방법
- 1.5B–13B 디코더-전용 LMs(GPT-2 1.5B, LLaMA 7B, LLaMA 13B)를 모방 데이터세트로 파인튜닝한다.
- 작업별(NQ-synthetic) 모방 데이터세트와 광범위 커버리지 모방 데이터세트(ShareGPT-Mix, HC3, Discord ChatGPT Bots)를 생성한다.
- 사람 평가(블라인드 페어와이즈 비교 vs ChatGPT)와 GPT-4를 통한 평가와 자동 벤치마크(MMLU, Natural Questions, HumanEval)를 사용한다.
- 모방 데이터 크기(0.3M–150M 토큰)와 기본 모델 크기를 변화시켜 데이터 규모 효과를 조사한다.
- 대상 자동 평가를 통해 모방 스타일, 사실성, 콘텐츠 간 차이를 분석한다.
실험 결과
연구 질문
- RQ1광범위한 ChatGPT 모방이 표준 벤치마크와 실제 작업에서 오픈 LM의 성능을 향상시키는가?
- RQ2특정 작업에 한정된 로컬 모방이 Natural Questions와 같은 작업에서 ChatGPT와의 격차를 줄일 수 있는가?
- RQ3모방 데이터 양과 기본 모델 크기가 품질과 사실성에 어떤 상호작용을 보이는가?
- RQ4왜 crowdworker 평가가 때때로 모방 출력을 ChatGPT와 경쟁적으로 평가하는가(사실성은 낮아도 스타일은 우수한 경우 등)?
- RQ5오픈 소스 LM 개발 및 정책에 대한 실용적 시사점은 무엇인가?
주요 결과
- 광범위한 모방은 기본 LM 대비 대부분의 작업에서 성능을 향상시키지 않거나 악화시킨다.
- 기본 모델 크기를 증가시키면 일관되게 결과가 향상되지만, 모방 데이터를 추가해도 광범위 모방에는 거의 이익이 없다.
- 작업 특정(NQ-합성) 모방은 Natural Questions에서 ChatGPT와의 격차를 크게 좁혀 로컬 모방이 더 실현 가능함을 보여준다.
- 모방 모델은 ChatGPT 스타일을 모방하지만 사실성 및 콘텐츠 정확성에서 뒤처지며, 대상 자동 평가 및 실제 벤치마크에서 확인된다.
- Crowdworker 및 GPT-4 평가에서도 비슷한 경향이 나타나며, 스타일 중심 모방은 높게 평가되나 사실적 콘텐츠는 뒤처진다.
- 모방 데이터가 독성 감소에 기여할 수 있으며 대상 모델의 안전 지침을 물려받지만, 전반적인 이득은 스타일리스트 모방에 한정된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.