QUICK REVIEW

[논문 리뷰] OpenChat: Advancing Open-source Language Models with Mixed-Quality Data

Guan Wang, Sijie Cheng|arXiv (Cornell University)|2023. 09. 20.

Topic Modeling인용 수 26

한 줄 요약

OpenChat은 혼합 품질 데이터로 인간의 선호 라벨 없이 오픈소스 LLM을 미세조정하기 위한 Conditioned-RLFT를 도입하여 13B 오픈 소스 모델 중 다수 벤치마크에서 최첨단 성과를 달성한다.

ABSTRACT

Nowadays, open-source large language models like LLaMA have emerged. Recent developments have incorporated supervised fine-tuning (SFT) and reinforcement learning fine-tuning (RLFT) to align these models with human goals. However, SFT methods treat all training data with mixed quality equally, while RLFT methods require high-quality pairwise or ranking-based preference data. In this study, we present a novel framework, named OpenChat, to advance open-source language models with mixed-quality data. Specifically, we consider the general SFT training data, consisting of a small amount of expert data mixed with a large proportion of sub-optimal data, without any preference labels. We propose the C(onditioned)-RLFT, which regards different data sources as coarse-grained reward labels and learns a class-conditioned policy to leverage complementary data quality information. Interestingly, the optimal policy in C-RLFT can be easily solved through single-stage, RL-free supervised learning, which is lightweight and avoids costly human preference labeling. Through extensive experiments on three standard benchmarks, our openchat-13b fine-tuned with C-RLFT achieves the highest average performance among all 13b open-source language models. Moreover, we use AGIEval to validate the model generalization performance, in which only openchat-13b surpasses the base model. Finally, we conduct a series of analyses to shed light on the effectiveness and robustness of OpenChat. Our code, data, and models are publicly available at https://github.com/imoneoi/openchat and https://huggingface.co/openchat.

연구 동기 및 목표

선호도 라벨 없이 오픈소스 LLM 미세조정에 대해 전문가 수준+하위 최적 데이터로 구성된 혼합 품질 SFT 데이터를 활용하는 동기를 제시한다.
데이터 소스로부터의 거친 보상(coarse-grained rewards)을 활용하는 경량의 RL-프리 학습 목표를 개발한다.
미세조정 중 데이터 품질을 구분하기 위한 분류 조건 정책(class-conditioned policy)과 기준 정책(reference policy)을 도입한다.
표준 벤치마크에서 C-RLFT를 적용한 OpenChat이 지시 준수 성능에서 우수함을 입증한다.

제안 방법

데이터 소스를 표기하여 분류 조건 데이터셋을 정의한다(예: GPT-4 대 GPT-3.5).
C-RLFT를 제안한다: 클래스 조건 정책 πθ(y|x,c)로 미세조정하고 클래스 조건 참조 정책 πc toward KL 정규화를 수행한다.
최적 정책을 클래스 조건 보상 가중 회귀로 유도하고 감독 학습으로 구현한다( RL 루프 필요 없음).
거친 보상 rc(x,y)를 사용하여 전문가 데이터에는 1을, 하위 최적 데이터에는 α(0<α<1)을 할당하고, 목표 함수에 지수 가중치를 부여한다.
ShareGPT 데이터로 5 에포크 학습하는 openchat-13b(llama-2-13b 베이스)을 AdamW로 훈련하고 단순 보상 가중 회귀 목표를 사용한다.
데이터 소스 품질을 반영하는 클래스 조건 프롬프트로 추론하여 고품질 응답을 생성한다.

실험 결과

연구 질문

RQ1비용이 많이 드는 선호 데이터 없이도 혼합 품질 SFT 데이터(전문가 + 하위 최적)를 효과적으로 활용해 오픈소스 LLM을 미세조정할 수 있는가?
RQ2클래스 조건 정책과 거친 보상 신호가 표준 SFT 또는 RLHF 방식보다 지시 준수를 향상시키는가?
RQ3RL-프리, 보상 가중 감독(C-RLFT)이 표준 벤치마크에서 기존 오픈소스 모델을 능가하기에 충분한가?
RQ4데이터 소스 품질(GPT-4 대 GPT-3.5)이 미세조정된 모델의 일반화 및 강인성에 어떤 영향을 미치는가?

주요 결과

모델	기본 모델	방법	AlpacaEval	MT-bench	Vicuna-bench	평균
gpt-4	-	SFT + RLFT	95.3	82.5	90.0	89.3
llama-2-70b	llama-2-70b	SFT + RLFT	92.7	60.0	87.5	80.1
claude	-	SFT + RLFT	88.4	65.0	76.3	76.6
gpt-3.5-turbo	-	SFT + RLFT	86.1	50.0	50.0	62.0
guanaco-65b	llama-65b	SFT	71.8	40.6	49.4	53.9
guanaco-33b	llama-33b	SFT	66.0	40.6	54.4	53.7
vicuna-v1.1-13b	llama-13b	SFT	70.4	29.4	45.0	48.3
wizardlm-v1.0-13b	llama-13b	SFT	75.3	33.1	44.4	50.9
vicuna-v1.5-13b	llama-2-13b	SFT	78.8	37.2	47.1	54.4
ultralm-13b	llama-13b	SFT	80.6	37.2	50.0	55.9
wizardlm-v1.2-13b	llama-2-13b	SFT	89.2	53.1	80.6	74.3
llama-2-chat-13b	llama-2-13b	SFT + RLFT	81.1	55.3	86.9	74.4
openchat-13b	llama-2-13b	C-RLFT	89.5	57.5	85.0	77.3

C-RLFT를 갖춘 OpenChat은 AlpacaEval, MT-bench, Vicuna-bench에서 13B 오픈소스 모델 중 가장 높은 평균 승률을 달성한다.
OpenChat-13b는 더 큰 모델들보다 우수하며 세 벤치마크 모두에서 GPT-3.5-turbo를 능가할 수 있다.
AGIEval 결과에서 OpenChat-13b가 13B 오픈소스 모델 중 최상위 평균 정확도를 달성하여 일반화가 좋음을 시사한다.
소거 연구에서 거친 보상 또는 클래스 조건 정책 제거가 성능 저하를 초래하며, 오직 SFT 학습은 점수가 더 낮다.
시각적 분석은 모델이 표현에서 데이터 소스 품질을 구분하는 것을 학습하고 있음을 보여주며, 이는 C-RLFT의 효과를 반영한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.