[논문 리뷰] OpenChat: Advancing Open-source Language Models with Mixed-Quality Data
OpenChat은 혼합 품질 데이터로 인간의 선호 라벨 없이 오픈소스 LLM을 미세조정하기 위한 Conditioned-RLFT를 도입하여 13B 오픈 소스 모델 중 다수 벤치마크에서 최첨단 성과를 달성한다.
Nowadays, open-source large language models like LLaMA have emerged. Recent developments have incorporated supervised fine-tuning (SFT) and reinforcement learning fine-tuning (RLFT) to align these models with human goals. However, SFT methods treat all training data with mixed quality equally, while RLFT methods require high-quality pairwise or ranking-based preference data. In this study, we present a novel framework, named OpenChat, to advance open-source language models with mixed-quality data. Specifically, we consider the general SFT training data, consisting of a small amount of expert data mixed with a large proportion of sub-optimal data, without any preference labels. We propose the C(onditioned)-RLFT, which regards different data sources as coarse-grained reward labels and learns a class-conditioned policy to leverage complementary data quality information. Interestingly, the optimal policy in C-RLFT can be easily solved through single-stage, RL-free supervised learning, which is lightweight and avoids costly human preference labeling. Through extensive experiments on three standard benchmarks, our openchat-13b fine-tuned with C-RLFT achieves the highest average performance among all 13b open-source language models. Moreover, we use AGIEval to validate the model generalization performance, in which only openchat-13b surpasses the base model. Finally, we conduct a series of analyses to shed light on the effectiveness and robustness of OpenChat. Our code, data, and models are publicly available at https://github.com/imoneoi/openchat and https://huggingface.co/openchat.
연구 동기 및 목표
- 선호도 라벨 없이 오픈소스 LLM 미세조정에 대해 전문가 수준+하위 최적 데이터로 구성된 혼합 품질 SFT 데이터를 활용하는 동기를 제시한다.
- 데이터 소스로부터의 거친 보상(coarse-grained rewards)을 활용하는 경량의 RL-프리 학습 목표를 개발한다.
- 미세조정 중 데이터 품질을 구분하기 위한 분류 조건 정책(class-conditioned policy)과 기준 정책(reference policy)을 도입한다.
- 표준 벤치마크에서 C-RLFT를 적용한 OpenChat이 지시 준수 성능에서 우수함을 입증한다.
제안 방법
- 데이터 소스를 표기하여 분류 조건 데이터셋을 정의한다(예: GPT-4 대 GPT-3.5).
- C-RLFT를 제안한다: 클래스 조건 정책 πθ(y|x,c)로 미세조정하고 클래스 조건 참조 정책 πc toward KL 정규화를 수행한다.
- 최적 정책을 클래스 조건 보상 가중 회귀로 유도하고 감독 학습으로 구현한다( RL 루프 필요 없음).
- 거친 보상 rc(x,y)를 사용하여 전문가 데이터에는 1을, 하위 최적 데이터에는 α(0<α<1)을 할당하고, 목표 함수에 지수 가중치를 부여한다.
- ShareGPT 데이터로 5 에포크 학습하는 openchat-13b(llama-2-13b 베이스)을 AdamW로 훈련하고 단순 보상 가중 회귀 목표를 사용한다.
- 데이터 소스 품질을 반영하는 클래스 조건 프롬프트로 추론하여 고품질 응답을 생성한다.
실험 결과
연구 질문
- RQ1비용이 많이 드는 선호 데이터 없이도 혼합 품질 SFT 데이터(전문가 + 하위 최적)를 효과적으로 활용해 오픈소스 LLM을 미세조정할 수 있는가?
- RQ2클래스 조건 정책과 거친 보상 신호가 표준 SFT 또는 RLHF 방식보다 지시 준수를 향상시키는가?
- RQ3RL-프리, 보상 가중 감독(C-RLFT)이 표준 벤치마크에서 기존 오픈소스 모델을 능가하기에 충분한가?
- RQ4데이터 소스 품질(GPT-4 대 GPT-3.5)이 미세조정된 모델의 일반화 및 강인성에 어떤 영향을 미치는가?
주요 결과
| 모델 | 기본 모델 | 방법 | AlpacaEval | MT-bench | Vicuna-bench | 평균 |
|---|---|---|---|---|---|---|
| gpt-4 | - | SFT + RLFT | 95.3 | 82.5 | 90.0 | 89.3 |
| llama-2-70b | llama-2-70b | SFT + RLFT | 92.7 | 60.0 | 87.5 | 80.1 |
| claude | - | SFT + RLFT | 88.4 | 65.0 | 76.3 | 76.6 |
| gpt-3.5-turbo | - | SFT + RLFT | 86.1 | 50.0 | 50.0 | 62.0 |
| guanaco-65b | llama-65b | SFT | 71.8 | 40.6 | 49.4 | 53.9 |
| guanaco-33b | llama-33b | SFT | 66.0 | 40.6 | 54.4 | 53.7 |
| vicuna-v1.1-13b | llama-13b | SFT | 70.4 | 29.4 | 45.0 | 48.3 |
| wizardlm-v1.0-13b | llama-13b | SFT | 75.3 | 33.1 | 44.4 | 50.9 |
| vicuna-v1.5-13b | llama-2-13b | SFT | 78.8 | 37.2 | 47.1 | 54.4 |
| ultralm-13b | llama-13b | SFT | 80.6 | 37.2 | 50.0 | 55.9 |
| wizardlm-v1.2-13b | llama-2-13b | SFT | 89.2 | 53.1 | 80.6 | 74.3 |
| llama-2-chat-13b | llama-2-13b | SFT + RLFT | 81.1 | 55.3 | 86.9 | 74.4 |
| openchat-13b | llama-2-13b | C-RLFT | 89.5 | 57.5 | 85.0 | 77.3 |
- C-RLFT를 갖춘 OpenChat은 AlpacaEval, MT-bench, Vicuna-bench에서 13B 오픈소스 모델 중 가장 높은 평균 승률을 달성한다.
- OpenChat-13b는 더 큰 모델들보다 우수하며 세 벤치마크 모두에서 GPT-3.5-turbo를 능가할 수 있다.
- AGIEval 결과에서 OpenChat-13b가 13B 오픈소스 모델 중 최상위 평균 정확도를 달성하여 일반화가 좋음을 시사한다.
- 소거 연구에서 거친 보상 또는 클래스 조건 정책 제거가 성능 저하를 초래하며, 오직 SFT 학습은 점수가 더 낮다.
- 시각적 분석은 모델이 표현에서 데이터 소스 품질을 구분하는 것을 학습하고 있음을 보여주며, 이는 C-RLFT의 효과를 반영한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.