[논문 리뷰] WizardLM: Empowering large pre-trained language models to follow complex instructions
WizardLM은 AI가 생성하고 점진적으로 진화한 지시(Evol-Instruct)가 LLaMA-7B를 복잡한 개방 도메인 작업을 따르도록 훈련시킬 수 있으며, 일부 인간이 만든 지시 세트를 능가하고 어려운 상황에서 ChatGPT에 근접함을 보여준다. GPT-4 평가에서 WizardLM은 많은 스킬에서 상당한 동등성을 달성하지만, 코드/수학/추론 분야에는 여전히 차이가 있다.
Training large language models (LLMs) with open-domain instruction following data brings colossal success. However, manually creating such instruction data is very time-consuming and labor-intensive. Moreover, humans may struggle to produce high-complexity instructions. In this paper, we show an avenue for creating large amounts of instruction data with varying levels of complexity using LLM instead of humans. Starting with an initial set of instructions, we use our proposed Evol-Instruct to rewrite them step by step into more complex instructions. Then, we mix all generated instruction data to fine-tune LLaMA. We call the resulting model WizardLM. Human evaluations on a complexity-balanced test bed and Vicuna's testset show that instructions from Evol-Instruct are superior to human-created ones. By analyzing the human evaluation results of the high complexity part, we demonstrate that outputs from our WizardLM are preferred to outputs from OpenAI ChatGPT. In GPT-4 automatic evaluation, WizardLM achieves more than 90\% capacity of ChatGPT on 17 out of 29 skills. Even though WizardLM still lags behind ChatGPT in some aspects, our findings suggest that fine-tuning with AI-evolved instructions is a promising direction for enhancing LLMs. Our code and data are public at https://github.com/nlpxucan/WizardLM
연구 동기 및 목표
- AI가 생성한 지시 데이터가 지시 이행 LM 학습의 규모 확장과 다양화를 가능하게 함을 입증한다.
- Evol-Instruct로 생성된 지시가 품질과 난이도 면에서 인간이 만든 지시 데이터보다 우수함을 보여준다.
- 사람 및 GPT-4 기반 평가를 사용하여 WizardLM을 기준선 및 ChatGPT와 평가한다.
- 진화된 지시의 난이도, 폭, 품질 및 그것이 모델 성능에 미치는 영향을 분석한다.
제안 방법
- Evol-Instruct를 제안한다: 두 가지 구성 요소 — Instruction Evolver(깊이와 폭의 진화)와 Instruction Eliminator(오류 필터링).
- 초기 시드 지시 세트를 다수 세대에 걸쳐 반복적으로 진화시키고 매번 해당하는 모델 응답을 생성한다.
- 진화된 지시를 혼합해 오픈 소스 LLaMA-7B를 미세 조정하여 WizardLM을 만들고, 공정한 비교를 위해 Vicuna에 비견될 데이터 세트 크기를 사용한다.
- 난이도 균형이 잡힌 Evol-Instruct 테스트 세트와 Vicuna의 테스트 세트를 포함한 사람 평가 및 GPT-4 자동 평가로 모델을 평가한다.
실험 결과
연구 질문
- RQ1AI가 생성하고 점진적으로 진화한 지시가 개방 도메인 지시 이행 모델에 대해 인간이 만든 지시 데이터 세트를 능가할 수 있는가?
- RQ2고난도 지시에서 WizardLM이 Alpaca, Vicuna, 및 ChatGPT와 어떻게 비교되는가?
- RQ3GPT-4로 평가했을 때 WizardLM의 다양한 기술과 난이도에서의 성능은 어떠한가?
- RQ4진화된 지시가 인간이 저술한 프롬프트를 넘어 다양성과 깊이를 증가시키는가?
- RQ5향후 LLM 미세 조정을 위한 AI-진화 지시 데이터의 한계와 실용적 함의는 무엇인가?
주요 결과
- Evol-Instruct 지시는 Evol-Instruct 테스트 세트의 인간 평가에서 ShareGPT 기반 인간 지시보다 우수하다.
- 70k Evol-Instruct 데이터로 구성된 WizardLM은 Evol-Instruct 테스트 세트와 Vicuna 테스트 세트에서 인간 평가 기준으로 Vicuna-7B를 능가한다.
- 고난도 프롬프트에서 인간 판단 시 WizardLM이 ChatGPT보다 선호된다( Evol-Instruct 고난도 하위집합 내에서).
- GPT-4 자동 평가에서 WizardLM은 ChatGPT에 비해 상당한 능력을 달성하는 것으로 나타났으며(예: 29개 기술 중 17개에서 90% 이상), Evol-Instruct 테스트 세트에서 Alpaca-7B 및 Vicuna-7B를 능가한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.