Skip to main content
QUICK REVIEW

[논문 리뷰] LAB: Large-Scale Alignment for ChatBots

Shivchander Sudalairaj, Abhishek Bhandwaldar|arXiv (Cornell University)|2024. 03. 02.
Topic Modeling인용 수 5
한 줄 요약

LAB은 GPT-4 없이도 정렬(scale alignment)을 확장하기 위한 분류 체계 기반 합성 데이터 생성과 다단계 지시 미세 조정 프레임워크를 도입하여 경쟁력 있는 벤치마크를 달성한다.

ABSTRACT

This work introduces LAB (Large-scale Alignment for chatBots), a novel methodology designed to overcome the scalability challenges in the instruction-tuning phase of large language model (LLM) training. Leveraging a taxonomy-guided synthetic data generation process and a multi-phase tuning framework, LAB significantly reduces reliance on expensive human annotations and proprietary models like GPT-4. We demonstrate that LAB-trained models can achieve competitive performance across several benchmarks compared to models trained with traditional human-annotated or GPT-4 generated synthetic data. Thus offering a scalable, cost-effective solution for enhancing LLM capabilities and instruction-following behaviors without the drawbacks of catastrophic forgetting, marking a step forward in the efficient training of LLMs for a wide range of applications.

연구 동기 및 목표

  • 대량의 사람 주석이나 독점 모델에 대한 과도한 의존 없이 확장 가능한 지시 미세 조정을 동기부여한다.
  • 지시 데이터의 다양화를 위한 분류 체계 기반 합성 데이터 생성 과정을 제안한다.
  • 망각 방지를 위한 재현 버퍼를 포함한 다단계 학습 프레임워크를 개발한다.
  • LAB로 학습된 모델이 표준 벤치마크에서 경쟁력 있는 성능을 달성함을 보인다.

제안 방법

  • 지식, 기초 기술, 구성적 기술에 대한 가지를 가진 분류 체계를 정의하여 지시 데이터를 선별한다.
  • GPT-4나 광범위한 사람 주석 없이도 대규모의 다양한 지시 데이터를 생성하기 위해 분류 체계 기반 합성 데이터 생성기를 사용한다.
  • 잊어버림을 완화하기 위한 재현 버퍼를 갖춘 두 단계의 학습 체계(지식 조정 후 기술 조정)를 구현한다.
  • LMSYS 벤치마크(MT-Bench, MMLU, ARC, HellaSwag, Winogrande, GSM8K)를 평가하고 기준선과 비교한다.
(a) Input distributions
(a) Input distributions

실험 결과

연구 질문

  • RQ1분류 체계 기반 합성 데이터 생성이 독점 모델에 의한 의존도를 줄이면서도 지시 수행 성능을 유지할 수 있는가?
  • RQ2재현 버퍼를 갖춘 다단계 학습 체계가 대규모 정렬에서 안정성과 망각 방지를 향상시키는가?
  • RQ3LAB로 학습된 모델은 인간 주석 데이터나 GPT-4 생성 데이터 모델에 비해 포괄적인 정렬 벤치마크에서 어떻게 수행하는가?

주요 결과

모델Alignment교사MT-BenchMMLUARCHellaSwagWinograndeGSM8K
Llama-2-13b-chatSFT + RLHFHuman annotators6.6554.5859.8182.5275.9334.80
Orca-2Progressive TrainingGPT-46.1560.3759.7379.8678.2248.22
WizardLM-13BEvol- InstructGPT-47.2054.8360.2482.6276.4043.75
Labradorite-13bLABMixtral-8x7B- Instruct7.2358.8961.6983.1579.5640.11
Mistral-7B-InstructSFTPublic Datasets6.8460.3763.6584.7676.8041.85
Zephyr-7b-βSFT + DPOGPT-47.3461.0763.7484.1978.0634.04
Merlinite-7BLABMixtral-8x7B- Instruct7.6664.8863.9984.3778.2444.58
  • LAB-정렬 모델 Labradorite-13b와 Merlinite-7B는 각각 MT-Bench 점수 7.23과 7.66을 달성했다.
  • Labradorite-13b는 MT-Bench 7.23 및 MMLU 58.89를 달성; Merlinite-7B는 MT-Bench 7.66 및 MMLU 64.88을 달성했다.
  • ARC, HellaSwag, Winogrande, GSM8K에서 LAB 모델은 기준선 대비 강한 성능을 보이며(표 3의 값 참조).
  • LAB 접근 방식은 교사로 Mixtral-8x7B-Instruct를 사용하고 개방 가중치를 활용하며 GPT-4를 피하면서 여러 벤치마크에서 경쟁력 있는 결과를 보인다.
  • 재현 버퍼가 포함된 두 단계 학습은 벤치마크 성능을 더 좋게 만들고 망각을 줄여준다.
  • LAB 데이터 생성은 지식 기반 데이터와 기술 기반 데이터의 대략 1.2백만 샘플을 생성했다.
(b) Output distributions
(b) Output distributions

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.