QUICK REVIEW

[논문 리뷰] LAB: Large-Scale Alignment for ChatBots

Shivchander Sudalairaj, Abhishek Bhandwaldar|arXiv (Cornell University)|2024. 03. 02.

Topic Modeling인용 수 5

한 줄 요약

LAB은 GPT-4 없이도 정렬(scale alignment)을 확장하기 위한 분류 체계 기반 합성 데이터 생성과 다단계 지시 미세 조정 프레임워크를 도입하여 경쟁력 있는 벤치마크를 달성한다.

ABSTRACT

This work introduces LAB (Large-scale Alignment for chatBots), a novel methodology designed to overcome the scalability challenges in the instruction-tuning phase of large language model (LLM) training. Leveraging a taxonomy-guided synthetic data generation process and a multi-phase tuning framework, LAB significantly reduces reliance on expensive human annotations and proprietary models like GPT-4. We demonstrate that LAB-trained models can achieve competitive performance across several benchmarks compared to models trained with traditional human-annotated or GPT-4 generated synthetic data. Thus offering a scalable, cost-effective solution for enhancing LLM capabilities and instruction-following behaviors without the drawbacks of catastrophic forgetting, marking a step forward in the efficient training of LLMs for a wide range of applications.

연구 동기 및 목표

대량의 사람 주석이나 독점 모델에 대한 과도한 의존 없이 확장 가능한 지시 미세 조정을 동기부여한다.
지시 데이터의 다양화를 위한 분류 체계 기반 합성 데이터 생성 과정을 제안한다.
망각 방지를 위한 재현 버퍼를 포함한 다단계 학습 프레임워크를 개발한다.
LAB로 학습된 모델이 표준 벤치마크에서 경쟁력 있는 성능을 달성함을 보인다.

제안 방법

지식, 기초 기술, 구성적 기술에 대한 가지를 가진 분류 체계를 정의하여 지시 데이터를 선별한다.
GPT-4나 광범위한 사람 주석 없이도 대규모의 다양한 지시 데이터를 생성하기 위해 분류 체계 기반 합성 데이터 생성기를 사용한다.
잊어버림을 완화하기 위한 재현 버퍼를 갖춘 두 단계의 학습 체계(지식 조정 후 기술 조정)를 구현한다.
LMSYS 벤치마크(MT-Bench, MMLU, ARC, HellaSwag, Winogrande, GSM8K)를 평가하고 기준선과 비교한다.

실험 결과

연구 질문

RQ1분류 체계 기반 합성 데이터 생성이 독점 모델에 의한 의존도를 줄이면서도 지시 수행 성능을 유지할 수 있는가?
RQ2재현 버퍼를 갖춘 다단계 학습 체계가 대규모 정렬에서 안정성과 망각 방지를 향상시키는가?
RQ3LAB로 학습된 모델은 인간 주석 데이터나 GPT-4 생성 데이터 모델에 비해 포괄적인 정렬 벤치마크에서 어떻게 수행하는가?

주요 결과

모델	Alignment	교사	MT-Bench	MMLU	ARC	HellaSwag	Winogrande	GSM8K
Llama-2-13b-chat	SFT + RLHF	Human annotators	6.65	54.58	59.81	82.52	75.93	34.80
Orca-2	Progressive Training	GPT-4	6.15	60.37	59.73	79.86	78.22	48.22
WizardLM-13B	Evol- Instruct	GPT-4	7.20	54.83	60.24	82.62	76.40	43.75
Labradorite-13b	LAB	Mixtral-8x7B- Instruct	7.23	58.89	61.69	83.15	79.56	40.11
Mistral-7B-Instruct	SFT	Public Datasets	6.84	60.37	63.65	84.76	76.80	41.85
Zephyr-7b-β	SFT + DPO	GPT-4	7.34	61.07	63.74	84.19	78.06	34.04
Merlinite-7B	LAB	Mixtral-8x7B- Instruct	7.66	64.88	63.99	84.37	78.24	44.58

LAB-정렬 모델 Labradorite-13b와 Merlinite-7B는 각각 MT-Bench 점수 7.23과 7.66을 달성했다.
Labradorite-13b는 MT-Bench 7.23 및 MMLU 58.89를 달성; Merlinite-7B는 MT-Bench 7.66 및 MMLU 64.88을 달성했다.
ARC, HellaSwag, Winogrande, GSM8K에서 LAB 모델은 기준선 대비 강한 성능을 보이며(표 3의 값 참조).
LAB 접근 방식은 교사로 Mixtral-8x7B-Instruct를 사용하고 개방 가중치를 활용하며 GPT-4를 피하면서 여러 벤치마크에서 경쟁력 있는 결과를 보인다.
재현 버퍼가 포함된 두 단계 학습은 벤치마크 성능을 더 좋게 만들고 망각을 줄여준다.
LAB 데이터 생성은 지식 기반 데이터와 기술 기반 데이터의 대략 1.2백만 샘플을 생성했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.