QUICK REVIEW

[논문 리뷰] From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning

Ming Li, Yong Zhang|arXiv (Cornell University)|2023. 08. 23.

Natural Language Processing Techniques인용 수 8

한 줄 요약

논문은 LLM의 지시 학습을 위한 자체 주도 데이터 선택 방법을 제시하고, 오픈 소스 데이터셋에서 높은 영향 데이터를 선별하는 Instruction-Following Difficulty (IFD) 지표를 도입하여 훨씬 적은 데이터로도 더 강한 결과를 달성한다.

ABSTRACT

In the realm of Large Language Models (LLMs), the balance between instruction data quality and quantity is a focal point. Recognizing this, we introduce a self-guided methodology for LLMs to autonomously discern and select cherry samples from open-source datasets, effectively minimizing manual curation and potential cost for instruction tuning an LLM. Our key innovation, the Instruction-Following Difficulty (IFD) metric, emerges as a pivotal metric to identify discrepancies between a model's expected responses and its intrinsic generation capability. Through the application of IFD, cherry samples can be pinpointed, leading to a marked uptick in model training efficiency. Empirical validations on datasets like Alpaca and WizardLM underpin our findings; with a mere $10\%$ of original data input, our strategy showcases improved results. This synthesis of self-guided cherry-picking and the IFD metric signifies a transformative leap in the instruction tuning of LLMs, promising both efficiency and resource-conscious advancements. Codes, data, and models are available: https://github.com/tianyi-lab/Cherry_LLM

연구 동기 및 목표

LLM 튜닝에서 데이터 양을 줄이면서 지시 준수 품질을 유지하거나 개선하도록 동기를 부여한다.
대규모 오픈 소스 데이터셋에서 체리 데이터(cherry data)를 식별하기 위한 자체 주도 데이터 선택 프로세스를 도입한다.
IFD(Instruction-Following Difficulty) 지표를 정의하고 활용하여 지시가 모델 출력에 얼마나 잘 반영되는지 측정한다.
Alpaca 및 WizardLM 벤치마크에서 기존 데이터의 약 5-10%로 경쟁력 있거나 더 우수한 결과를 달성하여 효율성을 입증한다.

제안 방법

Phase 1: Brief Experience에서의 학습은 지시 임베딩에 대해 K-Means 클러스터링을 사용하여 소량의 사전 학습 데이터셋을 만들고 초기 모델을 1에폭 학습한다.
Phase 2: 경험에 따른 평가에서는 조건부 정답 손실과 직접 정답 손실을 비교하여 Instruction-Following Difficulty(IFD) 점수를 정의하고 체리 데이터 선정을 유도한다.
Phase 3: 자체 주도 경험에서의 재훈련은 선택된 고-IFD 샘플을 사용하여 체리 모델을 학습시키며, 실험에서 기본 모델은 Meta LLaMA-7B 기반이다.
IFD는 IFD(Q,A) = s_theta(A|Q) / s_theta(A) 이며, 여기서 s_theta(A|Q)는 조건부 정답 점수이고 s_theta(A)는 직접 정답 점수이다.
이 방법은 IFD 점수가 1보다 큰 샘플을 필터링하고, 선행 경험 모델의 출력을 사용하여 대상 데이터셋에서 IFD 점수를 얻는다.
실험은 Alpaca 및 WizardLM 데이터셋을 사용하며, 모델은 약 5-10%의 데이터로 학습하고 여러 테스트 세트에서 평가한다.
평가는 GPT-4/ChatGPT를 통한 모델 판단의 페어와이즈 비교와 샘플 인스턴스에 대한 인간 평가에 의존한다.

실험 결과

연구 질문

RQ1LLM이 광범위한 오픈 소스 데이터셋에서 광범위한 인간 선별 없이도 고임팩트 지시 준수 데이터를 식별할 수 있는가?
RQ2IFD 지표가 더 나은 지시 수행 성능으로 이어지는 지시적 샘플을 효과적으로 구분하는가?
RQ3자체 주도 IFD 기반 전략으로 데이터를 체리 피킹하여 지시 튜닝에서 어떤 데이터 효율성 향상을 달성할 수 있는가?
RQ4체리 데이터 접근 방식이 모델 규모와 오픈 소스 벤치마크(예: Alpaca, WizardLM, LLaMA2)에서 일반화 가능한가?
RQ5데이터 다양성만이 지시 튜닝 성능을 이끄는 데 품질 중심의 체리 데이터와 비교해 어떤 차이가 있는가?

주요 결과

제안된 방법으로 선택된 약 5-10%의 데이터로 학습된 모델이 Alpaca 및 WizardLM 벤치마크에서 전체 데이터로 학습된 모델보다 더 나거나 일치한다.
선별된 데이터로 학습된 체리 모델은 더 강력한 기준선에 비해 Huggingface Open LLM Leaderboard와 AlpacaEval Leaderboard에서 경쟁력 있는 결과를 얻는다.
제거 분석은 무작위 데이터, 다양성 중심 샘플링, 저-IFD 점수 선호가 더 나쁘다고 보여 주며, IFD 기반 선별의 가치를 강조한다.
LLaMA2-7B 및 LLaMA2-13B에 대한 실험은 서로 다른 기본 모델 및 데이터 규모에서도 접근법이 효과적임을 시사한다.
인간 평가를 통해 체리 데이터 선별이 지시 정렬에 더 도전적이고 중요한 지시에 부합함을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.