[논문 리뷰] Self-Alignment with Instruction Backtranslation
이 논문은 seed 모델을 사용하여 unlabeled 웹 데이터에서 고품질(지시문, 출력) 쌍을 생성하고 큐레이션하는 반복적 자기 학습 방법인 지시 역번역(instruction backtranslation)을 제안하며, 모델 증류 없이도 지시 수행 성능을 강하게 달성합니다.
We present a scalable method to build a high quality instruction following language model by automatically labelling human-written text with corresponding instructions. Our approach, named instruction backtranslation, starts with a language model finetuned on a small amount of seed data, and a given web corpus. The seed model is used to construct training examples by generating instruction prompts for web documents (self-augmentation), and then selecting high quality examples from among these candidates (self-curation). This data is then used to finetune a stronger model. Finetuning LLaMa on two iterations of our approach yields a model that outperforms all other LLaMa-based models on the Alpaca leaderboard not relying on distillation data, demonstrating highly effective self-alignment.
연구 동기 및 목표
- 인간 주석 데이터나 증류에 지나치게 의존하지 않고 확장 가능한 지시 조정의 동기를 제시한다.
- 모델 자체에 의해 주도되는 두 단계의 자기 학습 파이프라인(self-augmentation 및 self-curation)을 소개한다.
- 벤치마크에서 경쟁력 있는 지시 수행 모델로의 반복적 개선을 시연한다.
- 지시 수행 모델의 효과적 확장을 위해 데이터 품질 관리가 필수적임을 보인다.
제안 방법
- 작고 초기의 (instruction, output) 쌍 세트와 대규모 라벨링되지 않은 웹 코퍼스로 시작한다.
- Self-augmentation: 역방향 모델을 미세조정하여 비라벨링된 출력에 대한 후보 지시를 생성하고 (instruction, output) 쌍을 만든다.
- Self-curation: seed 지시 모델을 사용하여 증강된 쌍의 점수를 매기고 고품질 예제를 선별하여 미세조정에 사용하며, 더 강한 모델을 만들기 위해 반복한다.
- 학습 및 추론을 안내하기 위해 시스템 프롬프트로 증강 데이터와 시드 데이터를 태깅한다.
- 7B, 33B, 65B LLaMA 모델을 실험하고 여러 증강 반복(self-curation의 두 차례 반복)을 통해 데이터 규모를 확장한다.
- AlpacaEval(GPT-4 판단)과 인간 선호도 평가, 제로샷 NLP 벤치마크를 통해 평가한다.
실험 결과
연구 질문
- RQ1시드 지시 수행 모델이 외부 감독 없이도 대규모 라벨링되지 않은 웹 코퍼스로부터 고품질의 지시 데이터를 부트스트래핑할 수 있는가?
- RQ2self-curation이 증강 데이터의 품질을 충분히 향상시켜 반복적 재학습을 정당화하는가?
- RQ3데이터의 품질과 양이 self-aligned 모델의 지시 수행 성능에 어떤 영향을 미치는가?
- RQ4데이터 태깅과 시스템 프롬프트가 학습 및 추론에 미치는 영향은 무엇인가?
- RQ5모델 규모에 따라 이 접근법이 확장되고 비증류 기준선과 표준 벤치마크에서 어떻게 비교되는가?
주요 결과
- self-augmentation과 self-curation 파이프라인(두 차례의 반복)은 Alpaca 벤치마크에서 비증류 LLaMA 기반 모델보다 우수한 성능을 보이는 모델(Humpback)을 산출한다.
- 고품질로 증강된 데이터로의 학습은 모든 증강 데이터나 시드 데이터만 사용할 때보다 지시 수행 성능을 크게 향상시킨다.
- 데이터 품질에 대한 강조는 단순한 데이터 양의 증가보다 더 나은 이점을 제공하며, 피상적 정렬 가설과는 대조적이다.
- 적절한 시스템 프롬프트를 동반한 시드 데이터와 자기 증강 데이터의 공동 학습은 성능과 안전성 고려를 향상시킨다.
- 고품질로 증강된 데이터를 사용한 더 큰 모델(예: 65B)로의 확장은 작은 모델보다 추가적인 개선을 가져온다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.