QUICK REVIEW

[논문 리뷰] Self-Alignment with Instruction Backtranslation

Xian Li, Ping Yu|arXiv (Cornell University)|2023. 08. 11.

Natural Language Processing Techniques인용 수 13

한 줄 요약

이 논문은 seed 모델을 사용하여 unlabeled 웹 데이터에서 고품질(지시문, 출력) 쌍을 생성하고 큐레이션하는 반복적 자기 학습 방법인 지시 역번역(instruction backtranslation)을 제안하며, 모델 증류 없이도 지시 수행 성능을 강하게 달성합니다.

ABSTRACT

We present a scalable method to build a high quality instruction following language model by automatically labelling human-written text with corresponding instructions. Our approach, named instruction backtranslation, starts with a language model finetuned on a small amount of seed data, and a given web corpus. The seed model is used to construct training examples by generating instruction prompts for web documents (self-augmentation), and then selecting high quality examples from among these candidates (self-curation). This data is then used to finetune a stronger model. Finetuning LLaMa on two iterations of our approach yields a model that outperforms all other LLaMa-based models on the Alpaca leaderboard not relying on distillation data, demonstrating highly effective self-alignment.

연구 동기 및 목표

인간 주석 데이터나 증류에 지나치게 의존하지 않고 확장 가능한 지시 조정의 동기를 제시한다.
모델 자체에 의해 주도되는 두 단계의 자기 학습 파이프라인(self-augmentation 및 self-curation)을 소개한다.
벤치마크에서 경쟁력 있는 지시 수행 모델로의 반복적 개선을 시연한다.
지시 수행 모델의 효과적 확장을 위해 데이터 품질 관리가 필수적임을 보인다.

제안 방법

작고 초기의 (instruction, output) 쌍 세트와 대규모 라벨링되지 않은 웹 코퍼스로 시작한다.
Self-augmentation: 역방향 모델을 미세조정하여 비라벨링된 출력에 대한 후보 지시를 생성하고 (instruction, output) 쌍을 만든다.
Self-curation: seed 지시 모델을 사용하여 증강된 쌍의 점수를 매기고 고품질 예제를 선별하여 미세조정에 사용하며, 더 강한 모델을 만들기 위해 반복한다.
학습 및 추론을 안내하기 위해 시스템 프롬프트로 증강 데이터와 시드 데이터를 태깅한다.
7B, 33B, 65B LLaMA 모델을 실험하고 여러 증강 반복(self-curation의 두 차례 반복)을 통해 데이터 규모를 확장한다.
AlpacaEval(GPT-4 판단)과 인간 선호도 평가, 제로샷 NLP 벤치마크를 통해 평가한다.

실험 결과

연구 질문

RQ1시드 지시 수행 모델이 외부 감독 없이도 대규모 라벨링되지 않은 웹 코퍼스로부터 고품질의 지시 데이터를 부트스트래핑할 수 있는가?
RQ2self-curation이 증강 데이터의 품질을 충분히 향상시켜 반복적 재학습을 정당화하는가?
RQ3데이터의 품질과 양이 self-aligned 모델의 지시 수행 성능에 어떤 영향을 미치는가?
RQ4데이터 태깅과 시스템 프롬프트가 학습 및 추론에 미치는 영향은 무엇인가?
RQ5모델 규모에 따라 이 접근법이 확장되고 비증류 기준선과 표준 벤치마크에서 어떻게 비교되는가?

주요 결과

self-augmentation과 self-curation 파이프라인(두 차례의 반복)은 Alpaca 벤치마크에서 비증류 LLaMA 기반 모델보다 우수한 성능을 보이는 모델(Humpback)을 산출한다.
고품질로 증강된 데이터로의 학습은 모든 증강 데이터나 시드 데이터만 사용할 때보다 지시 수행 성능을 크게 향상시킨다.
데이터 품질에 대한 강조는 단순한 데이터 양의 증가보다 더 나은 이점을 제공하며, 피상적 정렬 가설과는 대조적이다.
적절한 시스템 프롬프트를 동반한 시드 데이터와 자기 증강 데이터의 공동 학습은 성능과 안전성 고려를 향상시킨다.
고품질로 증강된 데이터를 사용한 더 큰 모델(예: 65B)로의 확장은 작은 모델보다 추가적인 개선을 가져온다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.