[논문 리뷰] Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision
Self-Align은 원칙 주도 자기 정렬을 사용하여 처음부터 언어 모델을 학습시키는 인간 감독을 감소시킨다; Dromedary (LLaMA-65B)는 300줄 미만의 주석으로 강력한 결과를 달성한다.
Recent AI-assistant agents, such as ChatGPT, predominantly rely on supervised fine-tuning (SFT) with human annotations and reinforcement learning from human feedback (RLHF) to align the output of large language models (LLMs) with human intentions, ensuring they are helpful, ethical, and reliable. However, this dependence can significantly constrain the true potential of AI-assistant agents due to the high cost of obtaining human supervision and the related issues on quality, reliability, diversity, self-consistency, and undesirable biases. To address these challenges, we propose a novel approach called SELF-ALIGN, which combines principle-driven reasoning and the generative power of LLMs for the self-alignment of AI agents with minimal human supervision. Our approach encompasses four stages: first, we use an LLM to generate synthetic prompts, and a topic-guided method to augment the prompt diversity; second, we use a small set of human-written principles for AI models to follow, and guide the LLM through in-context learning from demonstrations (of principles application) to produce helpful, ethical, and reliable responses to user's queries; third, we fine-tune the original LLM with the high-quality self-aligned responses so that the resulting model can generate desirable responses for each query directly without the principle set and the demonstrations anymore; and finally, we offer a refinement step to address the issues of overly-brief or indirect responses. Applying SELF-ALIGN to the LLaMA-65b base language model, we develop an AI assistant named Dromedary. With fewer than 300 lines of human annotations (including < 200 seed prompts, 16 generic principles, and 5 exemplars for in-context learning). Dromedary significantly surpasses the performance of several state-of-the-art AI systems, including Text-Davinci-003 and Alpaca, on benchmark datasets with various settings.
연구 동기 및 목표
- LLM 정렬을 위한 비용이 많이 드는 인간 감독에 대한 의존도 감소.
- 실용적인 네 단계 파이프라인 개발(Self-Instruct, Principle-Driven Self-Alignment, Principle Engraving, Verbose Cloning).
- 기저 모델(LLaMA-65B)을 처음부터 정렬하여 여러 베이스라인보다 뛰어나면서도 최소한의 인간 입력을 사용함을 입증.
- 감독 효율적 정렬 연구를 발전시키기 위해 오픈 소스 코드, 가중치, 합성 데이터를 제공.
제안 방법
- 주제 가이드된 리드팀(Self-Instruct)을 통해 다양한 합성 지시문과 프롬프트 생성.
- 16개의 인간이 작성한 원칙과 5개의 예시를 이용한 원칙 주도 자기 정렬(맥락 학습 시연용).
- Principle Engraving: 자기 정렬 출력에 대해 기본 모델을 미세 조정하되 시연 및 원칙을 제거/축소.
- Verbose Cloning: 더 포괄적인 응답을 생성하기 위해 상세한 맥락 증류 모델을 훈련.
- 맥락 내 시연은 응답 생성 중 원칙 준수를 모델에 유도한다.
- 미세 조정은 원칙에 맞는 행동을 직접 모델 매개변수에 내재시키기 위해 수행된다.
실험 결과
연구 질문
- RQ1원칙 주도 프레임워크를 사용하여 최소한의 인간 감독으로 처음부터 언어 모델을 정렬할 수 있는가?
- RQ2일부 원칙과 예시의 포함이 벤치마크 전반의 정렬 성능에 어떤 영향을 미치는가?
- RQ3Verbose Cloning 단계가 생성 품질 및 다양한 평가 지표에 미치는 영향은 무엇인가?
- RQ4감독 효율성 및 안전성/품질 트레이드오프 측면에서 Self-Align은 RLHF/CAI 기반 접근법과 어떻게 비교되는가?
주요 결과
- Dromedary-65B(최종버전)는 다양한 설정에서 Text-Davinci-003 및 Alpaca와 같은 여러 베이스라인을 벤치마크 데이터셋에서 능가한다.
- TruthfulQA MC1 정확도가 수정된 순위 매김 방식으로 69에 도달하여 MC 작업에서 GPT-4 및 기타 오픈소스 모델보다 우수하다.
- BIG-bench HHH Eval에서 Dromedary는 오픈 소스 베이스라인에 비해 유해성 감소 및 전반적 성능이 크게 향상되었고 ChatGPT/Vicuna 디스틸레이트에 약간 못 미친다.
- Verbose Cloning은 특정 벤치마크(예: Vicuna 벤치마크 문제)에서 생성 품질을 향상시키지만, 과도한 산출로 인해 일부 객관식 순위에서 성능이 감소할 수 있다.
- 이 접근법은 300줄 미만의 인간 주석으로도 강력한 결과를 달성하며 감독 효율성을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.