[논문 리뷰] The Wisdom of Hindsight Makes Language Models Better Instruction Followers
HIR은 지시 정렬을 목표 조건부 강화 학습 문제로 재구성하고, hindsight 지시 재라벨링을 사용해 보상 없는 감독형 2단계 파이프라인으로 언어 모델을 학습시켜 BigBench 과제에서 PPO 및 FARL 기초선보다 성능이 우수하다.
Reinforcement learning has seen wide success in finetuning large language models to better align with instructions via human feedback. The so-called algorithm, Reinforcement Learning with Human Feedback (RLHF) demonstrates impressive performance on the GPT series models. However, the underlying Reinforcement Learning (RL) algorithm is complex and requires an additional training pipeline for reward and value networks. In this paper, we consider an alternative approach: converting feedback to instruction by relabeling the original one and training the model for better alignment in a supervised manner. Such an algorithm doesn't require any additional parameters except for the original language model and maximally reuses the pretraining pipeline. To achieve this, we formulate instruction alignment problem for language models as a goal-reaching problem in decision making. We propose Hindsight Instruction Relabeling (HIR), a novel algorithm for aligning language models with instructions. The resulting two-stage algorithm shed light to a family of reward-free approaches that utilize the hindsightly relabeled instructions based on feedback. We evaluate the performance of HIR extensively on 12 challenging BigBench reasoning tasks and show that HIR outperforms the baseline algorithms and is comparable to or even surpasses supervised finetuning.
연구 동기 및 목표
- 언어 모델이 RL 훈련의 복잡성을 추가하지 않고도 인간과 같은 지시에 보다 잘 맞추도록 정렬을 촉진한다.
- 지시 이행과 목표 조건부 강화 학습을 연결해 데이터 효율적 학습을 가능하게 한다.
- 재라벨링을 통해 성공적이었던 출력과 실패했던 출력을 모두 활용해 정렬을 최대화한다.
- 사전 학습 파이프라인을 재사용하는 간단하고 매개변수 가벼운 미세조정 방법을 개발한다.
제안 방법
- 지시 언어 정렬을 지시 프롬프트로 정의된 목표 공간을 갖는 목표 달성 RL 문제로 모델링한다.
- 두 단계의 hindsight 지시 재라벨링(HIR) 도입: 온라인 데이터 수집 후 오프라인 재라벨링과 감독 학습.
- 재라벨링을 사용해 모델의 출력과 일치하는 새로운 지시 프롬프트를 생성하고 실패로부터도 학습할 수 있게 한다.
- 오프라인 재라벨링에서 스크립트화된 피드백 함수를 적용해 새로운 지시 타깃을 만들고 표준 seq2seq 손실로 학습한다.
- 다른 지시들 간의 출력 차이를 구별하기 위한 대조적 지시 라벨링 손실과 탐색을 촉진하는 엔트로피 규제를 도입한다.
- 최종 학습 목적 함수는 L_final = L_supervise + alpha * L_contrastive + beta * L_entropy이다.
실험 결과
연구 질문
- RQ1 hindsight 재라벨링이 명시적 보상 모델 없이 피드백을 지시 기반 감독으로 바꿀 수 있는가?
- RQ2온라인-오프라인 2단계 학습 regime이 PPO 또는 FARL 기초선보다 지시 정렬을 더 효과적으로 개선하는가?
- RQ3기본 모델 크기(base)와 대형 FLAN-T5의 다양한 태스크 유형에서 접근법이 강건한가?
- RQ4엔트로피 및 대조적 손실이 성능과 데이터 효율성에 어떤 영향을 미치는가?
주요 결과
- HIR은 FLAN-T5-large를 사용할 때 12개 BigBench 추론 태스크에서 PPO 및 FARL 기초선보다 우수하게 작동한다.
- Tracking Shuffled Objects (5) 및 (7)와 같은 어려운 태스크에서 HIR은 최상의 기초선보다 상당한 차이로 우수성을 보인다.
- HIR은 더 작은 기본 모델(FLAN-T5-base)에서도 다수의 태스크에서 강력한 이득을 제공한다.
- 소거된 엔트로피 정규화, 레이블 스무딩, 하위 출력 샘플링이 각각 성능 향상에 기여하는 것으로 나타났다.
- 모델 크기에 관계없이 HIR은 상당한 개선을 달성해 기본 모델 용량에 대한 강건성을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.