[논문 리뷰] Second Thoughts are Best: Learning to Re-Align With Human Values from Text Edits
본 논문은 소스 텍스트에서 대상 텍스트로의 편집 체인을 학습하고 RL 정제 단계를 통해 인간 가치에 언어 모델의 재조정을 하는 학습 패러다임인 Second Thoughts를 소개합니다. 이는 독성 맥락에서도 가치 정렬성과 해석 가능성을 향상시킵니다.
We present Second Thought, a new learning paradigm that enables language models (LMs) to re-align with human values. By modeling the chain-of-edits between value-unaligned and value-aligned text, with LM fine-tuning and additional refinement through reinforcement learning, Second Thought not only achieves superior performance in three value alignment benchmark datasets but also shows strong human-value transfer learning ability in few-shot scenarios. The generated editing steps also offer better interpretability and ease for interactive error correction. Extensive human evaluations further confirm its effectiveness.
연구 동기 및 목표
- 개방형 맥락에서 미세조정된 LM이 인간 가치와의 불일치를 보일 수 있는 상황을 동기부여하고 해결합니다.
- 인간 편집을 모델링하고 가치에 정렬된 텍스트를 회복하기 위한 체인-오브-에디트(삽입/삭제/대체) 패러다 presum
- 표준 학습을 augmented edits로 보강하고 일관성과 정렬을 높이기 위해 강화 학습을 적용합니다.
- 광범위한 인간 평가를 통해 편집 체인의 전이 학습 능력과 해석 가능성을 입증합니다.
제안 방법
- 출처 텍스트와 대상 텍스트로부터 체인-오브-에디트를 추론하기 위해 사용자 지정 비용이 가능한 동적 계획 편집 거리 접근법을 사용합니다.
- Augmented Edits Modeling(AEM)을 통해 편집 체인을 자연어와 유사한 학습 입력으로 변환하여 학습을 보강합니다.
- 참조 샘플이 불일치를 밝히도록 부정적 시연을 활용하여 강화 학습을 통해 일관성을 개선합니다.
- 두 가지 RL 정제 전략을 적용합니다: Adversarial Imitation Learning(AIL)과 Value Modeling(VM)을 사용해 출력물이 맥락-일관적이고 가치 정렬된 텍스트로 향하도록 추진합니다.
- 다양한 가치 정렬 벤치마크에서 평가하고 대형 언어 모델 API를 포함한 강력한 기준선과 비교합니다.
실험 결과
연구 질문
- RQ1오염된 텍스트에서 정렬된 텍스트로의 편집 체인을 학습함으로써 모델이 인간 가치에 재조정될 수 있을까?
- RQ2편집 체인(AEM)을 사용한 학습 보강과 RL 정제를 통해 가치 정렬성과 일관성을 기준선보다 향상시킬 수 있을까?
- RQ3제한된 라벨 데이터로도 Second Thoughts가 보지 못한 가치 정렬 작업으로의 전이가 잘 이루어지는가?
주요 결과
- AEM + VM을 적용한 Second Thoughts가 Moral Stories, MIC, ETHICS-Deontology 벤치마크에서 최상의 정렬성과 일관성을 달성합니다.
- RL 정제(VM 또는 AIL)는 비-RL 기준선보다 현저히 우수하며 여러 설정에서 InstructGPT를 능가합니다.
- 편집 체인은 전이 학습을 개선하고 보지 못한 가치 정렬 과제에서 소수 샷 이득이 두드러집니다.
- 인간 평가에서 다수의 기준선 및 대형 API 서비스에 비해 정렬성과 일관성에서 실질적인 개선이 확인됩니다.
- 이 접근법은 각 정렬 결정에 대한 명시적 편집 체인을 통해 해석 가능성을 향상시킵니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.