[논문 리뷰] Safe RLHF: Safe Reinforcement Learning from Human Feedback
요약: Safe RLHF는 인간 피드백에서 유용성과 무해성을 분리하고, 라그랑주 제약 RLHF 프레임워크를 사용하여 미세 조정 중 두 목표를 균형 있게 조정함으로써 안전성 및 성능을 향상시킵니다.
With the development of large language models (LLMs), striking a balance between the performance and safety of AI systems has never been more critical. However, the inherent tension between the objectives of helpfulness and harmlessness presents a significant challenge during LLM training. To address this issue, we propose Safe Reinforcement Learning from Human Feedback (Safe RLHF), a novel algorithm for human value alignment. Safe RLHF explicitly decouples human preferences regarding helpfulness and harmlessness, effectively avoiding the crowdworkers' confusion about the tension and allowing us to train separate reward and cost models. We formalize the safety concern of LLMs as an optimization task of maximizing the reward function while satisfying specified cost constraints. Leveraging the Lagrangian method to solve this constrained problem, Safe RLHF dynamically adjusts the balance between the two objectives during fine-tuning. Through a three-round fine-tuning using Safe RLHF, we demonstrate a superior ability to mitigate harmful responses while enhancing model performance compared to existing value-aligned algorithms. Experimentally, we fine-tuned the Alpaca-7B using Safe RLHF and aligned it with collected human preferences, significantly improving its helpfulness and harmlessness according to human evaluations.
연구 동기 및 목표
- 유용성과 무해성에 대한 인간의 선호를 분리하여 관측자 간의 혼동을 피한다.
- RLHF 내에서 안전성을 제약 최적화 문제로 형식화한다.
- 도움이 되는 측면과 무해성 측면에 대해 각각의 보상 모델과 비용 모델을 훈련한다.
- 정책 최적화 과정에서 라그랑주 승수를 사용하여 두 목표를 동적으로 균형한다.
- Alpaca-7B에 대해 세 번의 파인튜닝 반복에서 향상된 안전성 및 성능을 시연한다.
제안 방법
- 도움이 되는 측면과 무해성 측면에 대해 각각의 데이터셋을 산출하는 두 단계 주석 부호 체계를 도입한다.
- 도움이 되는 데이터에 대해 보상 모델을, 무해성 데이터에 대해 비용 모델을 Bradley-Terry 기반 손실로 학습한다.
- Safe RLHF를 J_R(theta)와 J_C(theta)와 이동하는 d-오프셋을 갖는 제약 최적화 문제로 공식화한다.
- 라그랑주 방법을 적용하여 min_theta max_lambda>=0 [-J_R(theta) + lambda*J_C(theta)]를 해결하고 lambda를 적응적으로 갱신한다.
- Alpaca-7B에 대해 맹점 테스트, 데이터 수집, 모델 학습 및 Safe RL 파인튜닝의 세 차례 순환을 사용한다.
- 향후 모델을 빠르게 평가하기 위한 통합된 모델 기반 평가자(보상 모델 및 비용 모델)를 제공한다.
실험 결과
연구 질문
- RQ1Safe RLHF가 LLM의 유용성과 무해성 모두를 동시에 향상시킬 수 있는가?
- RQ2 RLHF 중 무해성과 유용성의 명시적 분리가 가져오는 이점은 무엇인가?
- RQ3동적 라그랑주 균형이 안전성 및 유용성 간의 트레이드오프를 관리하는 정적 보상 형성에 비해 얼마나 효과적인가?
- RQ4비용 모델의 분류 기능이 다른 신호보다 더 나은 안전 조정에 기여하는가?
주요 결과
| 모델 | 지표 | Beaver-v1 | Beaver-v2 | Beaver-v3 | Unified |
|---|---|---|---|---|---|
| Reward Model | 순위 정확도 | 78.13% | 75.73% | 77.32% | 73.95% |
| Cost Model | 순위 정확도 | 74.47% | 76.07% | 74.17% | 70.44% |
| Safety Classification Accuracy | — | 95.62% | 84.54% | 85.88% | 85.83% |
- Safe RLHF의 세 차례 반복은 기저선 RLHF에 비해 유용성을 크게 높이고 유해한 응답을 감소시킨다.
- 분리된 주석은 상호 평가자의 일치도를 높이고 연구자와의 정렬을 개선하여 PPO 학습 결과를 향상시킨다.
- 동적 라그랑주 균형은 유용성과 무해성 간의 트레이드오프를 관리하는 데 있어 정적 보상 형성보다 우수하다.
- 안전 라벨링이 포함된 비용 모델은 안전 분류기 신호만 사용하는 것보다 무해성 향상에 더 기여한다.
- Beaver-v3(세 차례 반복 후 Beaver) 평가 프롬프트에서 유해 응답이 크게 감소했다(53.08%에서 2.45%로).
- GPT-4 및 인간 평가에서 반복마다 유용성과 무해성 모두에서 일관된 Elo 점수 향상을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.