[논문 리뷰] Training Socially Aligned Language Models on Simulated Social Interactions
본 논문은 Stable Alignment를 소개합니다. 이는 샌드박스 환경에서 오프라인으로 시뮬레이션된 사회적 상호작용으로 사회적 정렬을 학습하는 세 단계의 데이터 중심 프레임워크로, 보상 모델에 대한 의존을 줄이고 적대적 프롬프트에 대한 강건성을 향상시킵니다.
Social alignment in AI systems aims to ensure that these models behave according to established societal values. However, unlike humans, who derive consensus on value judgments through social interaction, current language models (LMs) are trained to rigidly replicate their training corpus in isolation, leading to subpar generalization in unfamiliar scenarios and vulnerability to adversarial attacks. This work presents a novel training paradigm that permits LMs to learn from simulated social interactions. In comparison to existing methodologies, our approach is considerably more scalable and efficient, demonstrating superior performance in alignment benchmarks and human evaluations. This paradigm shift in the training of LMs brings us a step closer to developing AI systems that can robustly and accurately reflect societal norms and values.
연구 동기 및 목표
- 언어 모델에서의 사회적 정렬을 동기 부여하고 정의하며, 고립 기반 훈련의 한계를 제시한다.
- 정렬을 위한 풍부한 상호작용 데이터를 수집하기 위한 오프라인 시뮬레이션 사회인 Sandbox를 제안한다.
- 세 단계(Imitation, Self-Critic, Realignment)와 대조적 선호 최적화(Contrastive Preference Optimization)를 포함한 Stable Alignment를 소개한다.
- Stable Alignment가 RLHF 기반 및 기타 기준선에 비해 정렬 벤치마크와 적대적 프롬프트에 대한 강건성을 향상시킴을 보인다.
제안 방법
- Back-Scatter 데이터 수집으로 100명의 LM 기반 에이전트 간의 사회적 상호작용을 시뮬레이션하는 Sandbox를 생성한다.
- 비교, 평가, 상세 피드백, 반복적 수정을 포함한 다면적 상호작용 데이터를 기록한다.
- 학습을 위한 169k개의 정렬 샘플(Imitation, Self-Critic, Realignment)을 구성한다.
- 배치에서 더 높은 평가를 받은 응답으로 최적화하기 위해 대조적 선호 최적화(CPO)를 사용하고, 2단계에서 감독 미세조정(SFT)과 결합한다.
- 세 단계로 훈련한다: CPO를 활용한 Imitation, SFT를 활용한 Self-Critic, CPO를 활용한 Realignment.
- 온라인 보상 모델(RLHF) 필요성을 제거하는 오프라인 데이터 중심 학습을 제공한다.
실험 결과
연구 질문
- RQ1시뮬레이션된 사회적 상호작용이 인간 가치에 맞추어 LM을 정렬하기 위한 확장 가능한 감독 신호를 제공할 수 있는가?
- RQ2세 단계의 데이터 중심 학습 체계가 보상모델 기반 방법에 비해 적대적 프롬프트에 대한 강건성을 향상시킬 수 있는가?
- RQ3다양한 학습 단계가 벤치마크 전반의 정렬 및 안정성에 어떻게 기여하는가?
- RQ4시뮬레이션된 사회에서 학습된 정렬 데이터가 다양한 정렬 작업과 프롬프트에 전이 가능한가?
주요 결과
- Stable Alignment는 적대적 HH-A 시나리오를 포함한 여섯 가지 정렬 벤치마크에서 기준선보다 우수하다.
- 아블레이션에서 Realignment를 제거하면 적대적 강건성이 크게 감소하고, Self-Critic를 포함하면 Imitation 단독보다 성능이 향상된다.
- 대조적 선호 최적화(CPO)는 온라인 보상 모델 없이도 경쟁력 있거나 우수한 결과를 제공한다.
- 사람 평가에서 Stable Alignment의 출력이 여러 기준선보다 선호되며, 많은 경우 ChatGPT를 상회한다.
- 세 단계의 전체 파이프라인으로 학습하면 단일 단계 모방에 의존하는 기준선에 비해 더 적은 상호작용으로 더 높은 정렬을 달성한다.
- 해당 접근은 도메인 내외 작업에서도 경쟁력을 유지하여 시뮬레이션된 상호작용 감독의 강한 일반화 특성을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.