Skip to main content
QUICK REVIEW

[논문 리뷰] Quark: Controllable Text Generation with Reinforced Unlearning

Ximing Lu, Sean Welleck|arXiv (Cornell University)|2022. 05. 26.
Topic Modeling인용 수 45
한 줄 요약

Quark는 Quantized Reward Konditioning이라는 온라인-오프라인 프레임워크를 도입하여 보상 토큰에 조건을 두고 KL-발산 패널티를 사용함으로써 바람직하지 않은 언어 모델의 동작을 제거 학습하는 방법을 제시하며, toxicity, sentiment, 및 repetition control에서 PPO 기준선을 능가한다.

ABSTRACT

Large-scale language models often learn behaviors that are misaligned with user expectations. Generated text may contain offensive or toxic language, contain significant repetition, or be of a different sentiment than desired by the user. We consider the task of unlearning these misalignments by fine-tuning the language model on signals of what not to do. We introduce Quantized Reward Konditioning (Quark), an algorithm for optimizing a reward function that quantifies an (un)wanted property, while not straying too far from the original model. Quark alternates between (i) collecting samples with the current language model, (ii) sorting them into quantiles based on reward, with each quantile identified by a reward token prepended to the language model's input, and (iii) using a standard language modeling loss on samples from each quantile conditioned on its reward token, while remaining nearby the original language model via a KL-divergence penalty. By conditioning on a high-reward token at generation time, the model generates text that exhibits less of the unwanted property. For unlearning toxicity, negative sentiment, and repetition, our experiments show that Quark outperforms both strong baselines and state-of-the-art reinforcement learning methods like PPO (Schulman et al. 2017), while relying only on standard language modeling primitives.

연구 동기 및 목표

  • 대형 언어 모델에서의 오해.align된 행동(독성, 반복, 원치 않는 감정) 문제를 동기 부여하고 해결한다.
  • 코어 생성 능력을 보존하면서 원하지 않는 특성에서 벗어나도록 출력 방향을 조정하는 사후적 비학습 방법을 개발한다.
  • 전체 RL 장치 없이 표준 LM 기본 구성요소를 사용하는 경량의 미분 가능 학습 루프를 만든다.
  • 독성, 감정 제어, 반복 과제에서 견고함을 입증하고 강력한 베이스라인과 비교한다.

제안 방법

  • Quantized Reward Konditioning (Quark)이라는 온라인, 오프폴리시 알고리즘을 (언)학습하기 위한 세 가지 단계인 탐색, 양자화, 학습으로 제안한다.
  • 현재 LM에서 샘플을 수집하고 입력에 보상 토큰을 앞에 붙여 각 샘플을 보상 분위수에 할당한다.
  • KL-발산 패널티를 포함한 표준 조건부 LM 손실로 각 분위수에서 샘플에 대해 학습하여 원래 모델에 근접하게 유지한다.
  • 탐색 중과 테스트 시점에 가장 높은 보상 토큰으로 조건화하여 생성을 바람직하지 않은 특성 감소 쪽으로 이끈다.
  • 학습된 제어 코드(임베딩)로 보상을 표현하여 분위수에 연동하고, 모델에 대한 반복적 지침을 가능하게 한다.
  • 추가적인 보상-모델 부담 없이 표준 LM 학습 목표에 의존하면서 PPO, Decision Transformer, 제어 코드와의 관계를 다룬다.

실험 결과

연구 질문

  • RQ1Quark가 독성, 반복적 특성 및 원치 않는 감정 속성을 효과적으로 비학습시키면서 기본 언어 모델링 능력을 보존할 수 있는가?
  • RQ2보상 양자화와 KL 정규화가 PPO 및 다른 디톡스 방법과 비교하여 안정성과 성능에 어떤 영향을 미치는가?
  • RQ3양자화 분위수의 수, 탐색 빈도, 정확한 KL 구현이 비학습 효과에 어떤 영향을 미치는가?
  • RQ4탐색 시점과 추론 시점 모두에서 고보상 토큰으로 조건화하는 것이 다양한 도메인에서 바람직하지 않은 출력을 신뢰성 있게 감소시키는가?
  • RQ5LM 시스템에서 보상 기반 비학습의 실질적 윤리적 고려사항과 잠재적 듀얼 사용 위험은 무엇인가?

주요 결과

  • Quark는 RealToxicityPrompts와 WritingPrompts에서 바닥선 및 PPO에 비해 독성을 상당히 감소시키며, 유창성과 다양성을 유지한다.
  • Quark는 감정을 더 효과적으로 조종하고 강력한 베이스라인에 비해 토픽 일관성을 더 높게 달성하면서 생성 품질을 보존한다.
  • 정확한 토큰 수준의 KL 항이 근사치보다 이점을 제공하고, 더 많은 분위수가 보상 최대화를 향상시키며, 탐색 전략이 결과에 결정적으로 영향을 미친다는 점을 보여주는 연구 제거 분석이 있다.
  • Quark를 비가능성(unlikelihood) 목표와 결합하면 반복을 더 줄이고 유창성과 일관성에 대한 인간 평가를 향상시킨다.
  • 인간 평가에 따르면 Quark의 출력은 이전 방법들보다 지속적으로 독성이 낮고 바람직한 감정 및 주제와 더 잘 일치한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.