Skip to main content
QUICK REVIEW

[논문 리뷰] Reward Modeling for Mitigating Toxicity in Transformer-based Language Models

Farshid Faal, Ketra Schmitt|arXiv (Cornell University)|2022. 02. 19.
Topic Modeling참고 문헌 43인용 수 28
한 줄 요약

이 논문은 트랜스포머 기반 언어 모델에서 독성 요소를 감소시키면서도 소수자 사회적 신분에 대한 부작위적 편향을 최소화하기 위해 강화학습 기반의 방법인 Reinforce-Detoxify를 제안한다. 다중작업 학습(MTL) 기반의 보상 모델을 사용하여, Kullback-Leibler(KL) 발산 페널티를 적용한 근접 정책 최적화(PPO)를 통해 모델을 피지컬 튜닝함으로써, 어휘의 자연스러움이나 신분 관련 콘텐츠의 커버리지 손실 없이 독성 감소에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Transformer-based language models are able to generate fluent text and be efficiently adapted across various natural language generation tasks. However, language models that are pretrained on large unlabeled web text corpora have been shown to suffer from degenerating toxic content and social bias behaviors, consequently hindering their safe deployment. Various detoxification methods were proposed to mitigate the language model's toxicity; however, these methods struggled to detoxify language models when conditioned on prompts that contain specific social identities related to gender, race, or religion. In this study, we propose Reinforce-Detoxify; A reinforcement learning-based method for mitigating toxicity in language models. We address the challenge of safety in language models and propose a new reward model that is able to detect toxic content and mitigate unintended bias towards social identities in toxicity prediction. The experiments demonstrate that the Reinforce-Detoxify method for language model detoxification outperforms existing detoxification approaches in automatic evaluation metrics, indicating the ability of our approach in language model detoxification and less prone to unintended bias toward social identities in generated content.

연구 동기 및 목표

  • 흑인, 아시아계, 무슬림 공동체와 같은 소수자 사회적 신분에 대해 과도하게 언어를 억압하는 기존의 독성 제거 방법에서 발생하는 부작위적 편향을 해결하기 위해.
  • 독성 탐지 시 인종, 성별, 종교적 편향을 줄이기 위해 독성 예측에서의 편향을 최소화하는 보상 모델을 개발하기 위해.
  • 어휘의 자연스러움이나 신분 관련 언어의 커버리지가 떨어지지 않도록 언어 모델 생성의 안전성을 향상시키기 위해.
  • 편향 인식 보상 모델을 사용한 강화학습 피지컬 튜닝이 기존 방법보다 더 나은 독성 감소 성능을 보이는지 증명하기 위해.
  • BOLD 및 RTP와 같은 벤치마크 데이터셋을 사용해 다양한 사회적 신분에 대해 메서드의 강건성을 평가하기 위해.

제안 방법

  • 사전 학습된 언어 모델의 피지컬 튜닝을 위해 근접 정책 최적화(PPO)를 사용하는 강화학습 방법을 적용한다.
  • Jigsaw의 의도치 않은 편향을 포함한 독성 데이터셋에서 다중작업 학습(MTL) 보상 모델을 학습하여 독성 탐지와 사회적 신분에 대한 편향 감소를 동시에 수행한다.
  • 독성 탐지의 공정성을 향상시키기 위해 인종, 성별, 종교 등 여러 보조 작업을 함께 학습시킨다.
  • 원래 언어 모델과의 편차를 Kullback-Leibler(KL) 발산 정규화를 통해 페널티를 주어 정책을 최적화한다.
  • 실제 독성 프롬프트(RTP) 데이터셋의 프롬프트를 기반으로 피지컬 튜닝을 수행하고, BOLD 데이터셋을 사용해 신분별 편향을 평가한다.
  • Jigsaw 데이터셋의 인간 주석 데이터를 활용해 MTL 보상 모델을 학습시켜 공정성과 독성 탐지 능력을 향상시킨다.

실험 결과

연구 질문

  • RQ1단일 작업 분류기와 비교해 다중작업 학습 기반의 보상 모델이 독성 탐지에서 의도하지 않은 편향을 줄이는가?
  • RQ2이 보상 모델을 사용한 강화학습 피지컬 튜닝이 언어 모델 생성의 독성을 감소시키면서도 어휘의 자연스러움을 해치지 않는가?
  • RQ3흑인, 아시아계, 무슬림 개인과 같은 소수자 집단의 신분을 프롬프트로 사용했을 때 이 메서드는 어떻게 성능을 내는가?
  • RQ4KL 페널티를 제거하면 얼마나 어휘의 자연스러움이 떨어지는가?
  • RQ5이 방법은 소수자 공동체의 방언과 언어적 표현의 커버리지를 유지하는가?

주요 결과

  • Reinforce-Detoxify 모델은 'Female' 신분에 대해 BOLD 데이터셋에서 독성 점수 77.69를 기록했으며, DAPT 기준선(71.18)과 원본 GPT-2(80.40)를 모두 능가했다.
  • 'African Americans'에 대해서는 독성 점수 89.04를 기록했으며, DAPT 기준선(83.44)을 뛰어넘고 공정성 향상을 보였다.
  • 신분에 따라 'Religion'에 대해 낮은 퍼플렉서티(71.18)를 유지했지만, 이는 95.06으로 증가하여 이 신분 집단에 대해 어휘의 자연스러움에 상당한 트레이드오프가 있음을 시사한다.
  • 제거 실험 결과, 다중작업 MTL 분류기는 F1 점수 0.8942를 기록했고, 단일 작업 모델(0.7664)보다 뛰어난 성능을 보였다.
  • KL 페널티를 제거하면 심각한 어휘 자연스러움 저하가 발생했으며, 표 13에서 생성된 텍스트가 반복적이고 비논리적이게 되는 것으로 확인되었다.
  • 모든 신분 집단에서 독성 감소와 언어 다양성 유지 면에서 기존의 독성 제거 기준선을 모두 능가하는 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.