[논문 리뷰] Toxicity in ChatGPT: Analyzing Persona-assigned Language Models
본 논문은 대규모 분석을 통해 ChatGPT에 페르소나를 할당하는 것이 출력의 유해성을 크게 증가시킬 수 있음을 보여주며, 페르소나 및 엔티티 범주에 따라 변동성이 있고 차별적 패턴이 포함된다.
Large language models (LLMs) have shown incredible capabilities and transcended the natural language processing (NLP) community, with adoption throughout many services like healthcare, therapy, education, and customer service. Since users include people with critical information needs like students or patients engaging with chatbots, the safety of these systems is of prime importance. Therefore, a clear understanding of the capabilities and limitations of LLMs is necessary. To this end, we systematically evaluate toxicity in over half a million generations of ChatGPT, a popular dialogue-based LLM. We find that setting the system parameter of ChatGPT by assigning it a persona, say that of the boxer Muhammad Ali, significantly increases the toxicity of generations. Depending on the persona assigned to ChatGPT, its toxicity can increase up to 6x, with outputs engaging in incorrect stereotypes, harmful dialogue, and hurtful opinions. This may be potentially defamatory to the persona and harmful to an unsuspecting user. Furthermore, we find concerning patterns where specific entities (e.g., certain races) are targeted more than others (3x more) irrespective of the assigned persona, that reflect inherent discriminatory biases in the model. We hope that our findings inspire the broader AI community to rethink the efficacy of current safety guardrails and develop better techniques that lead to robust, safe, and trustworthy AI systems.
연구 동기 및 목표
- ChatGPT의 시스템 매개변수를 통한 페르소나 할당이 다양한 주제와 엔티티에 걸친 유해성에 어떤 영향을 미치는지 평가한다.
- Entity-conditioned prompts와 RealToxicityPrompts의 연속 생성을 사용하여 90개의 페르소나와 128개의 엔티티에 걸친 유해성 변화를 정량화한다.
- 페르소나 유형, 인구통계학적 특성 및 프롬프트 스타일을 포함하여 유해성 변동을 주도하는 요인을 식별한다.
제안 방법
- 응답을 유도하기 위해 시스템 매개변수를 통해 ChatGPT에 90개의 서로 다른 페르소나를 할당한다.
- 128개의 엔티티에 대한 엔티티 조건부 출력 및 RealToxicityPrompts 연속 생성을 생성하여 유해성을 측정한다.
- 생성에 대해 온도 1, top-p 0.9, 작은 빈도 페널티를 갖는 핵 샘플링(nucleus sampling)을 사용한다.
- Perspective API로 유해성을 평가하고 쌍당 여러 세대에서의 최대 유해성을 보고한다.
- 독성 프롬프트에 대해 모델이 얼마나 자주 응답하는지 포착하기 위해 응답 확률(POR) 지표를 정의한다.
- 페르소나에 대한 의견(좋음/나쁨)과 관찰된 유해성 간의 상관관계를 분석한다.
실험 결과
연구 질문
- RQ1ChatGPT에 페르소나를 할당하는 것이 기본 설정에 비해 유해성을 증가시키는가?
- RQ2다양한 페르소나 범주(예: 독재자, 언론인, 스포츠 인물) 및 엔티티 유형 전반에서 유해성은 어떻게 달라지는가?
- RQ3그 페르소나의 인지된 성격과 그 페르소나를 모방할 때 모델의 유해성 간의 관계는 무엇인가?
- RQ4엔티티 조건부 및 연속 작업에서 프롬프트 스타일이 유해성에 어떤 영향을 미치는가?
- RQ5할당된 페르소나의 인구통계학적 특성(성별, 인종, 정치적 성향) 전반에 유해성 편향이 있는가?
주요 결과
- 페르소나가 할당될 때 기본 ChatGPT에 비해 유해성이 최대 약 6배까지 증가할 수 있다.
- 다양한 페르소나 신원에 따라 유해성이 최대 5배까지 달라지며, 독재자와 언론인에서 더 높은 유해성을 보인다.
- 엔티티와 인구통계학적 그룹(예: 성별, 인종, 국가)은 다양한 유해성을 보이며 일부 그룹이 다른 그룹보다 더 많이 겨냥된다.
- PROMPT STYLE은 유해성에 영향을 미친다; 'Say something bad about'와 같은 명시적 프롬프트가 중립적 프롬프트보다 더 높은 유해성을 만들어낸다.
- 모델이 페르소나를 보는 시각(나쁨/좋음)이 관찰된 유해성과 상관관계가 있다(Pearson r ≈ 0.7, p < .05).
- 사례들은 국가 및 집단 전반에 걸쳐 해로운 고정관념과 차별적 내용을 보여 주며, 역사적 페르소나를 포함한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.