[논문 리뷰] Bias of AI-Generated Content: An Examination of News Produced by Large Language Models
이 논문은 일곱 개의 LLM으로 생성된 AI 뉴스의 성별 및 인종 편향을 NYT/Reuters 기사와 단어 수준, 문장 수준, 문서 수준에서 비교하여 평가하고, 편향된 프롬프트 하의 편향 및 RLHF 효과를 포함한다.
Large language models (LLMs) have the potential to transform our lives and work through the content they generate, known as AI-Generated Content (AIGC). To harness this transformation, we need to understand the limitations of LLMs. Here, we investigate the bias of AIGC produced by seven representative LLMs, including ChatGPT and LLaMA. We collect news articles from The New York Times and Reuters, both known for their dedication to provide unbiased news. We then apply each examined LLM to generate news content with headlines of these news articles as prompts, and evaluate the gender and racial biases of the AIGC produced by the LLM by comparing the AIGC and the original news articles. We further analyze the gender bias of each LLM under biased prompts by adding gender-biased messages to prompts constructed from these news headlines. Our study reveals that the AIGC produced by each examined LLM demonstrates substantial gender and racial biases. Moreover, the AIGC generated by each LLM exhibits notable discrimination against females and individuals of the Black race. Among the LLMs, the AIGC generated by ChatGPT demonstrates the lowest level of bias, and ChatGPT is the sole model capable of declining content generation when provided with biased prompts.
연구 동기 및 목표
- 참조 콘텐츠로 The New York Times와 Reuters의 고품질 기사들을 사용하여 편향 없는 콘텐츠를 대리로 생성한다.
- 헤드라인을 프롬프트로 사용하여 AIGC를 생성하고 단어 수준, 문장 수준, 문서 수준의 편향을 참조 콘텐츠와 비교한다.
- 편향된 프롬프트 하에서의 편향을 분석하고 프롬프트에 대한 모델의 저항력을 평가한다.
- 모델 크기와 RLHF가 성별 및 인종 집단 간 편향에 어떻게 영향을 미치는지 평가한다.
제안 방법
- 참조 콘텐츠로 2022년 12월부터 2023년 4월까지의 8,629건의 NYT 및 Reuters 뉴스 기사를 수집한다.
- 각 LLM에 기사 헤드라인을 프롬프트로 사용하여 뉴스 콘텐츠를 생성하도록 적용한다.
- AIGC와 참조 콘텐츠의 인구 집단별 단어 분포 간의 Wasserstein 거리로 단어 수준 편향을 측정한다.
- 성별/인종 관련 문장의 감정(감정 지표)과 독성성 등을 통해 문장 수준 편향을 평가한다.
- 성별/인종 관련 콘텐츠의 의미론 및 주제를 통해 문서 수준 편향을 평가한다.
- 성별 편향 메시지를 프롬프트에 삽입하여 편향된 프롬프트 하에서의 편향을 조사하고 모델의 편향 프롬프트에 대한 저항력을 평가한다.
실험 결과
연구 질문
- RQ1대표적 LLM의 AIGC가 성별 및 인종 관련 단어 사용에서 고품질 참조 뉴스와 어떻게 다를까?
- RQ2성별 및 인종과 관련된 편향에 대한 AIGC의 문장 수준 및 문서 수준 편향은 무엇이며, 감정 및 독성은 어떻게 나타나는가?
- RQ3AIGC는 편향된 프롬프트에 어떻게 반응하며, 모델은 편향을 저항하거나 확산시키는 정도가 어느 정도인가?
- RQ4모델 크기나 RLHF(ChatGPT)이 단어, 문장, 문서 수준의 편향을 완화하는가?
주요 결과
| LLM | White | Mean | 95% CI | N | p |
|---|---|---|---|---|---|
| Grover | 20.07% | [18.79%, 21.35%] | 5410 | <0.001 | |
| GPT-2 | 3.62% | [2.08%, 5.16%] | 4203 | <0.001 | |
| GPT-3-curie | 4.67% | [3.44%, 5.91%] | 3848 | <0.001 | |
| GPT-3-davinci | 2.47% | [1.31%, 3.63%] | 3854 | <0.001 | |
| ChatGPT | 2.35% | [1.21%, 3.49%] | 3738 | <0.001 | |
| Cohere | 2.60% | [1.51%, 3.70%] | 4793 | <0.001 | |
| LLaMA-7B | 2.65% | [1.1%, 4.20%] | 2764 | <0.001 |
- 모든 평가 대상 LLM은 NYT/Reuters 참조에 비해 단어 수준, 문장 수준, 문서 수준에서 상당한 성별 및 인종 편향의 AIGC를 생성한다.
- ChatGPT가 일반적으로 테스트된 모델 중 편향이 가장 낮은 편에 있으며, RLHF의 도움을 받는다.
- RLHF는 단어 및 문서 수준 편향 감소에 기여하고 편향 프롬프트 하에서 ChatGPT의 콘텐츠 거부를 가능하게 하지만, 여전히 필터링되지 않으면 편향된 출력이 높은 편향으로 나올 수 있다.
- 흑인에 대한 편견은 특히 단어 수준에서 모델 전반에 걸쳐 뚜렷하며, 참조 대비 AIGC에서 흑인 인종 단어 사용이 크게 감소한다.
- GPT 계열 모델에서 모델 크기가 커질수록 편향이 감소하는 경향이 있으며, RLHF가 더 큰 편향 감소를 보조한다.
- 문서 수준 분석에서 성별 편향 및 인종 편향이 모델 전반에 걸쳐 뚜렷하며, ChatGPT가 종종 최상위 성능을 보이나 편향 프롬프트에 대한 차단이 완전히 불가능하지는 않다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.