[論文レビュー] Bias of AI-Generated Content: An Examination of News Produced by Large Language Models
要約: 本論文は、7つの大規模言語モデル(LLM)によるAI生成ニュースにおける性別と人種の偏見を評価し、AIGCとNYT/Reutersの記事を語彙・文・文書レベルで比較します。偏ったプロンプトとRLHFの効果を含む分析も行います。
Large language models (LLMs) have the potential to transform our lives and work through the content they generate, known as AI-Generated Content (AIGC). To harness this transformation, we need to understand the limitations of LLMs. Here, we investigate the bias of AIGC produced by seven representative LLMs, including ChatGPT and LLaMA. We collect news articles from The New York Times and Reuters, both known for their dedication to provide unbiased news. We then apply each examined LLM to generate news content with headlines of these news articles as prompts, and evaluate the gender and racial biases of the AIGC produced by the LLM by comparing the AIGC and the original news articles. We further analyze the gender bias of each LLM under biased prompts by adding gender-biased messages to prompts constructed from these news headlines. Our study reveals that the AIGC produced by each examined LLM demonstrates substantial gender and racial biases. Moreover, the AIGC generated by each LLM exhibits notable discrimination against females and individuals of the Black race. Among the LLMs, the AIGC generated by ChatGPT demonstrates the lowest level of bias, and ChatGPT is the sole model capable of declining content generation when provided with biased prompts.
研究の動機と目的
- 高品質なニュース記事(The New York TimesおよびReuters)を参照コンテンツとして、 proxy 的に unbiased なコンテンツを提供すること。
- 見出しをプロンプトとしてAIGCを生成し、語彙レベル・文レベル・文書レベルの偏見を参照コンテンツと比較すること。
- 偏ったプロンプト下での偏りを分析し、モデルが偏ったプロンプトに対してどの程度耐性を示すかを評価すること。
- モデルサイズとRLHFが性別・人種グループ間の偏見にどのように影響するかを評価すること。
提案手法
- 2022年12月から2023年4月までのNYTおよびReutersのニュース記事8,629件を参照コンテンツとして収集する。
- 各LLMに対して記事の見出しをプロンプトとしてニュースコンテンツを生成させる。
- AIGCと参照コンテンツの人口集団語彙分布のワッサースタイン距離を用いて語彙レベルの偏見を測定する。
- 性別・人種に関連する文の感情・有害性を通じて文レベルの偏見を評価する。
- 性別・人種に関連する内容の意味論・トピックを通じて文書レベルの偏見を評価する。
- 性別偏見・人種偏見を含むプロンプトを挿入して biased prompts 下での偏見を検証し、モデルの耐性を評価する。
実験結果
リサーチクエスチョン
- RQ1AIGCは代表的なLLMの生成物として、性別・人種に関連する語彙の使用において高品質な参照ニュースとどのように異なるか?
- RQ2性別と人種に関する感情・有害性を含む文・文書レベルの偏見はAIGCでどう現れるか?
- RQ3 biased prompts に対するAIGCの反応はどうか、モデルはそのような偏見を抑制するか、または拡散するか?
- RQ4モデルサイズやRLHF(ChatGPTとしての例)によって語彙・文・文書レベルの偏見は緩和されるか?
主な発見
| LLM | White | Mean | 95% CI | N | p |
|---|---|---|---|---|---|
| Grover | 20.07% | [18.79%, 21.35%] | 5410 | <0.001 | |
| GPT-2 | 3.62% | [2.08%, 5.16%] | 4203 | <0.001 | |
| GPT-3-curie | 4.67% | [3.44%, 5.91%] | 3848 | <0.001 | |
| GPT-3-davinci | 2.47% | [1.31%, 3.63%] | 3854 | <0.001 | |
| ChatGPT | 2.35% | [1.21%, 3.49%] | 3738 | <0.001 | |
| Cohere | 2.60% | [1.51%, 3.70%] | 4793 | <0.001 | |
| LLaMA-7B | 2.65% | [1.1%, 4.20%] | 2764 | <0.001 |
- 評価対象のすべてのLLMは、語彙・文・文書レベルでNYT/Reutersの参照と比較して、AIGCに顕著な性別・人種の偏見を示す。
- ChatGPTは通常、他のモデルより偏見が低い傾向があり、 RLHF により支援されている。
- RLHFは語彙レベルおよび文書レベルの偏見の低減に寄与し、 biased prompts 下でのChatGPTのコンテンツ拒否を可能にする一方で、フィルタリングされない場合には依然として強い偏見の出力を生む可能性がある。
- Blackに対する偏見は語彙レベルで特に顕著であり、参照と比較してAIGCでBlack-人種語の使用が大幅に減少する。
- モデルサイズが大きくなるとGPTファミリーの偏見は緩和される傾向があり、RLHFは指標全体で偏見の低減をさらに助ける。
- 文書レベルの分析では性別バイアスと人種バイアスが顕著で、ChatGPTが最も良い結果を示すことが多いが、 biased prompts に対する障壁を完全には超えられない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。