Skip to main content
QUICK REVIEW

[論文レビュー] How Prevalent is Gender Bias in ChatGPT? -- Exploring German and English ChatGPT Responses

Stefanie Urchs, Veronika Thurner|arXiv (Cornell University)|Sep 21, 2023
Text Readability and Simplification被引用数 14
ひとこと要約

本論は、女性・男性・中立の視点からのプロンプト付与により、英語とドイツ語のChatGPTの応答における性別バイアスを分析し、ドイツ語の文法問題、性別に敏感なトリガー、およびプロンプトと言語間でのバイアスパターンを明らかにする。

ABSTRACT

With the introduction of ChatGPT, OpenAI made large language models (LLM) accessible to users with limited IT expertise. However, users with no background in natural language processing (NLP) might lack a proper understanding of LLMs. Thus the awareness of their inherent limitations, and therefore will take the systems' output at face value. In this paper, we systematically analyse prompts and the generated responses to identify possible problematic issues with a special focus on gender biases, which users need to be aware of when processing the system's output. We explore how ChatGPT reacts in English and German if prompted to answer from a female, male, or neutral perspective. In an in-depth investigation, we examine selected prompts and analyse to what extent responses differ if the system is prompted several times in an identical way. On this basis, we show that ChatGPT is indeed useful for helping non-IT users draft texts for their daily work. However, it is absolutely crucial to thoroughly check the system's responses for biases as well as for syntactic and grammatical mistakes.

研究の動機と目的

  • 英語とドイツ語のそれぞれで、女性・男性・中立の視点からChatGPTがどのように応答するかを評価する。
  • ドイツ語のジェンダーニュートラル形に特に注意して、文法・統語・語用の問題を特定する。
  • プロンプトが応答に性別関連のバイアスや平等性を重視した内容を引き出すかを検討する。
  • 繰り返しのプロンプトや予告なしのモデル更新後における応答の安定性を評価する。
  • 大学のコミュニケーションにおけるChatGPTの信頼性と偏りについて、非ITユーザー向けのガイダンスを提供する。

提案手法

  • 文法的正確さ、性別バイアス、ユーザー期待、モデル更新に焦点を当てた4つのプロンプトベースの問題空間を定義する。
  • 女性・男性・中立の視点から英語とドイツ語の応答を得るため、自由回答で中立的に構成されたプロンプトを用いる。
  • 深掘りのために2つのプロンプトを選択し、各プロンプト・視点・言語ごとに10件の応答を生成して、少なくとも各プロンプトにつき60件の応答を得る。
  • 単語の使用、ジェンダーコード化された語の頻度(ジェンダーデコーダ語リストを用いて)、およびテキストの長さを分析する。
  • 探索フェーズと活用フェーズの結果を比較し、観察されたシステム更新と挙動の変化を記録する。
Figure 1 : Female coded words used on average in all perspectives of English responses (a) and German responses (b) for the prompt about a professor who won a prize. The number of usages is averaged over all responses of a perspective.
Figure 1 : Female coded words used on average in all perspectives of English responses (a) and German responses (b) for the prompt about a professor who won a prize. The number of usages is averaged over all responses of a perspective.

実験結果

リサーチクエスチョン

  • RQ1英語とドイツ語で、女性・男性・中立の視点からのプロンプトに応じて、ChatGPTの応答は異なるか。
  • RQ2プロンプト内の性別の手掛かりは、出力における性別バイアスや多様性志向の内容の有無にどのように影響するか。
  • RQ3ChatGPTの応答でドイツ語のジェンダーニュートラル言語を使用した場合、どのような文法的・統語的問題が現れるか。

主な発見

  • 英語の応答は概ね強固だが、ドイツ語の応答には特にジェンダーニュートラル形で、より微妙な文法的問題が見られる。
  • 性別を含むプロンプトは、平等性や多様性を強調する「ジェンダーテンプレート」を誘発し、他の内容を見落とすことがある。中立性はこの効果を低減する。
  • プロンプト全体で、男性・女性のプロンプトはしばしばSTEM分野を強調する一方、中立のプロンプトはより多様な内容を生み出す。ジェンダーコード化された語の使用は限定的だが、言語と視点によって異なる形で現れる。
  • 予告なしのシステム更新により応答が変化し(例: 空欄補充テキストの導入と“continue”ボタンの追加)、結果の再現性とプロンプト戦略の有効性に影響を与えた。
  • 全体として、ChatGPTは非ITユーザーがテキスト作成を支援できるが、偏りや誤りを軽減するためには徹底的な校閲が必要である。
Figure 2 : Male coded words used on average in all perspectives of English responses (a) and German responses (b) for the prompt about a professor who won a prize. The number of usages is averaged over all responses of a perspective.
Figure 2 : Male coded words used on average in all perspectives of English responses (a) and German responses (b) for the prompt about a professor who won a prize. The number of usages is averaged over all responses of a perspective.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。