Skip to main content
QUICK REVIEW

[論文レビュー] Race, Ethnicity and Their Implication on Bias in Large Language Models

Shiyue Hu, Ruizhe Li|arXiv (Cornell University)|Jan 19, 2026
Artificial Intelligence in Healthcare and Education被引用数 0
ひとこと要約

論文は、LLMsにおける人種・民族性の機構的解釈可能性フレームワークを提示し、分布的でタスク依存的な表現を示し、特定されたニューロンを抑制することで毒性・臨床タスク全体にわたるバイアスを減少させるが根絶はしないことを示しています。

ABSTRACT

Large language models (LLMs) increasingly operate in high-stakes settings including healthcare and medicine, where demographic attributes such as race and ethnicity may be explicitly stated or implicitly inferred from text. However, existing studies primarily document outcome-level disparities, offering limited insight into internal mechanisms underlying these effects. We present a mechanistic study of how race and ethnicity are represented and operationalized within LLMs. Using two publicly available datasets spanning toxicity-related generation and clinical narrative understanding tasks, we analyze three open-source models with a reproducible interpretability pipeline combining probing, neuron-level attribution, and targeted intervention. We find that demographic information is distributed across internal units with substantial cross-model variation. Although some units encode sensitive or stereotype-related associations from pretraining, identical demographic cues can induce qualitatively different behaviors. Interventions suppressing such neurons reduce bias but leave substantial residual effects, suggesting behavioral rather than representational change and motivating more systematic mitigation.

研究の動機と目的

  • ヘルスケアや毒性生成といった高リスク設定におけるLLMの挙動に対する人口統計属性の影響を理解する動機づけ。
  • 人種・民族性の手掛かりが、LLM内部で高次元の特徴として、タスク関連の表現として、あるいは虚偽のショートカットとしてエンコードされているかを調査する。
  • プロービング、ニューロンレベルの寄与、ターゲット介入を組み合わせた再現可能な解釈可能性パイプラインを開発する。
  • 3つのオープンソースLLMを横断した人種表現と、それがタスク間のバイアス行動に与える影響を特徴づける。

提案手法

  • 機構的解釈可能性(MI)パイプラインを提案し、多クラスプロービング、ニューロンレベルの寄与、ターゲット介入を組み合わせる。
  • 最終層残差ストリームの人種方向を線形プローブで特定する。
  • ニューロン出力と人種方向とのコサイン類似度に基づき候補ニューロンを同定する。
  • 活性化分析と因果介入によりニューロンを検証し、推論時にターゲットニューロンの活性化を抑制する。
  • 3モデル(Qwen2.5-7B-IT、Mistral-7B-IT、Llama-3.1-8B)を用いて2つのタスク(ToxiGen毒性生成とC-REACT臨床テキスト)で評価する。
  • 明示的な用語と代理指標を区別するため、直接的な人種手掛かりと間接的な手掛かりを別々のプローブで分析する。
Figure 1: With MLP, we locate neurons relevant to race information and inspect them via Logit Lens. For the higher activation score for target race, we adjust its value to steer model’s behavior.
Figure 1: With MLP, we locate neurons relevant to race information and inspect them via Logit Lens. For the higher activation score for target race, we adjust its value to steer model’s behavior.

実験結果

リサーチクエスチョン

  • RQ1内部LLM表現全体で人種/民族性は異なるモデル間でどのようにエンコードされているか。
  • RQ2毒性と臨床テキストタスクの出力に対して、人種関連の表現が因果的に影響を与えるか。
  • RQ3特定されたニューロンに対するターゲット介入はバイアスを緩和できるか、直接的な人種手掛かりと間接的な手掛かりで有効性はどのように異なるか。

主な発見

  • 人種/民族性情報は内部ユニット全体に分布しており、地理、言語、文化、歴史的文脈といった意味的側面にモデル固有の強調がある。
  • 一部のニューロンは明示的な人口統計分類をコードし、他のニューロンは関連属性を介して人種をコードしており、複数のエンコーディング経路を明らかにする。
  • 活性化分析は、人種コード化ニューロンが対象グループのために優先的に活性化することを示し、人口統計エンコードにおける役割を裏付ける。
  • 特定されたニューロンを抑制するターゲット介入はバイアスを低減し、中程度の増幅で一部の観測されたバイアスを完全に排除することさえあるが、純粋な表現変化ではなく行動的要因による残存バイアスが残る。
  • 直接的なニューロン介入(明示的な人種トークンに影響)は、テストされたモデル全体でのバイアス低減において、間接的介入(代理指標に影響)より一般的に優れている。
Figure 2: Mean activation values of race encoding neurons when processing text from each racial group (ToxiGen). Diagonal cells represent neurons processing their target group. Higher values (red) indicate stronger activation; lower values (blue) indicate weak, negative activations.
Figure 2: Mean activation values of race encoding neurons when processing text from each racial group (ToxiGen). Diagonal cells represent neurons processing their target group. Higher values (red) indicate stronger activation; lower values (blue) indicate weak, negative activations.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。