Skip to main content
QUICK REVIEW

[論文レビュー] Evaluating Machine Perception of Indigeneity: An Analysis of ChatGPT's Perceptions of Indigenous Roles in Diverse Scenarios

Cecilia Delgado Solorzano, Carlos Toxtli Hernandez|arXiv (Cornell University)|Jan 1, 2023
FinTech, Crowdfunding, Digital Finance被引用数 1
ひとこと要約

本研究は、シナリオベースのプロンプトと定性的分析を用いて、ChatGPTが農場、テクノロジーストア、地下鉄の3つのシナリオにおいてインディジナスの人々をどのように認識しているかを評価した。その結果、明白な人種的差別がほとんどない中でも、文化的に異質視されたり、ステレオタイプ的描写(例:『高貴なサバンナ人』、『魔法使いのシャーマン』)が繰り返され、白人個人と比較して統計的に有意なラベル差異(p < 0.001)が示された。

ABSTRACT

Large Language Models (LLMs), like ChatGPT, are fundamentally tools trained on vast data, reflecting diverse societal impressions. This paper aims to investigate LLMs' self-perceived bias concerning indigeneity when simulating scenarios of indigenous people performing various roles. Through generating and analyzing multiple scenarios, this work offers a unique perspective on how technology perceives and potentially amplifies societal biases related to indigeneity in social computing. The findings offer insights into the broader implications of indigeneity in critical computing.

研究の動機と目的

  • 大規模言語モデル(LLM)が多様な社会的状況においてインディジナスの人々をどのように認識しているかを調査すること。
  • 社会的権力構造や植民地主義の歴史的影響を反映する、AI生成されたインディジナス個人像に内在する、微細で体系的なバイアスを明らかにすること。
  • LLMの自己評価によるバイアスラベルと人間によるバイアス判断との整合性を評価し、モデルの自己認識の正確性を検証すること。
  • AIシステムがインディジナスの人々に対して抑圧的表現を内省的に内化・投影していることから、倫理的AI設計に貢献すること。
  • 代表的被害を是正するため、AI開発においてインディジナスの声、儀礼、監視体制を核とする姿勢を提唱すること。

提案手法

  • 農場、テクノロジーストア、地下鉄の3つの異なる架空のシナリオを設計した。
  • インディジナスの人々と白人/ユダヤ系アメリカ人の個人を、さまざまな役割でシミュレートするためのプロンプト工学を用いて、各シナリオごとに多数のLLM出力を生成した。
  • 生成されたテキストに繰り返し現れる言語的パターン、記述語、ステレオタイプ的レトリックを特定するため、定性的なテーマ的分析を実施した。
  • 独立した母集団t検定を用いて、シナリオ全体を通じてインディジナス個人と白人個人との間のラベル差異を統計的に比較した。
  • Cohenのカッパ統計量を用いて、LLMが出力したラベルと人間がアノテートしたラベルの間の評価者間信頼性を評価した。
  • シナリオベースの評価を、AIシステムの位置的認識(positionality)を探る新手法として採用し、社会的技術的システム内でのインディジナス的視点を模擬した。

実験結果

リサーチクエスチョン

  • RQ1ChatGPTは、インディジナスの人々を非インディジナスの人々と比較して、多様な社会的状況でどのように描写しているか?
  • RQ2LLMは、『高貴なサバンナ人』や『魔法使いのシャーマン』といった植民地時代のステレオタイプをどれほど再現しているか、あるいはそれらを覆しているか?
  • RQ3LLMの自己評価によるバイアスラベルは、人間がアノテートしたステレオタイプ的言語の判断とどの程度整合しているか?
  • RQ4AIシステムが社会的コンピューティング文脈において、インディジナス関連の微細で体系的なバイアスを内省的に内化・投影することは、どのような意味を持つのか?
  • RQ5シナリオベースのプロンプトは、LLMにおける位置的認識とバイアスを検出・分析する有効な手法とみなせるか?

主な発見

  • すべてのシナリオにおいて、インディジナス個人と白人個人との間で統計的に有意なラベル差異が示された。農場と地下鉄のシナリオではp < 0.001、ストアのシナリオではp < 0.01であった。
  • 農場シナリオでは、80%のインディジナス描写が文化的に異質視されたりステレオタイプ的であった。例として『伝統的』『先祖の植物とつながっている』といった記述が多用されたが、白人個人は中立的に描写された。
  • テクノロジーストアシナリオでは、26%のインディジナス描写が『独自の部族パターンを持つ手織りの毛布』といった文化的製品と関連づけられた一方、白人個人は一般的な取引として描写された。
  • 地下鉄シナリオでは、93%のインディジナス描写に文化的に異質視する記述(例:『鮮やかな祭式衣装で飾られている』)が含まれ、白人個人の描写とは対照的に、日常的で退屈な描写がなされた。
  • Cohenのカッパ係数は、LLMが出力したラベルと人間の判断との間に、中程度からほぼ完璧な一致(k = 0.766–0.966)を示した。これは、モデルが人間のバイアス認識を非常に正確に模倣していることを示している。
  • 一部の自己自己批判的機能が存在するにもかかわらず、LLMはバイアスを自動的に是正しなかった。これは、倫理的AI開発において内部の自己評価に依存する際の限界を露呈している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。