QUICK REVIEW

[論文レビュー] Statistical discrimination in learning agents

Edgar A. Duéñez‐Guzmán, Kevin R. McKee|arXiv (Cornell University)|Oct 21, 2021

Evolutionary Game Theory and Cooperation被引用数 1

ひとこと要約

本論文は、情報処理制約とエージェントアーキテクチャが社会的パートナ選択における統計的差別のに与える影響を調査するためのマルチエージェント強化学習フレームワークを提案する。訓練環境にバイアスが存在する場合、すべてのエージェントアーキテクチャが顕著な統計的差別を示すが、再帰的ネットワーク（LSTM）は時間的経過に伴う個別レベルの情報統合をより効果的に行うため、バイアスを低減することが示された。これは、アーキテクチャ設計が学習された差別を緩和できる可能性を示唆している。

ABSTRACT

Undesired bias afflicts both human and algorithmic decision making, and may be especially prevalent when information processing trade-offs incentivize the use of heuristics. One primary example is extit{statistical discrimination} -- selecting social partners based not on their underlying attributes, but on readily perceptible characteristics that covary with their suitability for the task at hand. We present a theoretical model to examine how information processing influences statistical discrimination and test its predictions using multi-agent reinforcement learning with various agent architectures in a partner choice-based social dilemma. As predicted, statistical discrimination emerges in agent policies as a function of both the bias in the training population and of agent architecture. All agents showed substantial statistical discrimination, defaulting to using the readily available correlates instead of the outcome relevant features. We show that less discrimination emerges with agents that use recurrent neural networks, and when their training environment has less bias. However, all agent algorithms we tried still exhibited substantial bias after learning in biased training populations.

研究の動機と目的

情報処理制限とエージェントアーキテクチャが社会的意思決定における統計的差別にどのように影響するかを調査すること。
結果に関連する特徴ではなく、容易に入手可能な社会的ヒントに基づくヒューリスティクスの出現をモデル化すること。
アーキテクチャの選択（例：LSTM 対フィードフォワードネットワーク）が学習されたバイアスの程度に与える影響をテストすること。
環境のバイアスが低下することで、学習エージェントの学習方策にどのような影響を与えるかを調査すること。
分散的かつ逐次的な社会的相互作用におけるバイアスを理解するための理論的・実証的フレームワークを提供すること。

提案手法

パートナ選択と結果フィードバックを備えた、時間的・空間的に拡張されたマルチエージェント強化学習環境を構築した。
エージェントが隠れた結果に関連する特徴と相関する目に見える特徴（例：色）に基づいてパートナを選択する社会的ジレンマを設計した。
学習ダイナミクスを比較するために、フィードフォワードネットワークと再帰的ネットワーク（LSTM）を用いた多様なアーキテクチャのエージェントを訓練した。
訓練集団のバイアスとエージェントアーキテクチャが差別に与える影響を予測する理論的モデルを用いた。
統計的差別を、エージェントが結果に関連する特徴よりも目に見える特徴にどれほど依存するかという度合いとして測定した。
環境バイアスとエージェントの情報処理能力の異なるレベルで、方策を評価した。

実験結果

リサーチクエスチョン

RQ1エージェントアーキテクチャ（例：フィードフォワード対 LSTM）がパートナ選択における統計的差別の発生にどのように影響するか。
RQ2訓練集団のバイアスが学習エージェントの差別的行動にどの程度影響を及えるか。
RQ3環境バイアスを低減することで、学習エージェントの差別的方策が比例的に減少するか。
RQ4再帰的アーキテクチャを持つエージェントは、個別レベルの情報をより効果的に統合し、ヒューリスティックな手がかりへの依存を減らすことができるか。
RQ5逐次的で経験に基づく学習ダイナミクスは、統計的差別の持続性にどのように影響するか。

主な発見

すべてのエージェントアーキテクチャが顕著な統計的差別を示し、結果に関連する特徴よりも容易に入手可能な目に見える特徴に依存した。
再帰的ニューラルネットワークエージェント（LSTM）は、フィードフォワードネットワークと比較して顕著に統計的差別が低減された。
環境バイアスの小さな低下は、エージェントの差別に比例的に小さな低下をもたらし、非線形反応であることを示した。
LSTMを搭載したエージェントは、時間的経過に伴い個別レベルの情報を活用する能力を学習し、より正確なパートナ選択が可能になった。
結果は、パートナの確率的サンプリングがベットヘッジ行動を引き起こし、エージェントが信号の信頼性により敏感になるという仮説を支持した。
研究結果は二重プロセス理論とモデルベース強化学習と整合しており、再帰的処理がより意図的で、バイアスの少ない意思決定を支援することを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。