Skip to main content
QUICK REVIEW

[論文レビュー] Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Adeela Bashir, Zhao Song|arXiv (Cornell University)|Mar 25, 2026
Ethics and Social Impacts of AI被引用数 0
ひとこと要約

論文は信頼を反復的なユーザー–開発者ゲームにおける監視低減としてモデル化し、監視コストと規制体制の下で、ユーザー信頼と安全対策/不安全なAI開発がどのように共進化するかを、無限集団・有限集団ダイナミクスと強化学習を用いて分析する。

ABSTRACT

AI safety is an increasingly urgent concern as the capabilities and adoption of AI systems grow. Existing evolutionary models of AI governance have primarily examined incentives for safe development and effective regulation, typically representing users' trust as a one-shot adoption choice rather than as a dynamic, evolving process shaped by repeated interactions. We instead model trust as reduced monitoring in a repeated, asymmetric interaction between users and AI developers, where checking AI behaviour is costly. Using evolutionary game theory, we study how user trust strategies and developer choices between safe (compliant) and unsafe (non-compliant) AI co-evolve under different levels of monitoring cost and institutional regimes. We complement the infinite-population replicator analysis with stochastic finite-population dynamics and reinforcement learning (Q-learning) simulations. Across these approaches, we find three robust long-run regimes: no adoption with unsafe development, unsafe but widely adopted systems, and safe systems that are widely adopted. Only the last is desirable, and it arises when penalties for unsafe behaviour exceed the extra cost of safety and users can still afford to monitor at least occasionally. Our results formally support governance proposals that emphasise transparency, low-cost monitoring, and meaningful sanctions, and they show that neither regulation alone nor blind user trust is sufficient to prevent evolutionary drift towards unsafe or low-adoption outcomes.

研究の動機と目的

  • AIガバナンスのために、信頼を動的で監視ベースのメカニズムとしてモデリングする意義を動機づける。
  • ユーザーとAI開発者の非対称な反復ゲームを、信頼ベースの監視戦略を組み込んで構築する。
  • 無限集団(レプリケータ)と有限集団の進化ダイナミクスを分析し、採用と安全の長期的なレジームを特定する。
  • 学習ダイナミクスの頑健性を検証するために強化学習シミュレーションを統合する。
  • 透明性、監視コスト、および安全なAI開発を促進する制裁に関するガバナンス上の示唆を提供する。

提案手法

  • 信頼に基づくユーザー戦略と安全/不安全な開発者の選択を含む、ユーザーと開発者の反復的な2人ゲームを定義する。
  • 利益、コスト、監視コスト、制度的罰則パラメータを組み込んだペイオフを明示する。
  • 無限集団レプリケータダイナミクスを適用して均衡を導出し、安定性を分析する。
  • 有限集団の確率的ダイナミクスを、定着確率とマルコフ連鎖でモデリングし、ドリフトと突然変異を捉える。
  • Q-learning を含む強化学習シミュレーションを実行し、レプリケータ結果と比較して頑健性を評価する。
Figure 1 : Interaction Sequences between Strategies. Each block represents an action of the user (left stack) and the developer (right stack), which can be cooperate (white) or defect (dark red). Users may also monitor the creator’s behaviour, paying a cost (symbols to the right of the stacks of TFT
Figure 1 : Interaction Sequences between Strategies. Each block represents an action of the user (left stack) and the developer (right stack), which can be cooperate (white) or defect (dark red). Users may also monitor the creator’s behaviour, paying a cost (symbols to the right of the stacks of TFT

実験結果

リサーチクエスチョン

  • RQ1監視を低減することで定義される信頼は、さまざまな監視コストと規制の下で、ユーザー導入と開発者の安全性の共進化にどのように影響するか?
  • RQ2長期的なレジームとして、採用なしかつ不安全開発、採用ありの不安全、採用ありの安全のどれが出現し、どの条件で達成されるか?
  • RQ3有限(確率的)集団と無限(決定論的)集団のダイナミクスは、信頼ベース戦略の結果をどのように予測するか?
  • RQ4透明性、監視コスト、および制裁に関して、安定した安全なAI開発を促進し、逸脱または低採用の平衡へ傾くのを防ぐためのガバナンス上の含意は何か?

主な発見

  • 三つの堅牢な長期レジームが現れる:不採用だが不安全開発、広く採用される不安全なシステム、広く採用される安全なシステム。
  • 不安全行為の罰則が安全性の追加コストを上回り、監視が手頃であれば、安全で広く採用されるレジームが出現する。
  • 信頼に基づく監視戦略は、特に監視コストが低い場合にユーザーの採用を高め、制度的罰則が高いほど採用をさらに増加させる。
  • 監視コストが高いほど信頼ベース戦略の効果が弱まり、採用しないまたは不安全開発へと結果が移行しやすくなる。
  • 監視コストがない場合、強化学習ダイナミクスはレプリケータ結果と一致し、コストが高い場合には頑健性が低下する。
  • ガバナンス上の含意は、透明性、低コストの監視、および意味のある制裁を支持し、安全なAI開発を促進し、不安全または低採用の平衡へとドリフトするのを防ぐ。
Figure 2 : Trust-based strategies enhance user adoption, while it declines as monitoring cost becomes expensive. The first and second columns show the stationary distributions of each state as a function of monitoring cost for scenarios without and with trust-based strategies, respectively. The thir
Figure 2 : Trust-based strategies enhance user adoption, while it declines as monitoring cost becomes expensive. The first and second columns show the stationary distributions of each state as a function of monitoring cost for scenarios without and with trust-based strategies, respectively. The thir

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。