[논문 리뷰] Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour
본 논문은 신뢰를 반복적 사용자-개발자 게임에서 감소된 모니터링으로 모델링하고, 다양한 모니터링 비용 및 규제 체제 하에서 사용자 신뢰와 안전/비안전 AI 개발의 공진화를 무한(복제자) 및 유한 인구 동역학과 강화 학습을 이용해 분석한다.
AI safety is an increasingly urgent concern as the capabilities and adoption of AI systems grow. Existing evolutionary models of AI governance have primarily examined incentives for safe development and effective regulation, typically representing users' trust as a one-shot adoption choice rather than as a dynamic, evolving process shaped by repeated interactions. We instead model trust as reduced monitoring in a repeated, asymmetric interaction between users and AI developers, where checking AI behaviour is costly. Using evolutionary game theory, we study how user trust strategies and developer choices between safe (compliant) and unsafe (non-compliant) AI co-evolve under different levels of monitoring cost and institutional regimes. We complement the infinite-population replicator analysis with stochastic finite-population dynamics and reinforcement learning (Q-learning) simulations. Across these approaches, we find three robust long-run regimes: no adoption with unsafe development, unsafe but widely adopted systems, and safe systems that are widely adopted. Only the last is desirable, and it arises when penalties for unsafe behaviour exceed the extra cost of safety and users can still afford to monitor at least occasionally. Our results formally support governance proposals that emphasise transparency, low-cost monitoring, and meaningful sanctions, and they show that neither regulation alone nor blind user trust is sufficient to prevent evolutionary drift towards unsafe or low-adoption outcomes.
연구 동기 및 목표
- AI 거버넌스에서 신뢰를 동적이고 모니터링 기반의 메커니즘으로 모델링하는 것이 왜 중요한지 동기를 부여한다.
- 신뢰 기반 모니터링 전략을 포함하는 사용자와 AI 개발자 간 비대칭 반복 게임을 개발한다.
- 무한(복제자) 및 유한 인구에서의 진화적 역학을 분석하여 채택과 안전의 장기 체제를 식별한다.
- 학습 다이내믹스 전반에서 결론의 강건성을 검증하기 위해 강화 학습 시뮬레이션을 통합한다.
- 투명성, 모니터링 비용, 제재에 관한 거버넌스 인사이트를 제공하여 안전하지 않은 AI 개발을 억제한다.
제안 방법
- 신뢰 기반의 사용자 전략과 안전/비안전 개발자 선택을 가진 사용자와 개발자 간의 반복적인 2인 게임을 정의한다.
- 이점, 비용, 모니터링 비용 및 제도적 처벌 매개변수를 반영한 보상을 명시한다.
- 무한 인구 복제자 역학을 적용하여 균형을 도출하고 안정성을 분석한다.
- 고정 확률과 마르코프 체인을 사용하여 드리프트와 돌연변이를 포착하는 유한 인구의 확률적 역학을 모델링한다.
- 강화 학습(Q-학습) 시뮬레이션을 실행하여 복제자 결과와 비교하고 강건성을 평가한다.

실험 결과
연구 질문
- RQ1감소된 모니터링으로 정의된 신뢰가 다양한 모니터링 비용과 규제 하에서 사용자 채택과 개발자 안전의 공진화에 어떻게 영향을 미치는가?
- RQ2장기 체제로 어떤 모드가 나타나는가(안전하지 않은 개발과 무 채택, 안전하지 않은 채택, 안전한 채택) 그리고 어떤 조건에서 달성되는가?
- RQ3신뢰 기반 전략의 결과를 예측하는 데 있어 유한(확률적) 및 무한(결정적) 인구 역학은 어떻게 비교되는가?
- RQ4투명성, 모니터링 비용 및 제재와 관련하여 안전한 AI 개발을 유지하기 위한 거버넌스 시사점은 무엇인가?
주요 결과
- 세 가지 강건한 장기 체제가 나타난다: 안전하지 않은 개발과 무 채택, 안전하지는 않지만 널리 채택된 시스템, 안전한 시스템이 널리 채택된 체제.
- 안전하고 널리 채택된 체제는 안전하지 않은 행위에 대한 처벌이 안전 비용을 초과하고 모니터링이 사용자가 감당할 수 있는 수준일 때 나타난다.
- 신뢰 기반 모니터링 전략은 특히 낮은 모니터링 비용에서 사용자 채택을 촉진하고 더 강한 제재는 채택을 더욱 증가시킨다.
- 더 높은 모니터링 비용은 신뢰 기반 전략의 효과를 약화시키고 결과를 무채택 또는 안전하지 않은 개발 쪽으로 이동시킬 수 있다.
- 모니터링 비용이 없을 때 강화 학습 다이내믹스는 복제자 결과와 일치하고 더 높은 비용에 대해서도 더 큰 강건성을 보인다.
- 거버넌스 시사점은 투명성, 저비용 모니터링, 그리고 의미 있는 제재를 통해 안전한 AI 개발을 유도하고 안전하지 않거나 저채택 균형으로의 드리프트를 방지하는 것을 지지한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.