QUICK REVIEW

[论文解读] Multi-Agent Risks from Advanced AI

Lewis Hammond, Alan Chan|ArXiv.org|Feb 19, 2025

Ethics and Social Impacts of AI被引用 7

一句话总结

本技术报告提供了由先进人工智能引发的多智能体风险的分类法，概述了三种失效模式（协调失效、冲突、共谋）和七个风险因素，并给出基于现实世界示例和实验的缓解与治理方向。

ABSTRACT

The rapid development of advanced AI agents and the imminent deployment of many instances of these agents will give rise to multi-agent systems of unprecedented complexity. These systems pose novel and under-explored risks. In this report, we provide a structured taxonomy of these risks by identifying three key failure modes (miscoordination, conflict, and collusion) based on agents' incentives, as well as seven key risk factors (information asymmetries, network effects, selection pressures, destabilising dynamics, commitment problems, emergent agency, and multi-agent security) that can underpin them. We highlight several important instances of each risk, as well as promising directions to help mitigate them. By anchoring our analysis in a range of real-world examples and experimental evidence, we illustrate the distinct challenges posed by multi-agent systems and their implications for the safety, governance, and ethics of advanced AI.

研究动机与目标

识别并分类在多智能体、先进AI系统中专门出现的新型且质的不同风险。
建立一个结构化的分类法，将失效模式与基础风险因素（如信息不对称和网络效应）联系起来。
以现实世界的示例和实验来说明风险，使理论概念得到具体支撑。
提出评估、缓解和协作策略，以在安全、治理与伦理领域应对多智能体风险。

提出的方法

基于代理的目标和系统目标，定义三种高层次失效模式：协调失效、冲突和共谋。
识别可能支撑这些失效的七个风险因素：信息不对称、网络效应、选择压力、破坏性动态、承诺问题、涌现代理性，以及多智能体安全。
提供具体实例和案例研究（现实世界、文献基础和新颖实验）以说明每种风险及其机制。
为未来在评估、缓解和跨学科协作方面的工作提供方向。
用将案例研究与失效模式及风险因素关联的表格来支撑分类法。

实验结果

研究问题

RQ1在具有高级AI行为体的多智能体系统中，会出现哪些不同的失效模式，以及这些模式如何取决于代理的目标？
RQ2哪些风险因素最常导致AI代理之间以及AI与人之间的协调失效、冲突或共谋？
RQ3有哪些具体示例说明这些风险，以及可以采取的初步缓解措施？
RQ4可以开发哪些评估与治理策略，以在实践中预测并降低多智能体风险？

主要发现

在多智能体AI系统中，三种高层次的失效模式是协调失效、冲突和共谋。
七个风险因素支撑这些失效模式：信息不对称、网络效应、选择压力、破坏性/不稳定的动态、承诺问题、涌现的代理性，以及多智能体安全。
本报告以现实世界的示例、现有结果和新颖的实验来支撑其分类法，说明风险在实践中的表现。
它概述了在安全、治理与伦理方面就多智能体风险进行评估、缓解和协作的方向。
该工作将多智能体风险分析与更广泛的AI安全、治理与伦理讨论联系起来，强调需要跨学科的方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。