Skip to main content
QUICK REVIEW

[论文解读] ValueFlow: Measuring the Propagation of Value Perturbations in Multi-Agent LLM Systems

Jinnuo Liu, Chuke Liu|arXiv (Cornell University)|Feb 9, 2026
Topic Modeling被引用 0
一句话总结

ValueFlow 引入基于扰动的框架来量化多代理 LLM 系统中值漂移的传播,分解为代理层易感性与系统层拓扑效应。它提供一个 56 值的测量数据集,并显示拓扑对传播具有强烈影响。

ABSTRACT

Multi-agent large language model (LLM) systems increasingly consist of agents that observe and respond to one another's outputs. While value alignment is typically evaluated for isolated models, how value perturbations propagate through agent interactions remains poorly understood. We present ValueFlow, a perturbation-based evaluation framework for measuring and analyzing value drift in multi-agent systems. ValueFlow introduces a 56-value evaluation dataset derived from the Schwartz Value Survey and quantifies agents' value orientations during interaction using an LLM-as-a-judge protocol. Building on this measurement layer, ValueFlow decomposes value drift into agent-level response behavior and system-level structural effects, operationalized by two metrics: beta-susceptibility, which measures an agent's sensitivity to perturbed peer signals, and system susceptibility (SS), which captures how node-level perturbations affect final system outputs. Experiments across multiple model backbones, prompt personas, value dimensions, and network structures show that susceptibility varies widely across values and is strongly shaped by structural topology.

研究动机与目标

  • 激励并量化交互式 LLM 代理中值扰动的传播。
  • 开发一个测量框架以将代理响应与网络结构效应区分开。
  • 创建一个基于 Schwartz Value Survey 面向互动场景的 56 值评估数据集。
  • 提供关于设计更安全、拓扑感知的多代理系统的可操作见解。

提出的方法

  • 将多代理交互建模为 LLM 调用的有向无环图(DAG)。
  • 使用基于 56 值的 SVS 派生数据集对代理值取向进行量化,LLM 作为裁判对是/否问题进行评分。
  • 通过 COPRO 算法的提示级优化引入可控的值扰动,以诱导极端认可/拒绝。
  • 将值漂移分解为代理层易感性(beta)和系统层易感性(SS),给出定义的方程式。
  • 在骨干模型、开放性人物设定、值维度、输入方差与拓扑结构等方面进行评估。
  • 提供可扩展的工具链和分析流程,用于多代理 LLM 系统中的值鲁棒性分析。

实验结果

研究问题

  • RQ1在不同拓扑和扰动位置下,值扰动如何在多代理 LLM 交互中传播?
  • RQ2代理层响应性(beta-易感性)与网络结构如何共同塑造系统层值传播(SS)?
  • RQ3提示风格、骨干模型和输入方差如何影响跨值维度的值易感性?
  • RQ4哪些拓扑设计原则能够缓解或放大多代理系统中的值漂移?

主要发现

  • 在 56 个值维度上,值易感性差异显著;规范性值显示低易感性,而与情境相关的值显示更高易感性。
  • 开放性提示通常增加 beta-易感性,但效应取决于具体值,而非普遍性。
  • 骨干模型在 beta-易感性上存在系统性差异;Gemma3-27B 和 Qwen3-8B 的平均值高于 GPT-4o 与 LLama-3.3-70B(56 个值的平均 beta:Gemma3-27B 0.6050;Qwen3-8B 0.5620;GPT-3.5-Turbo 0.4515;GPT-4o 0.4078;LLama-3.3-70B 0.3245)。
  • 更高的输入方差会增加跨值的代理层易感性。
  • 代理层易感性强烈预测系统层传播:更高的 beta 会在各层中产生更持久的系统偏差。
  • 拓扑形态影响传播:输出可达性和中心性越高,SS 越大,而在扰动节点的高入度会削弱传播。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。