QUICK REVIEW

[논문 리뷰] ValueFlow: Measuring the Propagation of Value Perturbations in Multi-Agent LLM Systems

Jinnuo Liu, Chuke Liu|arXiv (Cornell University)|2026. 02. 09.

Topic Modeling인용 수 0

한 줄 요약

ValueFlow는 다중 에이전트 LLM 시스템에서 가치 드리프트가 어떻게 전파되는지 양자화하기 위한 perturbation 기반 프레임워크를 도입하고, 영향을 에이전트 수준 민감도와 시스템 수준 토폴로지 효과로 분해합니다. 56-값 측정 데이터셋을 제공하고 토폴로지가 전파에 강하게 영향을 미친다는 것을 보여줍니다.

ABSTRACT

Multi-agent large language model (LLM) systems increasingly consist of agents that observe and respond to one another's outputs. While value alignment is typically evaluated for isolated models, how value perturbations propagate through agent interactions remains poorly understood. We present ValueFlow, a perturbation-based evaluation framework for measuring and analyzing value drift in multi-agent systems. ValueFlow introduces a 56-value evaluation dataset derived from the Schwartz Value Survey and quantifies agents' value orientations during interaction using an LLM-as-a-judge protocol. Building on this measurement layer, ValueFlow decomposes value drift into agent-level response behavior and system-level structural effects, operationalized by two metrics: beta-susceptibility, which measures an agent's sensitivity to perturbed peer signals, and system susceptibility (SS), which captures how node-level perturbations affect final system outputs. Experiments across multiple model backbones, prompt personas, value dimensions, and network structures show that susceptibility varies widely across values and is strongly shaped by structural topology.

연구 동기 및 목표

상호 작용하는 LLM 에이전트들 간에 가치 교란이 어떻게 전파되는지 동기 부여 및 정량화.
에이전트 반응과 네트워크 구조 효과를 분리하는 측정 프레임워크를 개발.
상호 작용 설정에서 파생된 Schwartz Value Survey(SVS) 기반의 56-값 평가 데이터셋을 생성.
더 안전하고 토폴로지 인식이 가능한 다중 에이전트 시스템 설계에 대한 실행 가능 인사이트 제공.

제안 방법

LLM 호출의 방향성 그래프(DAG)로 다중 에이전트 상호 작용을 모델링합니다.
LLM-판사 scoring Yes–No 질문으로 SVS로부터 파생된 56-값 데이터셋을 사용하여 에이전트 가치 방향성을 정량화합니다.
극단적 지지/거부를 유도하도록 최적화된 프롬프트 수준 프롬프트(COPRO 알고리즘)로 제어된 가치 교란을 도입합니다.
정의된 방정식과 함께 에이전트 수준 민감도(beta) 및 시스템 수준 민감도(SS)로 가치 드리프트를 분해합니다.
백본 모델, 개방성 페르소나, 가치 차원, 입력 분산, 토폴로지 전반에 걸쳐 평가합니다.
다중 에이전트 LLM 시스템의 가치 강건성을 위한 확장 가능한 도구 체인 및 분석 파이프라인을 제공합니다.

실험 결과

연구 질문

RQ1다양한 토폴로지와 교란 위치에서 다중 에이전트 LLM 상호 작용을 통해 가치 교란이 어떻게 전파되는가?
RQ2에이전트 수준 반응성(beta-민감도)과 네트워크 구조가 시스템 수준 가치 전파(SS)를 어떻게 함께 형성하는가?
RQ3프롬프트 스타일, 백본 모델 및 입력 분산이 가치 차원 전반의 가치 민감도에 어떤 영향을 미치는가?
RQ4다중 에이전트 시스템에서 가치 드 drift를 완화하거나 증가시키는 토폴로지 설계 원칙은 무엇인가?

주요 결과

Backbone Model	Mean β
Gemma3-27B	0.6050
Qwen3-8B	0.5620
GPT-3.5-Turbo	0.4515
GPT-4o	0.4078
LLama-3.3-70B	0.3245

56 가치 차원에 따라 가치 민감도가 상당히 다르며, 규범적 값은 민감도가 낮은 반면 맥락 의존적 값은 더 높은 민감도를 보입니다.
개방성 프롬프트는 일반적으로 beta-민감도를 증가시키지만 효과는 값 의존적이며 균일하지 않습니다.
백본 모델은 beta-민감도에서 체계적으로 차이가 있으며, Gemma3-27B와 Qwen3-8B가 GPT-4o 및 LLama-3.3-70B보다 평균이 더 높습니다(56개 값의 평균 β: Gemma3-27B 0.6050; Qwen3-8B 0.5620; GPT-3.5-Turbo 0.4515; GPT-4o 0.4078; LLama-3.3-70B 0.3245).
입력 분산이 증가하면 값 차원 전반에서 에이전트 수준의 민감도가 증가합니다.
에이전트 수준의 민감도는 시스템 수준 전파를 강하게 예측합니다: β가 높을수록 계층 전반에서 더 지속적인 시스템 편차로 이어집니다.
토폴로지는 전파에 영향을 미칩니다: 출력 도달성(output reachability)과 중심성이 높을수록 SS가 증가하고, 교란 노드의 높은 차수는 전파를 약화시킵니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.