[论文解读] The Vision Wormhole: Latent-Space Communication in Heterogeneous Multi-Agent Systems
Vision Wormhole 引入了一种无文本的潜在通信通道,利用 Vision-Language Models 的可视编码器作为连接异质代理的通用端口,实现模型无关、可扩展、带宽高的交换,采用轻量编解码器和线性(O(N))扩展性。
Multi-Agent Systems (MAS) powered by Large Language Models have unlocked advanced collaborative reasoning, yet they remain shackled by the inefficiency of discrete text communication, which imposes significant runtime overhead and information quantization loss. While latent state transfer offers a high-bandwidth alternative, existing approaches either assume homogeneous sender-receiver architectures or rely on pair-specific learned translators, limiting scalability and modularity across diverse model families with disjoint manifolds. In this work, we propose the Vision Wormhole, a novel framework that repurposes the visual interface of Vision-Language Models (VLMs) to enable model-agnostic, text-free communication. By introducing a Universal Visual Codec, we map heterogeneous reasoning traces into a shared continuous latent space and inject them directly into the receiver's visual pathway, effectively treating the vision encoder as a universal port for inter-agent telepathy. Our framework adopts a hub-and-spoke topology to reduce pairwise alignment complexity from O(N^2) to O(N) and leverages a label-free, teacher-student distillation objective to align the high-speed visual channel with the robust reasoning patterns of the text pathway. Extensive experiments across heterogeneous model families (e.g., Qwen-VL, Gemma) demonstrate that the Vision Wormhole reduces end-to-end wall-clock time in controlled comparisons while maintaining reasoning fidelity comparable to standard text-based MAS. Code is available at https://github.com/xz-liu/heterogeneous-latent-mas
研究动机与目标
- 促使并使异构多智能体系统(MAS)之间实现文本无关的跨模型通信。
- 通过利用 VLM 的可视接口,克服潜在翻译器的超边界与可扩展性挑战。
- 提出一个通用潜在空间和 hub-and-spoke 对齐,以将成对翻译器的复杂度从二次降至线性。
- 开发一个无标签、基于蒸馏的训练目标,使可视通道与基于文本的推理对齐。
- 在多样的模型家族中展示真实世界层面的速度与推理保真度提升。
提出的方法
- 提出 Vision Wormhole 框架,将潜在信息注入到 VLM 的可视令牌片段中。
- 训练一个轻量级的每代理编解码器,将潜在展开映射到固定大小的一组通用令牌。
- 使用一个通用到可视解码器的解码器,对接收端的图像令牌片段进行门控注入扰动。
- 通过 hub-and-spoke 仿射映射将异构编解码器对齐到共享的通用空间 U,实现 O(N) 的可扩展性。
- 采用无标签的蒸馏目标,由文本教师引导基于视觉的学生,不需要人工标注。
- 在内存缓冲区聚合多条消息,并为每个接收端解码一个单一的、有界的视觉片段扰动。

实验结果
研究问题
- RQ1异构 MAS 是否可以通过模型无关的可视令牌通道在不对骨干网络进行微调的情况下进行有效通信?
- RQ2将全局潜在空间通过 hub-and-spoke 仿射映射池化,是否能将成对适配器从 O(N^2) 降至 O(N),同时保持保真度?
- RQ3无标签的蒸馏目标是否足以使高速度的视觉通信与鲁棒的基于文本的推理对齐?
- RQ4将 Vision Wormhole 与基于文本的 MAS 在多种模型族中对比时,端到端的速度提升与保真度权衡为何?
主要发现
- Vision Wormhole 相较于文本型 MAS,在异构模型配置下能够缩短端到端的实际墙钟时间。
- 在主要结果中,VW 通常提升推理准确性并实现显著的加速,代码生成任务表现最强(如显著的准确性提升和推理更快)。
- hub-and-spoke 架构实现线性可扩展性,随着新模型加入系统,避免了适配器的二次增长。
- 一个约 0.05B 参数量级、在有限数据下训练的轻量编解码器可以在不进行骨干网络训练的情况下对多种模型家族进行泛化。
- 一种使用少于 100 个锚文本的弱监督变体仍能带来有意义的速度提升和准确性提升。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。