[논문 리뷰] The Vision Wormhole: Latent-Space Communication in Heterogeneous Multi-Agent Systems
Vision Wormhole은 텍스트가 없는 잠재 커뮤니케이션 채널을 도입하며, Vision-Language Models의 시각 인코더를 다종의 에이전트를 연결하는 보편 포트로 사용하여, 경량 코덱과 선형(O(N)) 확장성을 가진 모델에 구애받지 않는, 확장 가능하고 대역폭이 높은 교환을 달성한다.
Multi-Agent Systems (MAS) powered by Large Language Models have unlocked advanced collaborative reasoning, yet they remain shackled by the inefficiency of discrete text communication, which imposes significant runtime overhead and information quantization loss. While latent state transfer offers a high-bandwidth alternative, existing approaches either assume homogeneous sender-receiver architectures or rely on pair-specific learned translators, limiting scalability and modularity across diverse model families with disjoint manifolds. In this work, we propose the Vision Wormhole, a novel framework that repurposes the visual interface of Vision-Language Models (VLMs) to enable model-agnostic, text-free communication. By introducing a Universal Visual Codec, we map heterogeneous reasoning traces into a shared continuous latent space and inject them directly into the receiver's visual pathway, effectively treating the vision encoder as a universal port for inter-agent telepathy. Our framework adopts a hub-and-spoke topology to reduce pairwise alignment complexity from O(N^2) to O(N) and leverages a label-free, teacher-student distillation objective to align the high-speed visual channel with the robust reasoning patterns of the text pathway. Extensive experiments across heterogeneous model families (e.g., Qwen-VL, Gemma) demonstrate that the Vision Wormhole reduces end-to-end wall-clock time in controlled comparisons while maintaining reasoning fidelity comparable to standard text-based MAS. Code is available at https://github.com/xz-liu/heterogeneous-latent-mas
연구 동기 및 목표
- 이종 다중 에이전트 시스템(MAS)에서 모델 간의 텍스트 없는 커뮤니케이션을 동기 부여하고 가능하게 한다.
- VLM 시각 인터페이스를 활용하여 잠재 번역기의 오프 매니폴드(off-manifold) 및 확장성 문제를 VLM 시각 인터페이스를 활용하여 극복한다.
- 보편 잠재 공간과 허브-스포크 정렬을 제안하여 쌍별 번역기 복잡도를 제곱에서 선형으로 줄인다.
- 시각 채널을 텍스트 기반 추론과 정렬하기 위한 레이블이 필요 없는 증류 기반 학습 목표를 개발한다.
- 다양한 모델 계열에 걸쳐 속도 및 추론 충실도에서 실제 세계상의 이점을 시연한다.
제안 방법
- VLM 시각 토큰 스팬에 잠재 메시지를 주입하는 Vision Wormhole 프레임워크를 도입한다.
- 잠재 롤아웃을 고정 크기의 보편 토큰 집합으로 매핑하는 경량 per-agent 코덱을 학습한다.
- 수신자의 이미지 토큰 스팬을 게이트된 주입으로 변형시키는 universal-to-vision 디코더를 사용한다.
- 허브-스포크 선형 변환 매핑을 통해 이질적 코덱을 공유된 Universal Space U에 정렬하여 O(N) 확장성을 가능하게 한다.
- 인간 주석 없이 텍스트 기반 교사가 비전 기반 학생을 이끄는 레이블이 필요 없는 증류 목표를 사용한다.
- 메모리 버퍼에 여러 메시지를 모아 수신자마다 단일의 경계된 vision-span 교란을 디코딩한다.

실험 결과
연구 질문
- RQ1백본을 미세조정하지 않고도 이질적 MAS가 모델-agnostic 시각 토큰 채널을 통해 효과적으로 소통할 수 있는가?
- RQ2허브-스포크 선형 매핑으로 보편 잠재 공간으로 풀링하는 것이 충실도를 유지하면서 쌍별 어댑터를 O(N^2)에서 O(N)으로 감소시키는가?
- RQ3레이블이 없는 증류 목표가 고속 시각 커뮤니케이션을 견고한 텍스트 기반 추론과 정렬하기에 충분한가?
- RQ4다양한 모델 계열 간 비교에서 Vision Wormhole과 텍스트 기반 MAS의 엔드투엔드 속도 증가 및 충실도 트레이드오프는 어떠한가?
주요 결과
- Vision Wormhole은 이질적 모델 구성에 걸쳐 텍스트 기반 MAS에 비해 엔드투엔드 실제 시간(wall-clock time)을 줄인다.
- 주요 결과에서 VW는 종종 추론 정확도를 향상시키고 상당한 속도 향상을 달성하며, 코드생성 작업에서 가장 큰 이점을 보인다(예: 주목할 만한 정확도 향상과 더 빠른 추론).
- 허브-스포크 아키텍처는 선형 확장성을 제공하며, 시스템에 새로운 모델이 합류할 때 어댑터의 제곱 증가를 피한다.
- 제한된 데이터로 학습된 경량 코덱(약 0.05B 파라미터)은 백본 학습 없이도 여러 모델 계통에 걸쳐 일반화할 수 있다.
- 100개 미만의 앵커 텍스트를 사용하는 약한 지도 학습 변형도 여전히 의미 있는 속도 향상과 정확도 이득을 제공한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.