[論文レビュー] The Vision Wormhole: Latent-Space Communication in Heterogeneous Multi-Agent Systems
Vision Wormholeは、Vision-Language Modelsの視覚エンコーダを普遍的なポートとして用いるテキストなしの潜在的な通信チャネルを導入し、異種エージェントを接続、モデルに依存しない、スケーラブルで高帯域の交換を、軽量コーデックと線形(O(N))スケーラビリティで実現します。
Multi-Agent Systems (MAS) powered by Large Language Models have unlocked advanced collaborative reasoning, yet they remain shackled by the inefficiency of discrete text communication, which imposes significant runtime overhead and information quantization loss. While latent state transfer offers a high-bandwidth alternative, existing approaches either assume homogeneous sender-receiver architectures or rely on pair-specific learned translators, limiting scalability and modularity across diverse model families with disjoint manifolds. In this work, we propose the Vision Wormhole, a novel framework that repurposes the visual interface of Vision-Language Models (VLMs) to enable model-agnostic, text-free communication. By introducing a Universal Visual Codec, we map heterogeneous reasoning traces into a shared continuous latent space and inject them directly into the receiver's visual pathway, effectively treating the vision encoder as a universal port for inter-agent telepathy. Our framework adopts a hub-and-spoke topology to reduce pairwise alignment complexity from O(N^2) to O(N) and leverages a label-free, teacher-student distillation objective to align the high-speed visual channel with the robust reasoning patterns of the text pathway. Extensive experiments across heterogeneous model families (e.g., Qwen-VL, Gemma) demonstrate that the Vision Wormhole reduces end-to-end wall-clock time in controlled comparisons while maintaining reasoning fidelity comparable to standard text-based MAS. Code is available at https://github.com/xz-liu/heterogeneous-latent-mas
研究の動機と目的
- 異種マルチエージェントシステム(MAS)における文字ベースの通信を使わないクロスモデルの動機付けと実現。
- VLMの視覚インターフェースを活用して潜在的翻訳機のオフマンフォールドとスケーラビリティの課題を克服。
- ペア間の翻訳機の数を二次から線形の複雑さに削減するための普遍潜在空間とハブ・アンド・スポーク整合性を提案。
- ラベル不要の蒸留ベースの学習目標を開発し、視覚チャネルとテキストベースの推論を整合。
- 多様なモデルファミリーに渡る速度と推論忠実度の現実的な改善を実証。
提案手法
- Vision Wormholeフレームワークを導入し、潜在メッセージをVLMの視覚トークン範囲に注入。
- 潜在ロールアウトを固定サイズの普遍トークン集合へ写像する軽量なエージェント別コーデックを訓練。
- 受信側の画像トークン範囲をゲート付き注入で撹乱する普遍→視覚デコーダを使用。
- ハブ・アンド・スポークのアフィンマッピングを介して異種のコーデックを共有のUniversal Space Uへ整合させ、O(N)スケーラビリティを実現。
- テキストベースの教師が人間の注釈なしに視覚ベースの学生を導くラベル不要の蒸留目標を適用。
- 複数のメッセージをメモリバッファに集約し、各受信者に対して単一の制限された視覚スパン撹乱をデコード。

実験結果
リサーチクエスチョン
- RQ1モデルを微調整せずに、異種MASはモデル非依存の視覚トークンチャネルを介して効果的に通信できるか。
- RQ2ハブ・アンド・スポークのアフィン写像を用いた普遍潜在空間へのプーリングは、 fidelityを維持しつつペアワイズアダプタをO(N^2)からO(N)に削減できるか。
- RQ3ラベル不要の蒸留目標は高速な視覚通信と堅牢なテキストベースの推論を整合できるか。
- RQ4Vision WormholeをテキストベースのMASと比較した場合、エンドツーエンドのスピードアップと忠実度のトレードオフは多様なモデルファミリー間でどうなるか。
主な発見
- Vision Wormholeは異種モデル構成におけるテキストベースのMASと比較してエンドツーエンドの実測時間を短縮する。
- 主要な結果では、VWは推論精度を向上させ、顕著なスピードアップを達成することが多く、コード生成タスクで最も大きな利得(精度の改善と推論の高速化が顕著)を示す。
- ハブ・アンド・スポーク構造は線形スケーラビリティを生み出し、新しいモデルがシステムに参加しても翻訳機の二次成長を回避する。
- 軽量コーデック(約0.05Bパラメータ)が限られたデータで訓練されても、バックボーン訓練なしに複数のモデルファミリーに対して一般化できる。
- 100未満のアンカーテキストを用いた弱教師付きバリアントでも意味のあるスピードアップと精度向上を達成する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。