Skip to main content
QUICK REVIEW

[論文レビュー] MultiVis-Agent: A Multi-Agent Framework with Logic Rules for Reliable and Comprehensive Cross-Modal Data Visualization

Jinwei Lu, Yuanfeng Song|arXiv (Cornell University)|Jan 26, 2026
Data Visualization and Analytics被引用数 0
ひとこと要約

MultiVis-Agentは、4つのシナリオにわたる信頼性の高いクロスモーダルビジュアライゼーション生成のための論理規則強化型マルチエージェントフレームワークを導入。ベンチマークとベースラインを上回る強力な実証的利得。

ABSTRACT

Real-world visualization tasks involve complex, multi-modal requirements that extend beyond simple text-to-chart generation, requiring reference images, code examples, and iterative refinement. Current systems exhibit fundamental limitations: single-modality input, one-shot generation, and rigid workflows. While LLM-based approaches show potential for these complex requirements, they introduce reliability challenges including catastrophic failures and infinite loop susceptibility. To address this gap, we propose MultiVis-Agent, a logic rule-enhanced multi-agent framework for reliable multi-modal and multi-scenario visualization generation. Our approach introduces a four-layer logic rule framework that provides mathematical guarantees for system reliability while maintaining flexibility. Unlike traditional rule-based systems, our logic rules are mathematical constraints that guide LLM reasoning rather than replacing it. We formalize the MultiVis task spanning four scenarios from basic generation to iterative refinement, and develop MultiVis-Bench, a benchmark with over 1,000 cases for multi-modal visualization evaluation. Extensive experiments demonstrate that our approach achieves 75.63% visualization score on challenging tasks, significantly outperforming baselines (57.54-62.79%), with task completion rates of 99.58% and code execution success rates of 94.56% (vs. 74.48% and 65.10% without logic rules), successfully addressing both complexity and reliability challenges in automated visualization generation.

研究の動機と目的

  • テキストから視覚情報への変換を、テキスト・画像・コードといったマルチモーダル入力へ拡張し、現実のワークフローを反映した反復的改良を実現する。
  • LLM主導の可視化の信頼性を、形式的論理制約と中央コーディネータで保証する。
  • 4つの可視化シナリオを正式化し、実行可能なPythonコードを含むベンチマーク(MultiVis-Bench)を公開する。
  • ベースラインに対して、可視化品質・タスク完了・コード実行成功の実証的な大幅な利得を実証する。

提案手法

  • LLMの推論を置換せず指針づける4層の論理規則フレームワーク(CR・TE・EH・RC)を提案する。
  • データベース&クエリ、可視化実装、検証&評価エージェントを統括する中央コーディネータエージェントを実装する。
  • 4つのMultiVisシナリオ(基本生成、画像参照生成、コード参照生成、反復的改良)を正式化し、127種類のチャートタイプと141データベースを含む1,202ケースのMultiVis-Benchを構築する。
  • パラメータの安全性、エラー回復、終了を形式的定理で保証する。
  • ベンチマークを用いて評価し、可視化スコア・タスク完了・コード実行成功の改善を報告する。
Figure 1 . Real-world visualization tasks require multi-modal inputs and iterative refinement. Current Text-to-Vis systems fail to support these scenarios.
Figure 1 . Real-world visualization tasks require multi-modal inputs and iterative refinement. Current Text-to-Vis systems fail to support these scenarios.

実験結果

リサーチクエスチョン

  • RQ1論理規則をもつマルチエージェントフレームワークは、マルチモード可視化生成の信頼性と品質をどのように向上させるのか。
  • RQ2現実的な可視化タスクに必要な補助入力(画像、コード)と反復的改良ワークフローは何か。
  • RQ3形式的論理制約は、LLM主導の可視化パイプラインの安全性・終了性・回復性を保証できるのか。
  • RQ44つの定義されたMultiVisシナリオにおけるMultiVis-Agentは、ベースラインと比較してどうなるのか。
  • RQ54層の論理規則フレームワークは、完了率と実行成功率にどのような影響を与えるのか。

主な発見

  • 難易度の高い画像参照生成タスクにおいて、MultiVis-Agentは可視化スコア75.63%を達成。
  • 同じタスクでベースラインはLLMワークフローで62.79%、Instructing LLMで57.54%。
  • MultiVis-Agentでタスク完了率は99.58%に達する。
  • コード実行成功率は94.56%で、論理規則なしのベースラインの74.48%および65.10%を上回る。
  • 論理規則は、タスク全体で17.58〜31.70ポイントの改善に寄与する。
  • 論理規則を備えたMultiVis-Agentは、同じフレームワークでも論理規則なしを上回り、完了と正確性の両指標で優れる。
Figure 3 . An example for the working process of MultiVis-Agent.
Figure 3 . An example for the working process of MultiVis-Agent.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。