[论文解读] Do LLMs Have Visualization Literacy? An Evaluation on Modified Visualizations to Test Generalization in Data Interpretation
本研究通过对修改过的 VLAT(可视化素养评估测试)进行带 PNG 可视化的测试,评估 GPT-4/vision 与 Gemini 是否具备可视化素养,并将其表现与人类进行比较,分析答案是否依赖于既有知识或可视化数据。结论是当前的 LLMs 在可视化素养方面落后于人类 VL,且常依赖先验知识,且因模型、可视化类型与任务而异,同时提供此类评估的 metodological 模板。
In this paper, we assess the visualization literacy of two prominent Large Language Models (LLMs): OpenAI's Generative Pretrained Transformers (GPT), the backend of ChatGPT, and Google's Gemini, previously known as Bard, to establish benchmarks for assessing their visualization capabilities. While LLMs have shown promise in generating chart descriptions, captions, and design suggestions, their potential for evaluating visualizations remains under-explored. Collecting data from humans for evaluations has been a bottleneck for visualization research in terms of both time and money, and if LLMs were able to serve, even in some limited role, as evaluators, they could be a significant resource. To investigate the feasibility of using LLMs in the visualization evaluation process, we explore the extent to which LLMs possess visualization literacy -- a crucial factor for their effective utility in the field. We conducted a series of experiments using a modified 53-item Visualization Literacy Assessment Test (VLAT) for GPT-4 and Gemini. Our findings indicate that the LLMs we explored currently fail to achieve the same levels of visualization literacy when compared to data from the general public reported in VLAT, and LLMs heavily relied on their pre-existing knowledge to answer questions instead of utilizing the information provided by the visualization when answering questions.
研究动机与目标
- 为 LLM 评估定义可视化素养并将基准与人类 VL 表现比较。
- 系统性测试 GPT-4 (vision) 和 Gemini (vision) 在带 PNG 可视化的修改版 VLAT 上的表现。
- 分析 LLM 在回答问题时是否依赖先验知识或可视化数据。
- 量化 LLM 与人类在可视化解读中的时间与成本差异。
提出的方法
- 基于修改后的 53 项 VLAT 构建测试模板,以评估 12 种可视化和 8 项任务。
- 使用带随机化数值的 PNG 可视化,防止记忆化 VLAT 训练数据;排除数据标签以强制从可视化中提取数据。
- 进行实验 1,使用GPT-4 Vision Preview 和 Gemini Pro Vision,53 个问题与每题 120 种答案选项排列的 6,360 次试验。
- 进行实验 2,在无可视化的情况下测试性能,使用 GPT-4 Turbo 和 Gemini Pro,以 isolating 对知识依赖。
- 用逻辑回归建模结果,覆盖可视化类型、任务类型、模型与可视化存在性,采用自举系数分布进行假设检验。
- 进行超参数调优与自举(1000 次重采样)以比较模型系数与概率。

实验结果
研究问题
- RQ1RQ1: LLMs 在多大程度上具备可视化素养?
- RQ2RQ2: LLMs 在解读可视化方面的局限性是什么?
- RQ3RQ3: 在解读可视化并回答相关问题时,LLMs 与人类的成本差异如何?
主要发现
- LLMs 的可视化素养未达到与普通大众在 VLAT 基线上的水平。
- GPT-4 与 Gemini 在回答问题时往往依赖其既有知识而非可视化中的信息。
- 表现因可视化类型和任务而异;某些任务与人类有部分对齐,但总体上 LLMs 落后。
- 去情境化(去除上下文)在某些情况下对 GPT-4 比 Gemini 的提升更明显。
- 成本分析表明 LLMs 的时间和金钱成本低于人类,而 Gemini 通常比 GPT-4 更具成本效益。
- 在 53 对可视化/任务中,GPT-4 正确回答 14 次,Gemini 15 次,且两者在 25 次与 24 次的问题上均超出随机概率。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。