[论文解读] Visualization Generation with Large Language Models: An Evaluation
GPT-3.5 与 Vega-Lite 在 nvBench 上显示出强劲的 NL2VIS 演示性能,少样本提示在零样本提示之上并超过了此前的 NL2VIS 方法。
The frequent need for analysts to create visualizations to derive insights from data has driven extensive research into the generation of natural Language to Visualization (NL2VIS). While recent progress in large language models (LLMs) suggests their potential to effectively support NL2VIS tasks, existing studies lack a systematic investigation into the performance of different LLMs under various prompt strategies. This paper addresses this gap and contributes a crucial baseline evaluation of LLMs' capabilities in generating visualization specifications of NL2VIS tasks. Our evaluation utilizes the nvBench dataset, employing six representative LLMs and eight distinct prompt strategies to evaluate their performance in generating six target chart types using the Vega-Lite visualization specification. We assess model performance with multiple metrics, including vis accuracy, validity and legality. Our results reveal substantial performance disparities across prompt strategies, chart types, and LLMs. Furthermore, based on the evaluation results, we uncover several counterintuitive behaviors across these dimensions, and propose directions for enhancing the NL2VIS benchmark to better support future NL2VIS research.
研究动机与目标
- 评估大型语言模型从自然语言查询(NL2VIS)生成 Vega-Lite 可视化的能力。
- 评估零样本提示与少样本提示策略对 NL2VIS 性能的影响。
- 识别模型输出和基准测试中的局限性,以指导未来的 NL2VIS 研究与评估。
提出的方法
- 以 GPT-3.5 作为代表性的 LLM 生成 Vega-Lite 规范。
- 将 Vega-Lite 规范以 Vega-Lite 语法表示为目标输出。
- 使用 nvBench 作为 NL2VIS 基准数据集。
- 设计并比较零样本与少样本提示策略。
- 在零样本提示中,引入受真值启发的规则以减少常见错误。
- 在少样本提示中,提供与图表类型相匹配的示例以指导生成。
实验结果
研究问题
- RQ1GPT-3.5 在从自然语言查询生成正确的 Vega-Lite 规范方面有多大能力?
- RQ2少样本提示是否比零样本提示在 Vega-Lite 生成中获得更高的 NL2VIS 准确率?
- RQ3GPT-3.5 的 NL2VIS 输出的主要错误源有哪些,它们与 Vega-Lite 语法及数据属性理解之间有何关系?
- RQ4对 NVBench 基准的哪些改进可以提高 NL2VIS 评估?
主要发现
- GPT-3.5 在 nvBench 上展示出强劲的 Vega-Lite 生成能力,优于以往的 NL2VIS 方法。
- 少样本提示在 Vega-Lite 的 NL2VIS 中比零样本提示获得更高的准确性。
- GPT-3.5 仍然存在 Vega-Lite 语法错误,有时对数据属性的理解也会产生偏差,影响正确性。
- 识别出若干基准问题:一些真值可视化与任务描述并不完全一致或存在歧义,影响评估。
- 关于 Vega-Lite 转换的某些问题(例如排序的使用)揭示了基于规则的提示指导和语法遵循的局限性。
- 对真值和基准的模糊性被指出为未来改进的方向。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。