[論文レビュー] Visualization Generation with Large Language Models: An Evaluation
Vega-Lite を用いた GPT-3.5 は nvBench における NL2VIS の性能が高く、few-shot プロンプトは zero-shot プロンプトを上回り、従来の NL2VIS アプローチを上回る。
The frequent need for analysts to create visualizations to derive insights from data has driven extensive research into the generation of natural Language to Visualization (NL2VIS). While recent progress in large language models (LLMs) suggests their potential to effectively support NL2VIS tasks, existing studies lack a systematic investigation into the performance of different LLMs under various prompt strategies. This paper addresses this gap and contributes a crucial baseline evaluation of LLMs' capabilities in generating visualization specifications of NL2VIS tasks. Our evaluation utilizes the nvBench dataset, employing six representative LLMs and eight distinct prompt strategies to evaluate their performance in generating six target chart types using the Vega-Lite visualization specification. We assess model performance with multiple metrics, including vis accuracy, validity and legality. Our results reveal substantial performance disparities across prompt strategies, chart types, and LLMs. Furthermore, based on the evaluation results, we uncover several counterintuitive behaviors across these dimensions, and propose directions for enhancing the NL2VIS benchmark to better support future NL2VIS research.
研究の動機と目的
- 大規模言語モデルが自然言語クエリから Vega-Lite のビジュアライゼーションを生成する能力(NL2VIS)を評価する。
- NL2VIS の性能に対する zero-shot と few-shot プロンプト戦略の影響を評価する。
- モデル出力とベンチマークの制限を特定し、今後の NL2VIS 研究と評価を guide する。
提案手法
- GPT-3.5 を代表的な LLM として使用し、Vega-Lite の仕様を生成する。
- Vega-Lite の仕様をターゲット出力として Vega-Lite 文法で表現する。
- nvBench を NL2VIS のベンチマークデータセットとして使用する。
- zero-shot および few-shot プロンプト戦略を設計・比較する。
- zero-shot プロンプトでは、一般的な誤りを減らすために ground-truth 由来のルールを導入する。
- few-shot プロンプトでは、チャート型に合わせた例を提示して生成を誘導する。
実験結果
リサーチクエスチョン
- RQ1自然言語クエリから正しい Vega-Lite 仕様を生成する能力は GPT-3.5 にどの程度あるか?
- RQ2Vega-Lite の生成において few-shot プロンプトは zero-shot プロンプトより NL2VIS の精度を高めるか?
- RQ3GPT-3.5 NL2VIS 出力における主な誤りは何か、それらは Vega-Lite 文法とデータ属性の理解にどう関連しているか?
- RQ4NL2VIS の評価を改善するための NVBench ベンチマークの refinements とは何か?
主な発見
- GPT-3.5 は nvBench における Vega-Lite 生成性能が高く、従来の NL2VIS アプローチを上回る。
- few-shot プロンプトは Vega-Lite の NL2VIS において zero-shot プロンプトより高い精度を示す。
- GPT-3.5 は依然として Vega-Lite 文法エラーを起こし、データ属性の解釈を誤ることがあり、正確さに影響を与える。
- いくつかのベンチマークの問題が特定された:いくつかの ground-truth ビジュアルはタスク記述と完全には一致せず、曖昧さを含むため評価に影響する。
- Vega-Lite の変換(例:ソートの使用)に関する特定の問題は、ルールベースのプロンプト指導と文法順守の限界を明らかにしている。
- ground-truth およびベンチマークの曖昧さが今後の改善の方向性として強調されている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。