[논문 리뷰] Do LLMs Have Visualization Literacy? An Evaluation on Modified Visualizations to Test Generalization in Data Interpretation
이 논문은 GPT-4/비전(GPT-4/vision)과 Gemini가 PNG 시각화를 이용한 수정된 VLAT(Visualization Literacy Assessment Test)에서 시각화 이해력을 보유하는지 평가하고, 인간과의 비교, 정답이 사전에 축적된 지식에 의존하는지 아니면 시각 데이터에 의존하는지 분석한다. 현재 LLM은 인간의 VL에 비해 뒤처지고 종종 사전 지식에 의존하며, 모델, 시각화 유형, 과제에 따라 차이가 있으며, 이러한 평가를 위한 방법론적 템플릿을 제공한다.
In this paper, we assess the visualization literacy of two prominent Large Language Models (LLMs): OpenAI's Generative Pretrained Transformers (GPT), the backend of ChatGPT, and Google's Gemini, previously known as Bard, to establish benchmarks for assessing their visualization capabilities. While LLMs have shown promise in generating chart descriptions, captions, and design suggestions, their potential for evaluating visualizations remains under-explored. Collecting data from humans for evaluations has been a bottleneck for visualization research in terms of both time and money, and if LLMs were able to serve, even in some limited role, as evaluators, they could be a significant resource. To investigate the feasibility of using LLMs in the visualization evaluation process, we explore the extent to which LLMs possess visualization literacy -- a crucial factor for their effective utility in the field. We conducted a series of experiments using a modified 53-item Visualization Literacy Assessment Test (VLAT) for GPT-4 and Gemini. Our findings indicate that the LLMs we explored currently fail to achieve the same levels of visualization literacy when compared to data from the general public reported in VLAT, and LLMs heavily relied on their pre-existing knowledge to answer questions instead of utilizing the information provided by the visualization when answering questions.
연구 동기 및 목표
- LLM 평가를 위한 시각화 이해력 정의 및 인간 VL 성능과의 벤치마크 수립.
- PNG 시각화를 포함한 수정된 VLAT에서 GPT-4 (vision)와 Gemini (vision)를 체계적으로 테스트한다.
- 질문에 답할 때 LLM이 사전 지식에 의존하는지 아니면 시각화 데이터에 의존하는지 분석한다.
- 시각화 해석에서 LLM과 인간 평가자 간의 시간 및 비용 차이를 정량화한다.
제안 방법
- 수정된 53-item VLAT를 기반으로 12개의 시각화와 8개의 과제를 평가하는 테스트 템플릿을 개발한다.
- VLAT 학습 데이터에서 암기 방지를 위해 랜덤 값이 있는 PNG 시각화를 사용하고, 데이터 라벨을 제외하여 시각화에서 데이터를 추출하도록 한다.
- Experiment 1를 GPT-4 Vision Preview 및 Gemini Pro Vision으로 수행하여 53문항에 대해 6,360번의 시도와 각 문항당 120개의 답변 선택 순열.
- Experiment 2를 시각화 없이 GPT-4 Turbo 및 Gemini Pro를 사용하여 지식 의존도를 분리해 성능을 테스트한다.
- 시각화 유형, 과제 유형, 모델, 시각화의 유무에 걸친 로지스틱 회귀로 결과를 모델링하고, 가설 검정을 위한 부트스트랩 계수 분포를 사용한다.
- 모델 계수와 확률을 비교하기 위한 하이퍼파라미터 튜닝 및 부트스트래핑(1000 리샘플)

실험 결과
연구 질문
- RQ1RQ1: LLM이 어느 정도까지 시각화 이해력을 갖추고 있는가?
- RQ2RQ2: 시각화를 해석하는 데 있어 LLM의 한계는 무엇인가?
- RQ3RQ3: 시각화를 해석하고 관련 질문에 답하는 데 있어 LLM과 인간 간 비용 차이는 무엇인가?
주요 결과
- LLMs do not achieve visualization literacy comparable to the general public according to VLAT baselines.
- GPT-4 and Gemini often rely on their pre-existing knowledge rather than information in the visualizations when answering questions.
- Performance varies by visualization type and task; some tasks show partial alignment with humans, but overall LLMs lag behind.
- Decontextualization (removing context) tended to improve GPT-4 more than Gemini in some cases.
- Cost analysis indicates LLMs are more time- and money-efficient than humans, with Gemini generally more cost-effective than GPT-4.
- Across 53 visualization/task pairs, GPT-4 answered correctly in 14, Gemini in 15, and both exceeded random chance on 25 and 24 questions respectively.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.