QUICK REVIEW

[논문 리뷰] NL2Dashboard: A Lightweight and Controllable Framework for Generating Dashboards with LLMs

Boshen Shi, Kexin Yang|arXiv (Cornell University)|2026. 01. 04.

Data Visualization and Analytics인용 수 0

한 줄 요약

NL2Dashboard는 IR 기반의 두 단계 워크플로우(Prompt-to-IR 및 IR-to-Dashboard)와 대시보드를 생성하고 수정하는 다중 에이전트 시스템을 도입하여, 기준선 대비 더 높은 토큰 효율성과 세밀한 제어 가능성을 달성합니다.

ABSTRACT

While Large Language Models (LLMs) have demonstrated remarkable proficiency in generating standalone charts, synthesizing comprehensive dashboards remains a formidable challenge. Existing end-to-end paradigms, which typically treat dashboard generation as a direct code generation task (e.g., raw HTML), suffer from two fundamental limitations: representation redundancy due to massive tokens spent on visual rendering, and low controllability caused by the entanglement of analytical reasoning and presentation. To address these challenges, we propose NL2Dashboard, a lightweight framework grounded in the principle of Analysis-Presentation Decoupling. We introduce a structured intermediate representation (IR) that encapsulates the dashboard's content, layout, and visual elements. Therefore, it confines the LLM's role to data analysis and intent translation, while offloading visual synthesis to a deterministic rendering engine. Building upon this framework, we develop a multi-agent system in which the IR-driven algorithm is instantiated as a suite of tools. Comprehensive experiments conducted with this system demonstrate that NL2Dashboard significantly outperforms state-of-the-art baselines across diverse domains, achieving superior visual quality, significantly higher token efficiency, and precise controllability in both generation and modification tasks.

연구 동기 및 목표

LLMs로 개별 차트가 아니라 포괄적인 대시보드를 생성하는 과제를 해결한다.
구조화된 중간 표현(IR)을 사용해 데이터 분석과 시각 렌더링을 분리한다.
결정적 렌더링과 안내 프롬프트를 통해 제어 가능한 반복적 대시보드 생성 및 수정을 가능하게 한다.
대시보드를 구성하는 실행 가능한 도구를 갖춘 에이전트 시스템을 도입한다.
향상된 신뢰성과 효율성에 대한 이론적 및 실증적 검증을 제공한다.

제안 방법

대시보드 내용, 구성 및 시각화를 인코딩하는 경량의 구조화된 IR을 도입한다.
두 단계 워크플로우를 촉진한다: Prompt-to-IR(분석 및 IR 채우기) 및 IR-to-Dashboard(기본 템플릿을 이용한 결정론적 렌더링).
수정 의도를 원자적 행동(변경, 교체, 삭제, 추가)으로 번역하고 IR 업데이트 연산자를 포함하는 수정 파이프라인을 구현한다.
생성과 수정을 조정하기 위한 다중 에이전트 시스템(Planner, Coder, Critic)과 대시보드 조립 도구 키트(IRGen, DBCompile, IRModify)를 개발한다.
정보 엔트로피 분해 및 파노의 부등식(Fano’s inequality)을 바탕으로 향상된 신뢰성과 감소된 시각적 엔트로피를 정당화하는 이론적 분석을 제공한다.
도메인 전반에 걸쳐 품질, 토큰 효율성 및 제어 가능성 측면에서 NL2Dashboard를 기준선과 실증 비교한다.

실험 결과

연구 질문

RQ1다양한 도메인에서 고품질 대시보드를 생성하는 데 NL2Dashboard가 어떻게 성능을 나타내는가?
RQ2NL2Dashboard가 사용자가 지정한 수정 작업을 얼마나 충실하게 실행할 수 있는가?
RQ3생성 오버헤드 비율(GOR)로 측정했을 때 NL2Dashboard의 토큰 효율성은 종단 간 기준선과 어떻게 비교되는가?
RQ4비평가에 기반한 반복적 최적화가 대시보드 품질에 미치는 영향은 무엇이며 언제 효과가 감소하는가?

주요 결과

NL2Dashboard는 평가 지표에서 최고 품질 점수를 달성하고 상위 두 목록에 들며, 생성(task)에서 두 번째로 좋은 기준선 대비 8.4%, 수정(task)에서 7.3% 향상을 보였다.
수정 작업에서 NL2Dashboard는 모든 작업을 정확하게 완료하고 작업 난이도가 증가함에 따라 성공률에서 기준선 대비 35%~62%를 초과 달성한다.
NL2Dashboard의 토큰 효율성(GOR)은 1 미만으로 크게 나타나 코드나 스크립트를 생성하는 기준선 대비 토큰 오버헤드가 더 낮음을 시사한다.
비평가 기반 최적화가 다차원에서 대시보드 품질을 향상시키며 약 1회 정도의 최적화 후에 수익이 감소한다.
제거 연구에서 IR 기반 분리가 레이아웃 관련 실패를 줄이고 수정의 안정성을 높이며, 기준선에서 관찰된 공간 추론 및 지시 지키기 이슈를 해소한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.