QUICK REVIEW

[논문 리뷰] Data Interpreter: An LLM Agent For Data Science

Sirui Hong, Yizhang Lin|arXiv (Cornell University)|2024. 02. 28.

Semantic Web and Ontologies인용 수 11

한 줄 요약

Data Interpreter는 LLM 기반 에이전트로, 데이터 사이언스 워크플로를 계층 그래프로 모델링하고 프로그래머블 노드 생성을 통해 엔드 투 엔드의 동적 작업 해결을 가능하게 하며, 다수 벤치마크에서 성능 향상을 보입니다.

ABSTRACT

Large Language Model (LLM)-based agents have shown effectiveness across many applications. However, their use in data science scenarios requiring solving long-term interconnected tasks, dynamic data adjustments and domain expertise remains challenging. Previous approaches primarily focus on individual tasks, making it difficult to assess the complete data science workflow. Moreover, they struggle to handle real-time changes in intermediate data and fail to adapt dynamically to evolving task dependencies inherent to data science problems. In this paper, we present Data Interpreter, an LLM-based agent designed to automatically solve various data science problems end-to-end. Our Data Interpreter incorporates two key modules: 1) Hierarchical Graph Modeling, which breaks down complex problems into manageable subproblems, enabling dynamic node generation and graph optimization; and 2) Programmable Node Generation, a technique that refines and verifies each subproblem to iteratively improve code generation results and robustness. Extensive experiments consistently demonstrate the superiority of Data Interpreter. On InfiAgent-DABench, it achieves a 25% performance boost, raising accuracy from 75.9% to 94.9%. For machine learning and open-ended tasks, it improves performance from 88% to 95%, and from 60% to 97%, respectively. Moreover, on the MATH dataset, Data Interpreter achieves remarkable performance with a 26% improvement compared to state-of-the-art baselines. The code is available at https://github.com/geekan/MetaGPT.

연구 동기 및 목표

장기적이고 상호 의존적인 작업을 관리하기 위해 데이터 사이언스 워크플로를 계층 그래프 모델로 재구성한다.
실시간으로 하위 문제와 코드를 정제하고 검증하기 위한 프로그래머블 노드 생성 메커니즘을 개발한다.
데이터와 작업 변경에 적응하기 위해 동적 작업 그래프 최적화 및 반복 실행을 가능하게 한다.
다양한 벤치마크에 걸쳐 엔드-투-엔드 데이터 사이언스 문제 해결을 시연한다.
데이터 분석 및 ML 작업에서 기존 오픈 소스 프레임워크 대비 안정성과 성능 향상을 보인다.

제안 방법

데이터 사이언스 문제를 DAG로 표현하되 노드는 하위 프로세스이고 엣지는 의존성을 포착한다.
프로젝트 요구사항으로부터 작업 수준 그래프를 생성하는 작업 그래프 생성기를 사용한다.
작업을 도구를 통합할 수 있는 실행 가능한 코드 조각으로 변환하는 액션 그래프 생성기를 사용한다.
런타임 피드백에 따라 정제하기 위해 반영을 갖춘 상태 유지 그래프 실행기를 사용하여 액션 그래프를 실행하고 디버깅한다.
작업 그래프(IGR)를 반복적으로 정제하고 프로그래머블 노드 생성(PNG)을 활용하여 강건성과 적응성을 향상시킨다.
작업 메타데이터를 기반으로 도구를 순위 매기고 선택하여 맥락 인식 실행을 위해 생성된 코드에 통합한다.

실험 결과

연구 질문

RQ1데이터 사이언스 워크플로우를 어떻게 효과적으로 계층 그래프로 분해하여 의존성을 포착하고 동적 계획을 가능하게 할 수 있는가?
RQ2계층 그래프 접근 방식이 정적 또는 단일 작업 LLM 시스템과 비교하여 엔드-투-엔드 성능을 데이터 사이언스 벤치마크에서 향상시키는가?
RQ3반복적 그래프 정제(IGR)가 작업 성공률과 효율성에 미치는 영향은 무엇인가?
RQ4프로그래머블 노드 생성(PNG)이 생성된 데이터사이언스 코드의 강건성과 정확도에 어떤 영향을 미치는가?
RQ5다양한 데이터 사이언스 작업에서 동적 도구 선택 및 통합이 작업 결과에 어떤 영향을 미치는가?

주요 결과

Data Interpreter는 InfiAgent-DABench에서 25%의 성능 향상을 달성했습니다(정확도 75.9%에서 94.9%로 증가).
MATH 데이터셋에서 이 방법은 최첨단 기준선 대비 26% 향상을 보였습니다.
ML-Benchmark 작업 전반에서 Data Interpreter는 0.95(종합 점수)를 기록했고 여러 작업에서 다수의 기준선을 능가했습니다.
자유형 작업 벤치마크는 높은 완료율을 보였고 Data Interpreter는 평균 0.97 완료를 달성했습니다.
소거 연구는 반복적 그래프 정제 및 프로그래머블 노드 생성이 성능을 상당히 향상시킴을 보여주었습니다(PNG/IGR로 0.96–0.95 종합 점수).
더 긴 컨텍스트의 LLM들(예: gpt-4o)을 사용하면 이득이 확대되어 Data Interpreter가 다중 단계 추론 시나리오에서 직접 LLM 추론을 능가했습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.