[논문 리뷰] SEED: Domain-Specific Data Curation With Large Language Models
SEED는 코드, 소형 모델, 데이터 접근 모듈을 조합하여 도메인 특화 데이터 큐레이션 파이프라인을 자동으로 생성하는 LLM-컴파일러 시스템으로, LLM 사용을 줄이면서 성능을 향상시킨다.
Data curation tasks that prepare data for analytics are critical for turning data into actionable insights. However, due to the diverse requirements of applications in different domains, generic off-the-shelf tools are typically insufficient. As a result, data scientists often have to develop domain-specific solutions tailored to both the dataset and the task, e.g. writing domain-specific code or training machine learning models on a sufficient number of annotated examples. This process is notoriously difficult and time-consuming. We present SEED, an LLM-as-compiler approach that automatically generates domain-specific data curation solutions via Large Language Models (LLMs). Once the user describes a task, input data, and expected output, the SEED compiler produces a hybrid pipeline that combines LLM querying with more cost-effective alternatives, such as vector-based caching, LLM-generated code, and small models trained on LLM-annotated data. SEED features an optimizer that automatically selects from the four LLM-assisted modules and forms a hybrid execution pipeline that best fits the task at hand. To validate this new, revolutionary approach, we conducted experiments on $9$ datasets spanning over $5$ data curation tasks. In comparison to solutions that use the LLM on every data record, SEED achieves state-of-the-art or comparable few-shot performance, while significantly reducing the number of LLM calls.
연구 동기 및 목표
- 맞춤 솔루션의 즉석 자동 생성을 통해 도메인 특화 데이터 큐레이션의 시간과 비용 감소를 촉진한다.
- 코드, 소형 모델, 데이터 접근 모듈을 결합한 실행 가능한 파이프라인을 생성하는 LLM 기반 컴파일러를 개발한다.
- 대부분의 레코드를 처리하는 모듈을 조정하고 어려운 경우에만 선택적으로 LLM을 호출하여 레코드당 LLM 의존도를 줄인다.
- 다양한 큐레이션 작업에 맞춘 모듈 선택 및 계획 생성을 위해 도메인 지식과 선택적 도구를 활용한다.
제안 방법
- SEED는 두 단계 컴파일을 사용한다: (a) 사용자 구성에서 데이터 큐레이션 계획을 생성하고, (b) 모듈을 구성하고 실행 가능한 파이프라인을 조립한다.
- 모듈은 코드, 소형 모델, 데이터 접근 인터페이스를 포함한다; 필요에 따라 모듈이 개별 레코드에 대해 직접 LLM을 호출할 수 있다.
- 코드 생성을 LLM 어드바이저, LLM 코드 생성기, 검증기를 사용한 조언 및 검증으로 수행하여 반복적 정제를 가능하게 한다.
- 코드 앙상블은 다양한 조언과 테스트 사례에 분기하는 진화 알고리즘을 통해 복잡한 로직을 다루도록 진화된다.
- 모델 생성을 LLM을 주석자로 사용하여 소형 모델을 만든다. 고정 임베딩 기반 검색을 포함하여 유사한 인스턴스를 재사용하고 LLM 응답으로부터 증류한다.
- 데이터 접근 모듈은 데이터베이스로부터 효율적으로 검색을 가능하게 하며 다른 모듈이 LLM 추론을 돕는 도구로 사용할 수 있다.

실험 결과
연구 질문
- RQ1SEED가 작업 설명과 데이터셋으로부터 수동 코딩이나 광범위한 표지 라벨링 없이도 도메인 특화 데이터 큐레이션 솔루션을 자동으로 컴파일할 수 있는가?
- RQ2여러 작업에 걸쳐 생성된 도메인 특화 모듈(코드, 소형 모델, 데이터 접근)이 일반적 접근 방식과 수동으로 큐레이션된 기본선 대비 얼마나 효과적인가?
- RQ3정확도를 유지하면서 LLM 사용을 가장 잘 줄이는 전략은 무엇인가(코드 앙상블, 데이터 접근, 고정 모델)?
- RQ4두 단계 SEED 파이프라인이 작업 및 데이터 특성(데이터 정리, 추출, 주석, 엔터티 해석, 발견)에 모듈 구성을 어떻게 적응시키는가?
주요 결과
- SEED가 생산한 도메인 특화 솔루션은 9개 데이터셋의 5개 데이터 큐레이션 작업에서 일반적 대응보다 크게 우수하다.
- SEED는 종종 수천 개의 레이블이 달린 예제를 사용하는 수동으로 큐레이션된 솔루션의 성능에 근접한다.
- 모든 레코드에 LLM을 호출하는 접근 방식과 비교해, SEED는 훨씬 적은 LLM 호출로 최첨단 또는 비슷한 소수샷 성능을 달성한다.
- 코드 생성을 조언 및 검증 루프와 코드 앙상블 진화를 활용하여 복잡한 로직을 견고하게 처리한다.
- LLM 주석에서 생성된 소형 모델은 비싼 LLM 추론에 대한 의존도를 줄인다.
- 쿼리 배치와 반복 도구 호출이 가능한 데이터 접근 모듈은 비용을 크게 낮추면서 정확도를 높인다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.