[논문 리뷰] Replacing Multi-Step Assembly of Data Preparation Pipelines with One-Step LLM Pipeline Generation for Table QA
논문은 단일 추론 단계에서 데이터 준비 파이프라인을 생성하도록 경량 LLM을 훈련시키는 프레임워크인 Operation-R1을 소개합니다. 이는 self-supervised 보상과 강건성 메커니즘을 갖춘 RLVR을 사용하여 표 QA를 위한 파이프라인을 생성합니다.
Table Question Answering (TQA) aims to answer natural language questions over structured tables. Large Language Models (LLMs) enable promising solutions to this problem, with operator-centric solutions that generate table manipulation pipelines in a multi-step manner offering state-of-the-art performance. However, these solutions rely on multiple LLM calls, resulting in prohibitive latencies and computational costs. We propose Operation-R1, the first framework that trains lightweight LLMs (e.g., Qwen-4B/1.7B) via a novel variant of reinforcement learning with verifiable rewards to produce high-quality data-preparation pipelines for TQA in a single inference step. To train such an LLM, we first introduce a self-supervised rewarding mechanism to automatically obtain fine-grained pipeline-wise supervision signals for LLM training. We also propose variance-aware group resampling to mitigate training instability. To further enhance robustness of pipeline generation, we develop two complementary mechanisms: operation merge, which filters spurious operations through multi-candidate consensus, and adaptive rollback, which offers runtime protection against information loss in data transformation. Experiments on two benchmark datasets show that, with the same LLM backbone, Operation-R1 achieves average absolute accuracy gains of 9.55 and 6.08 percentage points over multi-step preparation baselines, with 79\% table compression and a 2.2$ imes$ reduction in monetary cost.
연구 동기 및 목표
- 다단계의 대기 지연이 큰 데이터 준비 파이프라인을 표 QA에서 단일 추론 LLM 솔루션으로 대체해야 함을 제시한다.
- 각 질문-표 쌍에 맞춘 효과적인 데이터 준비 파이프라인을 생성할 수 있는 경량 LLM 훈련 프레임워크를 개발한다.
- 파이프라인 생성기를 훈련시키기 위한 검증 가능한 세밀한 감독 신호와 안정성 메커니즘을 제안한다.
- 합의 및 적응형 롤백 메커니즘을 통한 전처리의 강건성을 보장한다.
제안 방법
- 데이터 준비를 QA 지향 파이프라인 생성 문제로 프레이밍한다.
- 가벼운 LLM을 훈련시키기 위해 Verifiable Rewards(RLVR)와 ORPO(Operation-wise Group Relative Policy Optimization)를 사용한다.
- 각 작업에 대한 세밀한 피드백을 제공하기 위해 셀 중심의 QA 보상을 도입하는 자기지도(self-supervised) 방법을 도입한다.
- 세밀한 보상으로 학습을 안정시키기 위해 분산 인지 그룹 재샘플링을 적용한다.
- 작업 트라이(연산 트라이)와 투표를 통해 여러 후보 파이프라인을 에너스트리(앙상블)하는 Operation Merge를 구현한다.
- 온라인 추론에서 여러 파이프라인을 생성한 뒤 투표로 가장 많이 지지된 것을 선택하고 구조적 및 의미적 연산자를 그에 따라 실행한다.
- 필요 시 이전 표 상태로 되돌려 정보 손실로부터 회복하기 위한 Adaptive Rollback을 도입한다.
실험 결과
연구 질문
- RQ1단일 추론 단계에서 경량 LLM을 훈련시켜 TQA를 위한 고품질 데이터 준비 파이프라인을 생성할 수 있는가?
- RQ2ground-truth 파이프라인 없이도 파이프라인 생성을 위한 신뢰할 수 있고 세밀하며 저비용의 감독 신호를 어떻게 제공할 수 있는가?
- RQ3다양한 QA 시나리오에서 원샷 파이프라인 생성의 강건성과 안정성을 향상시키는 메커니즘은 무엇인가?
- RQ4제안된 파이프라인 생성이 다단계 베이스라인 대비 표 크기와 계산 비용을 줄이면서 TQA 정확도를 향상시키는가?
주요 결과
- Operation-R1은 WikiTQ에서 비전처리 대조군 대비 평균 절대 정확도 증가를 9.62% 포인트, TabFact에서 6.05% 포인트 달성한다.
- 평균적으로 이 접근 방식은 표 크기를 79% 감소시킨다.
- Operation-R1은 단일 경량 모델 추론만을 필요로 하여 비용을 약 2.2배 절감한다.
- 벤치마크 전반에 걸쳐 Operation-R1은 Operation Merge 및 Adaptive Rollback를 통해 강건성을 유지하면서 TQA 효과를 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.