[논문 리뷰] TabSieve: Explicit In-Table Evidence Selection for Tabular Prediction
TabSieve 은 선택-후-예측 프레임워크를 도입하여 예측하기 전에 표 안의 증거를 명시적으로 선택하고, 합성 경로로 학습되며 TAB-GRPO를 통해 강화되어 소수-shot 인-context 설정에서 분류와 회귀를 개선한다.
Tabular prediction can benefit from in-table rows as few-shot evidence, yet existing tabular models typically perform instance-wise inference and LLM-based prompting is often brittle. Models do not consistently leverage relevant rows, and noisy context can degrade performance. To address this challenge, we propose TabSieve, a select-then-predict framework that makes evidence usage explicit and auditable. Given a table and a query row, TabSieve first selects a small set of informative rows as evidence and then predicts the missing target conditioned on the selected evidence. To enable this capability, we construct TabSieve-SFT-40K by synthesizing high-quality reasoning trajectories from 331 real tables using a strong teacher model with strict filtering. Furthermore, we introduce TAB-GRPO, a reinforcement learning recipe that jointly optimizes evidence selection and prediction correctness with separate rewards, and stabilizes mixed regression and classification training via dynamic task-advantage balancing. Experiments on a held-out benchmark of 75 classification and 52 regression tables show that TabSieve consistently improves performance across shot budgets, with average gains of 2.92% on classification and 4.45% on regression over the second-best baseline. Further analysis indicates that TabSieve concentrates more attention on the selected evidence, which improves robustness to noisy context.
연구 동기 및 목표
- Robust tabular in-context learning을 보장하기 위해 증거가 명시적으로 식별되고 사용되도록 함으로써.
- 합성 증거-선택 경로에서의 감독 미세조정(SFT)과 증거 선택 및 예측의 공동 최적화를 위한 강화 학습을 결합한 2단계 학습 파이프라인 개발.
- 클래시피케이션과 회귀 작업 간의 초기 단계 최적화 불균형을 작업 이점 균형으로 다룸.
- 여러 샷 예산에서 노이즈가 있는 표 내 맥락에 대한 강건성과 선택된 증거에 대한 주의 집중을 강화함을 시연.
제안 방법
- 강력한 교사 모델을 사용한 엄격한 필터링으로 331개의 실제 표에서 추론 경로를 합성하여 TabSieve-SFT-40K를 구성.
- TabSieve-SFT-40K에서의 냉시작 SFT로 2단계 학습을 수행하고, 그 후 TAB-GRPO를 통한 증거 선택 및 예측의 공동 최적화를 위한 강화 학습을 수행.
- 분류 및 회귀 작업의 공동 최적화를 안정시키기 위해 작업 이점 균형 메커니즘을 사용.
- RL에서 증거 선택 정확도, 예측 정답성, 출력의 형식 정확성에 대한 보상을 설계.
- 0-shot 및 few-shot 설정에서 75개의 분류 표와 52개의 회귀 표의 벤치마크를 held-out에서 평가.
- 증거 행에 대한 주의 이동과 노이즈 맥락에 대한 강건성 분석.
실험 결과
연구 질문
- RQ1RQ1: 명시적 증거 선택 추적이 표 형태의 인-context 학습에서 모델의 주의를 증거 행으로 이끌 수 있는가?
- RQ2RQ2: 노이즈가 섞인 맥락에 의존하는 것이 명시적 증거 선택 흔적 하에서 모델을 적극적으로 오도하게 만들 수 있는가?
- RQ3RQ3: 명시적 증거 선택이 소 샷 체제에서 분류 및 회귀 작업 전반에 걸친 예측의 강건성과 정확성을 향상시키는가?
- RQ4RQ4: 분류와 회귀 간의 작업 이점을 균형화하는 것이 RL 중 공동 최적화에 어떤 영향을 미치는가?
- RQ5RQ5: 합성된 추론 경로가 다운스트림 강화 학습을 위한 효과적인 초기화를 제공하는가?
주요 결과
- TabSieve 는 75개의 분류 표와 52개의 회귀 표 및 다양한 샷 예산에 대해 두 번째로 좋은 기준선보다 지속적으로 개선된다.
- 분류 이득은 두 번째로 좋은 방법 대비 평균 2.92% 증가; 회귀 이득은 평균 4.45% 증가.
- 명시적 증거 선택이 증거 행에 주의를 집중시키고 노이즈 컨텍스트의 악영향을 완화한다.
- 증거 선택 제거(선택 단계) 또는 증거 보상을 제거하는 것이 성능을 감소시켜 그 가치가 확인된다.
- TAB-GRPO와 작업 이점 균형은 공동 최적화를 안정시키고, 특히 분류에서 주목할 만한 이득을 가져온다.
- TabSieve 는 제로샷 및 소-shot 설정에서 일반 LLM 및 표 형식에 특화된 LLM을 능가하며, 샷 예산이 증가해도 강건함을 유지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.