[論文レビュー] Replacing Multi-Step Assembly of Data Preparation Pipelines with One-Step LLM Pipeline Generation for Table QA
要約: 本論文は Operation-R1 を提案し、軽量LLMを訓練してデータ準備パイプラインをテーブルQAのために単一推論ステップで生成する枠組みを、自己教師あり報酬と堅牢性メカニズムを用いたRLVRで実現する。
Table Question Answering (TQA) aims to answer natural language questions over structured tables. Large Language Models (LLMs) enable promising solutions to this problem, with operator-centric solutions that generate table manipulation pipelines in a multi-step manner offering state-of-the-art performance. However, these solutions rely on multiple LLM calls, resulting in prohibitive latencies and computational costs. We propose Operation-R1, the first framework that trains lightweight LLMs (e.g., Qwen-4B/1.7B) via a novel variant of reinforcement learning with verifiable rewards to produce high-quality data-preparation pipelines for TQA in a single inference step. To train such an LLM, we first introduce a self-supervised rewarding mechanism to automatically obtain fine-grained pipeline-wise supervision signals for LLM training. We also propose variance-aware group resampling to mitigate training instability. To further enhance robustness of pipeline generation, we develop two complementary mechanisms: operation merge, which filters spurious operations through multi-candidate consensus, and adaptive rollback, which offers runtime protection against information loss in data transformation. Experiments on two benchmark datasets show that, with the same LLM backbone, Operation-R1 achieves average absolute accuracy gains of 9.55 and 6.08 percentage points over multi-step preparation baselines, with 79\% table compression and a 2.2$\times$ reduction in monetary cost.
研究の動機と目的
- テーブルQAにおける多段階で遅延を生むデータ準備パイプラインを、単一推論LLMソリューションへ置換する必要性を動機づける。
- 各質問–テーブルペアに適した効果的なデータ準備パイプラインを生成できる軽量LLM訓練フレームワークを開発する。
- パイプライン生成器を訓練するための検証可能で細粒度の監督と安定性メカニズムを提案する。
- 前処理中の頑健性を確保するため、コンセンサスと適応的ロールバック機構を導入する。
提案手法
- データ準備をQA志向のパイプライン生成問題として frame する。
- 検証可能報酬付きRL(RLVR)とORPO(Operation-wise Group Relative Policy Optimization)を用いて軽量LLMsを訓練する。
- 各操作に対して細粒度のフィードバックを提供する自己教師付きのセル中心QA報酬を導入する。
- 細粒度報酬で訓練を安定化させる分散認識リサンプリングを適用する。
- 複数の候補パイプラインをエンサンブルするために、操作Trieと投票によるOperation Mergeを実装する。
- オンライン推論では複数のパイプラインを生成し、最も支持を受けたものを投票で選択して、構造化および意味的演算子を適切に実行する。
- 必要に応じて早期のテーブル状態に遡るAdaptive Rollbackを導入し、情報喪失から回復する。
実験結果
リサーチクエスチョン
- RQ1軽量LLMを訓練して、TQAのデータ準備パイプラインを単一推論ステップで高品質に生成できるか。
- RQ2 ground-truthパイプラインなしに、パイプライン生成の信頼性が高く、細粒度で低コストの監督信号を提供する方法は。
- RQ3多様なQAシナリオで1ステップのパイプライン生成の頑健性と安定性を高める Mechanisms は。
- RQ4提案されたパイプライン生成は、多段基準と比較してテーブルサイズと計算コストを削減しつつQA精度を改善するか。
主な発見
- Operation-R1は、WikiTQ上で非前処理ベースラインに対して平均絶対精度が9.62ポイント、TabFactでは6.05ポイントの改善を達成。
- 平均してテーブルサイズを79%削減。
- Operation-R1はわずか1回の軽量モデル推論のみを必要とし、金銭コストを約2.2倍削減。
- ベンチマーク全体で、Operation-R1はOperation MergeとAdaptive Rollbackを介して堅牢性を維持しつつTQAの有効性を向上。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。