[論文レビュー] StructGPT: A General Framework for Large Language Model to Reason over Structured Data
StructGPT は Iterative Reading-then-Reasoning (IRR) フレームワークを導入し、専門的なインターフェースを用いて構造化データ(知識グラフ、表、データベース)を読み取り、収集した証拠上で LLM が推論できるようにすることで、構造化データ上のゼロショットおよび数ショット QA を改善します。
In this paper, we study how to improve the zero-shot reasoning ability of large language models~(LLMs) over structured data in a unified way. Inspired by the study on tool augmentation for LLMs, we develop an \emph{Iterative Reading-then-Reasoning~(IRR)} approach for solving question answering tasks based on structured data, called extbf{StructGPT}. In our approach, we construct the specialized function to collect relevant evidence from structured data (\ie \emph{reading}), and let LLMs concentrate the reasoning task based on the collected information (\ie \emph{reasoning}). Specially, we propose an \emph{invoking-linearization-generation} procedure to support LLMs in reasoning on the structured data with the help of the external interfaces. By iterating this procedures with provided interfaces, our approach can gradually approach the target answer to a given query. Extensive experiments conducted on three types of structured data demonstrate the effectiveness of our approach, which can significantly boost the performance of ChatGPT and achieve comparable performance against the full-data supervised-tuning baselines. Our codes and data are publicly available at~\url{https://github.com/RUCAIBox/StructGPT}.
研究の動機と目的
- タスク特異的なファインチューニングを行わずに、LLM の構造化データに対する推論力を改善する動機づけ。
- KG、表、DB データのための統一的なインターフェース拡張 IRR フレームワーク(StructGPT)の提案。
- 構造化データを読むためのタスク特異的インターフェースの設計と、反復的推論のための呼び出し-線形化-生成手順の設計。
提案手法
- KG、表、データベースデータのための専門的インターフェースを定義し、正確なデータアクセスとフィルタリングを可能にする。
- インターフェースを介して読み取り、抽出した証拠を線形化し、回答や SQL を生成する呼び出し-線形化-生成ループを開発する。
- 線形化された情報から証拠選択と回答生成を促すための二つのプロンプトスタイルを使用する。
- KGQA、TableQA、Text-to-SQL タスクに対して、対応するデータフローとインターフェースを用いて IRR を具現化する。
- ベースラインの LLM と比較して、ゼロショットおよび数ショットでの改善を、八つのデータセットで実証する。
実験結果
リサーチクエスチョン
- RQ1LLM を用いてタスク特異的なファインチューニングなしで、統一的なフレームワーク内で構造化データに対する推論をどう行えるか?
- RQ2インターフェースベースの読み取りと反復推論を組み合わせると、KGQA、TableQA、Text-to-SQL の性能を改善できるか?
- RQ3ゼロショットおよび数ショット設定における IRR の、異なる構造化データタイプ間の利得はどの程度か?
主な発見
- StructGPT によるゼロショットおよび数ショットの IRR は、WebQSP および MetaQA データセットでの KGQA の Hits@1 を、直接の LLM 使用と比較して改善する。
- IRR は TableQA の表現精度と正確度を、Davinci-003 および ChatGPT の両方で WTQ、WikiSQL、TabFact データセットに対して一貫して向上させる。
- Text-to-SQL において、IRR は Spider 系列でより高い実行精度を示し、特に少数ショットのプロンプトで顕著。
- 3つのデータタイプ(KG、表、DB)全体で、IRR はモデル微調整なしの直接プロンプティングに対して大きな性能向上を示す。
- エラー分析は選択と推論を主要なボトルネックとして特定し、将来のプロンプトとインターフェースの改善を指針とする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。