Skip to main content
QUICK REVIEW

[論文レビュー] From Zero to Hero: Examining the Power of Symbolic Tasks in Instruction Tuning

Qian Liu, Fan Zhou|arXiv (Cornell University)|Apr 17, 2023
Topic Modeling被引用数 9
ひとこと要約

この論文は、指示チューニングとゼロショット一般化を高めるために、特に SQL 実行を用いた象徴的タスクを検討し、汎用性を損なうことなく卓越した表推論の利得を示す。

ABSTRACT

Fine-tuning language models on tasks with instructions has demonstrated potential in facilitating zero-shot generalization to unseen tasks. In this paper, we introduce a straightforward yet effective method for enhancing instruction tuning by employing symbolic tasks. Compared to crowdsourced human tasks or model-generated tasks, symbolic tasks present a unique advantage as they can be easily generated in vast quantities, theoretically providing an infinite supply of high-quality training instances. To explore the potential of symbolic tasks, we carry out an extensive case study on the representative symbolic task of SQL execution. Empirical results on various benchmarks validate that the integration of SQL execution leads to significant improvements in zero-shot scenarios, particularly in table reasoning. Notably, our 3B model surpasses both the 175B GPT-3 and ChatGPT in zero-shot table reasoning across four benchmarks. Furthermore, experimental results on BBH (27 tasks) and MMLU (57 tasks) reveal that language models can be enhanced through symbolic tasks without compromising their generality. We hope that our paper serves as a catalyst, inspiring increased efforts to incorporate symbolic tasks in instruction tuning.

研究の動機と目的

  • 象徴的タスクが未見タスクのゼロショット一般化を支援するかを検証する。
  • 象徴的タスクを統合した場合の表推論ベンチマークなどへの影響を評価する。
  • 象徴的タスクが汎用の保持タスクの性能に影響を与えるかを評価する。

提案手法

  • 公開テーブル上で実行可能な SQL テンプレートを具体化し、大規模な SQL 実行コーパスを合成する。
  • 象徴的タスクデータを多様な NL タスクデータと組み合わせたマルチタスクファインチューニング(FLAN-T5 のリハーサル戦略)で訓練する。
  • 訓練不要な代替案として、SQL 実行結果を指示プロンプトの一部として含める合成デモンストレーションを提案する。
  • 表推論ベンチマーク(WTQ、WikiSQL-Weak、SQA、TabFact)と非表タスク(SVAMP、BBH、MMLU)でゼロショット性能を評価する。
  • ベースラインとして FLAN-T5 系、GPT-3 モデル、TaPEx Zero を比較する。

実験結果

リサーチクエスチョン

  • RQ1RQ1: 現実的な例がなくても、方法は表推論を改善するか。
  • RQ2RQ2: 表推論以外のタスクにも利益をもたらすか。
  • RQ3RQ3: 汎用タスクの性能を損なうことがあるか。

主な発見

ModelWTQSQAWikiSQL-WeakTabFact
Fine-tuned SOTA62.874.589.592.1
TaPEx4.14.021.2
GPT-3 (code-davinci-002)40.410.555.264.1
ChatGPT (gpt-3.5-turbo)42.913.726.168.8
FLAN-T5 (Large)30.218.929.059.9
TaPEx Zero (Large)41.9 (+11.7)29.9 (+11.0)62.6 (+33.6)63.9 (+4.0)
FLAN-T5 (XL)39.516.838.266.3
TaPEx Zero (XL)50.2 (+10.7)34.1 (+17.3)70.5 (+32.3)72.3 (+6.0)
  • TaPEx Zero は FLAN-T5 系モデルの表推論ベンチマークで大きな改善を示し、ベースラインを上回り、より大きなモデルに近づくまたは凌駕する。
  • TaPEx Zero XL および TaPEx Zero Large は WTQ、SQA、WikiSQL-Weak、TabFact で FLAN-T5 ベースラインより顕著な向上を示す。
  • 象徴的タスクは SVAMP の数値推論も改善し、BBH と MMLU の性能を劣化させず、汎性が維持されることを示す。
  • SQL 実行を含む合成デモンストレーションはゼロショットの顕著な利得を提供し、実際のデモンストレーションが少数あればそれと競合する形になり得る。
  • TaPEx Zero は現実的なタスク例がなくても強いゼロショット性能を示し、モデルサイズとともにスケールする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。