Skip to main content
QUICK REVIEW

[論文レビュー] Parameterizing Context: Unleashing the Power of Parameter-Efficient Fine-Tuning and In-Context Tuning for Continual Table Semantic Parsing

Yongrui Chen, Shenyu Zhang|arXiv (Cornell University)|Oct 7, 2023
Topic Modeling被引用数 9
ひとこと要約

この研究は、パラメータ効率的微調整(PEFT)を文脈適応調整(ICT)と統合し、教師-生徒フレームワーク(C3)で継続的な表セマンティック解析器を訓練することで、過去のデモを保存せずに最先端の結果を達成します。 backbone を凍結し、プロンプトを調整し、文脈デモをプロンプトへ圧縮します。

ABSTRACT

Continual table semantic parsing aims to train a parser on a sequence of tasks, where each task requires the parser to translate natural language into SQL based on task-specific tables but only offers limited training examples. Conventional methods tend to suffer from overfitting with limited supervision, as well as catastrophic forgetting due to parameter updates. Despite recent advancements that partially alleviate these issues through semi-supervised data augmentation and retention of a few past examples, the performance is still limited by the volume of unsupervised data and stored examples. To overcome these challenges, this paper introduces a novel method integrating extit{parameter-efficient fine-tuning} (PEFT) and extit{in-context tuning} (ICT) for training a continual table semantic parser. Initially, we present a task-adaptive PEFT framework capable of fully circumventing catastrophic forgetting, which is achieved by freezing the pre-trained model backbone and fine-tuning small-scale prompts. Building on this, we propose a teacher-student framework-based solution. The teacher addresses the few-shot problem using ICT, which procures contextual information by demonstrating a few training examples. In turn, the student leverages the proposed PEFT framework to learn from the teacher's output distribution, and subsequently compresses and saves the contextual information to the prompts, eliminating the need to store any training examples. Experimental evaluations on two benchmarks affirm the superiority of our method over prevalent few-shot and continual learning baselines across various metrics.

研究の動機と目的

  • テーブルがタスク間で進化し、データが不足する場面で継続的な表セマンティック解析を動機づける。
  • 小さなプロンプトセットを調整するだけで破局的忘却を完全に緩和するタスク適応型PEFTフレームワークを開発する。
  • ICTを用いて文脈を提供し、過去の例を保存せずにそれを維持するPEFTを用いた教師-生徒C3アーキテクチャを導入する。
  • C3が2つのベンチマークタスクストリームでベースラインを上回ることを示し、性能に影響を与える要因(プロンプトサイズ、デモ、タスク適応)を特定する。
  • GPT系LLMを教師として用いた場合でもアーキテクチャサイズの柔軟性を示し、異なるバックボーンモデルでも効果があることを示す。

提案手法

  • バックボーンセマンティックパーサーとしてT5を使用し、表スキーマと質問を含む入力をフラット化する。
  • バックボーンを凍結し、各タスクのプロンプト埋め込みを調整することでタスク適応的継続的プロンプトチューニングを適用する(M=150プロンプト、d=512)。
  • 初期タスクを微調整してθとP^0を初期化し、以降のタスクでは共通初期化P*を再利用して各P^iを独立に最適化する。
  • 2パーサーのC3を導入する:ICTで訓練されたContext-Enhanced Teacher(意味的類似性と文脈混合によるデモ retrieved)と、Teacherの出力分布をKLダイバージェンスとteacher-forcingで再現するContext-Compressed Student。
  • デモの取得はSTS-Bベースの類似度としきい値ηを用いて上位r件を選択する。TeacherはデモとX′として入力を整理し、Studentは過去の例を保存せずにプロンプト圧縮を通じて知識を維持する。
  • 2つのタスクストリーム(Spider-StreamとCombined-Stream)を評価し、TA、EA、MD指標を乱択タスク順序で測定する。

実験結果

リサーチクエスチョン

  • RQ1PEFTとプロンプト調整で継続的なTSPにおける破局的忘却を防ぎつつ、少数ショット性能を維持できるか。
  • RQ2ICTをPEFTベースのStudentと統合することで、リプレイやファインチューニングに依存するベースラインより継続学習性能が向上するか。
  • RQ3プロンプト長、バックボーンサイズ、デモ戦略が継続的TSPの性能と忘却にどの程度影響するか。
  • RQ4異なるバックボーンモデルやTeacherとしての大規模言語モデル(GPT系)に対して本手法が頑健か。
  • RQ5過去のデモを保存せずに少数ショット能力を保てるか。

主な発見

バックボーン方法Spider-Stream TA (%)Spider-Stream EA (%)Spider-Stream MD (%)Combined-Stream TA (%)Combined-Stream EA (%)Combined-Stream MD (%)
Grappa-Large (340M)ファインチューニング56.954.6-18.837.643.9-39.1
MAMLMAML50.146.2-20.419.522.5-47.2
ICTICT57.054.3-17.137.943.9-37.4
EWCEWC57.555.1-17.737.044.1-38.4
HATHAT57.854.8-17.038.545.0-37.6
EMR ♠EMR65.262.9-9.460.958.6-10.3
EMAR ♠EMAR62.860.8-10.563.160.8-7.7
APPERAPPER57.955.8-17.237.144.0-38.3
TR ♠TR57.955.1-15.859.756.3-11.9
T5-base (220M)PEFT65.764.5-63.866.2-
C3C367.566.5-66.367.6-
Multi-TaskMulti-Task76.376.23.270.071.11.7
T5-large (770M)C371.169.7-68.370.6-
  • C3 with T5-largeはSpider-StreamとCombined-Streamの全体パフォーマンスで最も良く、ベースラインよりタスクレベルおよび事例レベルの指標を改善した。
  • PEFT単独でも多くの継続学習ベースラインを上回り、バックボーンパラメータの0.05%のみを調整することで忘却を完全に回避できる。
  • C3はTAで約4.9–5.1ポイントの追加利益を提供し、Combined-Streamでベースラインを上回りマルチタスク上限に近づく。
  • アブレーションにおいて、Teacher(ICT)とStudent(PEFTプロンプト圧縮)の両方の要素が重要であり、いずれかを除くとTA/EAが低下し、ICTを除くと複雑なタスクでの利得が著しく減少する。
  • GPT様式のLLMをTeacherとして用いた場合でも手法は競争力を保ち、エンコーダ-デコーダモデルを超えるアーキテクチャサイズの柔軟性が示される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。