QUICK REVIEW

[論文レビュー] Learning to Compress Prompts with Gist Tokens

Jesse Mu, Xiang Lisa Li|arXiv (Cornell University)|Apr 17, 2023

Topic Modeling被引用数 17

ひとこと要約

要約: Gisting は注意マスクを変更することでプロンプトを小さな gist トークンへ圧縮する学習を行い、プロンプトをキャッシュして再利用するゼロショットの gist 予測を可能にし、質的損失を最小限に抑えつつ最大 26 倍の圧縮を実現します。

ABSTRACT

Prompting is the primary way to utilize the multitask capabilities of language models (LMs), but prompts occupy valuable space in the input context window, and repeatedly encoding the same prompt is computationally inefficient. Finetuning and distillation methods allow for specialization of LMs without prompting, but require retraining the model for each task. To avoid this trade-off entirely, we present gisting, which trains an LM to compress prompts into smaller sets of "gist" tokens which can be cached and reused for compute efficiency. Gist models can be trained with no additional cost over standard instruction finetuning by simply modifying Transformer attention masks to encourage prompt compression. On decoder (LLaMA-7B) and encoder-decoder (FLAN-T5-XXL) LMs, gisting enables up to 26x compression of prompts, resulting in up to 40% FLOPs reductions, 4.2% wall time speedups, and storage savings, all with minimal loss in output quality.

研究の動機と目的

Transformer LMs の再訓練無しにタスクごとの繰り返しプロンプト計算を減らす動機づけ。
指示微調整中にプロンプトを圧縮するための gist トークンと注意マスクの編集を導入。
LM がプロンプトから gist 接頭辞をゼロショットで予測でき、未見タスクへ一般化できることを示す。
出力品質を維持しつつ FLOPs、待機時間、ストレージの効率向上を定量化。

提案手法

プロンプトと入力の間に単一の gist トークン（またはいくつか）を挿入する。
後続トークンが gist トークン以前のプロンプトトークンに attends できないように注意マスクを変更する。
gist マスキング設定で標準の指示微調整を通じて訓練し、ゼロコストの gist 学習を可能にする。
LM 自体を gist 予測器として用い、メタ学習を活用して新しいプロンプトに対する gist 接頭辞 G(t) を一般化する。
Seen、Unseen、Human/OOD のプロンプトを対象に、デコーダー専用（LLaMA-7B）とエンコーダ-デコーダ（FLAN-T5-XXL）モデルで評価。
ベースラインと比較: 正のコントロール（標準の微調整）、負のコントロール（プロンプトなし）、TF-IDF ベースの離散圧縮。

実験結果

リサーチクエスチョン

RQ1プロンプトを追加タスク学習なしで非常に短い gist 接頭辞へ圧縮できるか？
RQ2gist ベースの圧縮は Seen、Unseen、Human による評価指標とプロンプト精度にどのような影響を与えるか？
RQ3gist キャッシュを用いる場合と完全な指示キャッシュまたはキャッシュなしの場合の計算・ストレージ節約はどの程度か？
RQ4gist 圧縮は unseen/OOD プロンプト及びモデルアーキテクチャ（デコーダー専用 vs エンコーダ-デコーダ）に一般化するか？

主な発見

モデル	Seen ROUGE-L	Seen ChatGPT %	Unseen ROUGE-L	Unseen ChatGPT %	Human ROUGE-L	Human ChatGPT %
LLaMA-7B Pos	58.0 (100)	50.0 (100)	48.1 (100)	50.0 (100)	27.0 (100)	50.0 (100)
LLaMA-7B Gist	57.8 (99.2)	48.6 (92.4)	46.6 (91.0)	49.7 (98.8)	23.9 (75.4)	45.8 (84.9)
LLaMA-7B TF-IDF	38.1 (24.5)	34.5 (16.2)	34.0 (15.6)	29.3 (15.9)	16.5 (16.7)	24.6 (8.6)
LLaMA-7B Neg	31.5 (0)	31.5 (0)	31.4 (0)	25.4 (0)	14.4 (0)	22.2 (0)
FLAN-T5-XXL Pos	50.6 (100)	50.0 (100)	45.7 (100)	50.0 (100)	23.9 (100)	50.0 (100)
FLAN-T5-XXL Gist	48.9 (93.2)	50.8 (103.9)	43.8 (88.6)	46.2 (84.4)	21.7 (80.9)	42.5 (63.2)
FLAN-T5-XXL TF-IDF	32.0 (25.9)	35.9 (30.5)	34.3 (31.3)	31.0 (22.1)	13.5 (9.6)	28.4 (-5.9)
FLAN-T5-XXL Neg	25.5 (0)	29.7 (0)	29.1 (0)	25.6 (0)	12.4 (0)	29.6 (0)

gist モデルは 1 個の gist トークンで、Seen プロンプトに対して LLaMA-7B と FLAN-T5-XXL のいずれも正のコントロールにほぼ等しい性能を達成（ROUGE-L および ChatGPT 勝率はコントロールに近い）。
Unseen プロンプトでは gist モデルは TF-IDF ベースラインを上回り続け、勝率は約 49.7%（LLaMA）および 46.2%（FLAN-T5）対コントロール。
OOD Human プロンプトでは gist モデルは競争力のある勝率を示す（LLaMA 約 45.8%、FLAN-T5 約 42.5%）、良い一般化を示唆。
人間評価は ChatGPT の判断と一致し、勝率は概ね同等、アノテーター間一致は中程度（Cohen’s kappa 約 0.24–0.33）。
gist キャッシュは大幅な効率化を生み出す: 一部の構成で最大 40% の FLOPs 約減少と 4–7% の実時間スピードアップ、さらには最大 26 倍のプロンプト圧縮。
ストレージの利点は大きい: gist キャッシュは同じメモリフットプリント内で多くのプロンプトをキャッシュ可能。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。