[논문 리뷰] Learning to Compress Prompts with Gist Tokens
지스팅은 주의 집중 마스크를 수정하여 프롬프트를 작은 핵심 토큰으로 압축하도록 학습하고, 프롬프트를 캐시하고 재사용하는 제로샷 핵심 예측을 가능하게 하며, 최소한의 품질 손실로 최대 26배의 압축을 달성한다.
Prompting is the primary way to utilize the multitask capabilities of language models (LMs), but prompts occupy valuable space in the input context window, and repeatedly encoding the same prompt is computationally inefficient. Finetuning and distillation methods allow for specialization of LMs without prompting, but require retraining the model for each task. To avoid this trade-off entirely, we present gisting, which trains an LM to compress prompts into smaller sets of "gist" tokens which can be cached and reused for compute efficiency. Gist models can be trained with no additional cost over standard instruction finetuning by simply modifying Transformer attention masks to encourage prompt compression. On decoder (LLaMA-7B) and encoder-decoder (FLAN-T5-XXL) LMs, gisting enables up to 26x compression of prompts, resulting in up to 40% FLOPs reductions, 4.2% wall time speedups, and storage savings, all with minimal loss in output quality.
연구 동기 및 목표
- Transformer LMs에서 각 작업마다 재훈련 없이 반복되는 프롬프트 계산을 줄이는 동기를 부여한다.
- 지시 미세조정 중 프롬프트를 압축하기 위한 핵심 토큰과 어텐션 마스크 편집 도입.
- 언어 모델이 프롬프트로부터 제로샷으로 핵심 접두사를 예측하고 보지 않은 작업에 일반화할 수 있음을 보여준다.
- 출력 품질을 유지하면서 FLOPs, 지연 및 저장 공간에서의 효율 개선을 정량화한다.
제안 방법
- 프롬프트와 입력 사이에 단일 핵심 토큰(또는 소수)을 삽입하는 것을 소개한다.
- 나중 토큰이 핵심 토큰 이전의 프롬프트 토큰에 주의(attend)하지 못하도록 어텐션 마스크를 수정한다.
- 핵심 마스킹 설정이 적용된 표준 지시 미세조정을 통해 훈련하여 제로-비용 핵심 학습을 가능하게 한다.
- 새 프롬프트에 대한 핵심 접두사 G(t)를 일반화하기 위해 메타러닝을 활용하여 언어모델 자체를 핵심 예측기로 사용한다.
- Seen, Unseen, Human/OOD 프롬프트에 대해 디코더-전용(LLaMA-7B) 및 인코더-디코더(FLAN-T5-XXL) 모델로 평가한다.
- 대조군과의 비교: Positive control(표준 미세조정), Negative control(프롬프트 없음), TF-IDF 기반 이산 압축.
실험 결과
연구 질문
- RQ1추가 작업별 훈련 없이도 언어 모델이 프롬프트를 훨씬 짧은 핵심 접두사로 압축할 수 있는가?
- RQ2핵심 기반 압축이 관찰된, 보지 않은, 인간 주석 작업에서 프롬프트 정확도 및 평가 지표에 어떤 영향을 미치는가?
- RQ3핵심 캐싱을 전체 지시 캐싱이나 캐시 없음과 비교할 때 계산 및 저장 공간 절감은 어느 정도인가?
- RQ4핵심 압축이 보지 않은 프롬프트나 distribution 외 프롬프트, 모델 아키텍처(디코더-전용 vs 인코더-디코더)에서 일반화되는가?
주요 결과
| 모델 | 관찰된 ROUGE-L | 관찰된 ChatGPT % | 보지 않은 ROUGE-L | 보지 않은 ChatGPT % | 사람 ROUGE-L | 사람 ChatGPT % |
|---|---|---|---|---|---|---|
| LLaMA-7B Pos | 58.0 (100) | 50.0 (100) | 48.1 (100) | 50.0 (100) | 27.0 (100) | 50.0 (100) |
| LLaMA-7B Gist | 57.8 (99.2) | 48.6 (92.4) | 46.6 (91.0) | 49.7 (98.8) | 23.9 (75.4) | 45.8 (84.9) |
| LLaMA-7B TF-IDF | 38.1 (24.5) | 34.5 (16.2) | 34.0 (15.6) | 29.3 (15.9) | 16.5 (16.7) | 24.6 (8.6) |
| LLaMA-7B Neg | 31.5 (0) | 31.5 (0) | 31.4 (0) | 25.4 (0) | 14.4 (0) | 22.2 (0) |
| FLAN-T5-XXL Pos | 50.6 (100) | 50.0 (100) | 45.7 (100) | 50.0 (100) | 23.9 (100) | 50.0 (100) |
| FLAN-T5-XXL Gist | 48.9 (93.2) | 50.8 (103.9) | 43.8 (88.6) | 46.2 (84.4) | 21.7 (80.9) | 42.5 (63.2) |
| FLAN-T5-XXL TF-IDF | 32.0 (25.9) | 35.9 (30.5) | 34.3 (31.3) | 31.0 (22.1) | 13.5 (9.6) | 28.4 (-5.9) |
| FLAN-T5-XXL Neg | 25.5 (0) | 29.7 (0) | 29.1 (0) | 25.6 (0) | 12.4 (0) | 29.6 (0) |
- 핵심 모델은 1개의 핵심 토큰으로 Seen 프롬프트에서 LLaMA-7B와 FLAN-T5-XXL 모두 Positive controls와 거의 동등한 성능을 달성한다(ROUGE-L 및 ChatGPT 승률이 컨트롤에 근접).
- 보지 않은 프롬프트에서 핵심 모델은 여전히 TF-IDF 기준값을 능가하고, 승률은 대략 49.7%(LLaMA) 및 46.2%(FLAN-T5)로 컨트롤보다 높다.
- OOD 인간 프롬프트에서 핵심 모델은 비교적 높은 승률을 보이며(약 45.8% LLaMA, 42.5% FLAN-T5), 일반화가 좋음을 나타낸다.
- 인간 평가와 ChatGPT 판단이 일치하며, 승률이 비슷하고 평가자 간 일치도는 보통 수준(Cohen의 카파 kappa 약 0.24–0.33)이다.
- 핵심 캐싱은 상당한 효율 개선을 가져오며, 일부 구성에서 FLOPs 최대 40% 감소, 실제 실행 시간 4–7% 단축, 그리고 최대 26배의 프롬프트 압축을 달성한다.
- 저장 이점은 크며, 핵심 캐싱은 더 적은 전체 프롬프트와 같은 메모리 공간에 많은 프롬프트를 캐싱할 수 있게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.