QUICK REVIEW

[論文レビュー] LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models

Huiqiang Jiang, Qianhui Wu|arXiv (Cornell University)|Oct 9, 2023

Topic Modeling被引用数 8

ひとこと要約

LLMLingua は、指示、実演、質問に対する圧縮を動的に予算配分する coarse-to-fine プロンプト圧縮フレームワークを導入し、トークンレベルの反復圧縮を用い、小規模 LM をターゲット LLM に整合させて、最小限の性能低下で最大 20x のプロンプト圧縮を実現します。

ABSTRACT

Large language models (LLMs) have been applied in various applications due to their astonishing capabilities. With advancements in technologies such as chain-of-thought (CoT) prompting and in-context learning (ICL), the prompts fed to LLMs are becoming increasingly lengthy, even exceeding tens of thousands of tokens. To accelerate model inference and reduce cost, this paper presents LLMLingua, a coarse-to-fine prompt compression method that involves a budget controller to maintain semantic integrity under high compression ratios, a token-level iterative compression algorithm to better model the interdependence between compressed contents, and an instruction tuning based method for distribution alignment between language models. We conduct experiments and analysis over four datasets from different scenarios, i.e., GSM8K, BBH, ShareGPT, and Arxiv-March23; showing that the proposed approach yields state-of-the-art performance and allows for up to 20x compression with little performance loss. Our code is available at https://aka.ms/LLMLingua.

研究の動機と目的

API でアクセス可能な LLM の意味的整合性を保ちながら推論コストを低減するためにプロンプト長を短縮する動機付け。
高圧縮比の下で重要情報を保持する coarse-to-fine プロンプト圧縮パイプラインを提案する。
指示調整を通じて、小規模 prompting LM とターゲット black-box LLM との分布ミスマッチを緩和する。
推論、ICL、対話、要約にまたがる複数データセットで最先端性能を実証する。

提案手法

予算コントローラは指示、実演、質問間の圧縮予算を割り当て、実演レベルの粗い圧縮を実行する。
Iterative token-level prompt compression (ITPC) は小規模 LM を用いて条件付きトークン確率を推定し、高情報量トークンを保持する。
文レベルおよびデモンストレーションレベルの dropout が高圧縮下でも言語構造を保持する。
分布整合は instruction tuning により、ターゲット LLM によって生成されたデータで小規模 LM を訓練し分布ギャップを縮小する。
評価は GSM8K、BBH、ShareGPT、Arxiv-March23 に対して exact match、BLEU、ROUGE、BERTScore を用いる。
grounding の主張: 圧縮ステップによる modest な性能低下とともに最大 20x の圧縮を達成する。

実験結果

リサーチクエスチョン

RQ1多様なタスクで LLM の推論能力とインコンテキスト学習能力を保ちながら、プロンプトはどれくらい圧縮できるか？
RQ2予算付きの coarse-to-fine 圧縮戦略は高圧縮比の下で意味的整合性を維持できるか？
RQ3小規模 prompting LM とターゲット LLM の分布を整合させることは圧縮品質とダウンストリーム性能を改善するか？
RQ4圧縮比、待機時間、精度のトレードオフは推論、対話、要約のベンチマークでどう現れるか？

主な発見

本手法は特定の制約下で GSM8K および BBH で小さな性能低下のみで最大 20x の圧縮を実現する。
我々の方法は複数タスクにおいて Selective-Context およびランダム文/デモンストレーション選択を一貫して上回る。
LLMLingua は ICL 能力を保持し、高い圧縮比でも few-shot ベースラインを上回ることがある。
指示調整による分布整合は推論ベンチマークで実 measurable gains を生む。
エンドツーエンドのレイテンシは圧縮ステップによる計算オーバーヘッドを伴いつつ低減され、実用的なスピードアップを可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。