QUICK REVIEW

[論文レビュー] Confident Adaptive Language Modeling

Tal Schuster, Adam Fisch|arXiv (Cornell University)|Jul 14, 2022

Topic Modeling被引用数 39

ひとこと要約

CALMはTransformer言語モデルに対して principled, per-token early-exit decisions を導入し、局所的退出を校正してグローバルな系列品質を証明可能に保持することを実現します。複数の生成タスクで推論を最大約3倍高速化します。

ABSTRACT

Recent advances in Transformer-based large language models (LLMs) have led to significant performance improvements across many tasks. These gains come with a drastic increase in the models' size, potentially leading to slow and costly use at inference time. In practice, however, the series of generations made by LLMs is composed of varying levels of difficulty. While certain predictions truly benefit from the models' full capacity, other continuations are more trivial and can be solved with reduced compute. In this work, we introduce Confident Adaptive Language Modeling (CALM), a framework for dynamically allocating different amounts of compute per input and generation timestep. Early exit decoding involves several challenges that we address here, such as: (1) what confidence measure to use; (2) connecting sequence-level constraints to local per-token exit decisions; and (3) attending back to missing hidden representations due to early exits in previous tokens. Through theoretical analysis and empirical experiments on three diverse text generation tasks, we demonstrate the efficacy of our framework in reducing compute -- potential speedup of up to $\times 3$ -- while provably maintaining high performance.

研究の動機と目的

大規模なTransformer言語モデルの出力品質を損なうことなく、推論コストを削減する動機付け。
局所的な各トークン退出を介してグローバルな系列レベルの制約を課す principled なキャリブレーション・フレームワークの開発。
早期退出分類器の訓練目標と、効果的な各レイヤーの信頼信号の特定。
さまざまなテキスト生成タスクにおける効率向上と信頼性の実証。

提案手法

局所的な各トークンの信頼度スコアを用いて自己回帰デコーディング中の早期退出を決定するフレームワークとして CALM を提案する。
確率の分布に依存しないリスク制御と Learn-Then-Test (LTT) キャリブレーションを用いて、高い確率で満たされるべきグローバルな整合性制約（テキスト系またはリスクベース）を定式化する。
自己回帰デコーディングにおける状態伝搬を考慮しつつ、キャリブレーションされた閾値を超えた最も早いレイヤーで退出する stopping policy を導出する。
軽量な各レイヤーの早期退出分類器を訓練し、異なる信頼指標（softmax-diff、隠れ状態飽和、明示的な退出分類器）を分析する。
デコーディングステップ間での効率とロバスト性のバランスを取るために、減衰閾値を導入する（λ′(λ,t)）。

実験結果

リサーチクエスチョン

RQ1各トークン退出決定をどのように定量化・キャリブレーションして、グローバルな系列レベルの制約を高確率で満たすようにできるか。
RQ2自己回帰型Transformerデコーディングにおいて、どの信頼信号が安全な早期退出を最もよく予測するか。
RQ3 CALMを要約、翻訳、QAなど多様な生成タスクに適用した場合の効率向上と性能のトレードオフはどうなるか。
RQ4状態伝搬は早期退出とどのように相互作用するか。キャリブレーションと訓練戦略で潜在的な劣化をどう緩和できるか。

主な発見

CALMは検証および訓練設定でグローバル保証を提供し、最大約3倍のスピードアップを達成する substantial compute reduction を実現する。
校正済みの信頼度に基づく早期退出決定は、CNN/DM、WMT、SQuADタスク全体で完全モデルの性能の大半を保持しつつ、FLOPsを大幅に削減する。
退出済みレイヤーの状態伝搬技術と減衰閾値は、各トークンの退出の頑健性と効率を改善する。
異なる局所信頼度指標にはトレードオフがあり、softmaxベースの信頼度は強力な性能と顕著な効率向上をもたらす一方、退出分類器は高性能域でFLOP効率を高めることがある。
Learn-Then-Test キャリブレーション枠組みは、テキスト系またはリスクベースのグローバル制約を、制御可能な誤差率で満たす退出閾値を選択するための principled な方法を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。