QUICK REVIEW

[論文レビュー] BERT Loses Patience: Fast and Robust Inference with Early Exit

Wangchunshu Zhou, Canwen Xu|arXiv (Cornell University)|Jun 7, 2020

Topic Modeling参考文献 52被引用数 45

ひとこと要約

Patience-based Early Exit (PABEE) は、PLM の各層に内部分類器を取り付け、予測が t 回連続して安定したときに exit することで、速度と精度の両方を向上させます（例：ALBERT-base で ~1.57x の高速化と GLUE スコアの向上）。

ABSTRACT

In this paper, we propose Patience-based Early Exit, a straightforward yet effective inference method that can be used as a plug-and-play technique to simultaneously improve the efficiency and robustness of a pretrained language model (PLM). To achieve this, our approach couples an internal-classifier with each layer of a PLM and dynamically stops inference when the intermediate predictions of the internal classifiers remain unchanged for a pre-defined number of steps. Our approach improves inference efficiency as it allows the model to make a prediction with fewer layers. Meanwhile, experimental results with an ALBERT model show that our method can improve the accuracy and robustness of the model by preventing it from overthinking and exploiting multiple classifiers for prediction, yielding a better accuracy-speed trade-off compared to existing early exit methods.

研究の動機と目的

推論時の過剰思考に対処することで、大規模な事前学習済み言語モデルの推論コストとレイテンシの削減を動機づける。
層間の内部分類器間の合意を用いて計算の停止時を決定する、動的な早期終了メカニズムを提案する。
GLUE ベンチマークで推論を高速化しつつ精度を向上させることができることを示す。
従来の予測スコアベースの出口と比較して、PABEE が敵対的耐性を向上させることを示す。

提案手法

事前学習済み言語モデルの各層の後に内部分類器を取り付ける。
層ごとに予測を計算し、トップ予測が連続して不変であるステップ数を数えて、パテンス閾値 t に達するまでカウントする。
cnt = t の連続安定条件が成り立つ層で早期終了する。そうでなければ最終層の分類器を使用する。
すべての層固有の損失を結合する重み付き損失を用いて、内部分類器を基盤モデルと共に共同学習する。
PABEE が標準推論と比較して精度を向上させることができる理論的条件を提供する。
GLUE ベンチマークと敵対的堅牢性テストで ALBERT-base / BERT-base に実装・評価する。

実験結果

リサーチクエスチョン

RQ1パテンスベースの層間クロス退出基準は、単一層退出基準と比較して PLMs の精度と効率を改善できるか？
RQ2推論レイテンシを削減しつつ、PABEE は敵対的なテキスト攻撃に対する堅牢性を維持または向上させるか？
RQ3パテンスパラメータ t が GLUE タスク全体の速度と精度のトレードオフにどう影響するか？
RQ4異なるバックボーンモデル（ALBERT/BERT）および深さで PABEE は効果的か？

主な発見

PABEE は GLUE タスクで精度を向上または維持しつつ、顕著な速度向上を達成する（例：ALBERT-base で約 1.57x）。
PABEE は予測確率ベースの退出（BranchyNet、Shallow-Deep）を、複数タスクにおける速度-精度トレードオフで上回る。
本手法はベースラインと比較して敵対的堅牢性を向上させ、攻撃者が行う必要のあるクエリ数を増加させる。
ALBERT-large（24 層）など、層を増やしたモデルでも精度向上と著大的な高速化を提供し続ける。
トレーニングのオーバーヘッドは控えめで、パラメータを 0.4% 未満だけ追加し、トレーニングの速度低下は顕著でない。
PABEE の精度と速度の関係は、パテンスに対して逆U字型を示し、t の最適範囲を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。