QUICK REVIEW

[論文レビュー] Deep Equilibrium Models

Shaojie Bai, J. Zico Kolter|arXiv (Cornell University)|Sep 3, 2019

Topic Modeling被引用数 245

ひとこと要約

Deep Equilibrium Model (DEQ) を導入し、重みを結びつけた非線形変換の不動点を見つけて定常メモリでシーケンスをモデル化し、言語モデリングにおいて顕著なメモリ節約を伴い競争力のある性能を示します。

ABSTRACT

We present a new approach to modeling sequential data: the deep equilibrium model (DEQ). Motivated by an observation that the hidden layers of many existing deep sequence models converge towards some fixed point, we propose the DEQ approach that directly finds these equilibrium points via root-finding. Such a method is equivalent to running an infinite depth (weight-tied) feedforward network, but has the notable advantage that we can analytically backpropagate through the equilibrium point using implicit differentiation. Using this approach, training and prediction in these networks require only constant memory, regardless of the effective "depth" of the network. We demonstrate how DEQs can be applied to two state-of-the-art deep sequence models: self-attention transformers and trellis networks. On large-scale language modeling tasks, such as the WikiText-103 benchmark, we show that DEQs 1) often improve performance over these state-of-the-art models (for similar parameter counts); 2) have similar computational requirements to existing models; and 3) vastly reduce memory consumption (often the bottleneck for training large sequence models), demonstrating an up-to 88% memory reduction in our experiments. The code is available at https://github.com/locuslab/deq .

研究の動機と目的

重みを結合した変換の平衡点を求めることによって、深いシーケンスモデリングへのメモリ効率の高いアプローチを動機づける。
シーケンスレベルの不動点を直接解くことができ、これらを微分可能にする一般的なDEQフレームワークを提案する。
大規模言語タスクにおいて、TrellisNet および重み結合トランスフォーマを用いた DEQ の具体化を示す。

提案手法

平衡条件 z* = fθ(z*; x) を定義し、黒箱ルートファインディング法を用いて z* を解く。
定理1による暗黙微分を用いて平衡を介してバックプロパゲーションを行い、中間活性化の保存を回避する。
前方・後方パスで逆ヤコビアンを近似するブロイデンの準ニュートン更新則を用いて訓練を加速する。
普遍性を示す：複数のDEQを積み重ねても単一のDEQの表現力を超えない（定理2）。
DEQをTrellisNet（重み結合TCN）およびメモリ拡張自己注意トランスフォーマで具体化し、主要なシーケンスモデルファミリーを網羅する。

実験結果

リサーチクエスチョン

RQ1重みを結合した深いシーケンスモデルの固定点形式は、言語モデリングタスクにおいて層を積み重ねたアーキテクチャの性能と同等またはそれを上回ることができるのか؟
RQ2平衡を通じた暗黙微分はDEQモデルの定常メモリバックプロパゲーションを可能にするのか？
RQ3DEQのTrellisNetおよびトランスフォーマの実例はどのようなもので、WikiText-103やPTBなどのベンチマークでどうでるのか？
RQ4DEQのメモリフットプリントと訓練効率は従来の深いネットワークや勾配チェックポイントと比較してどうなるのか？
RQ5追加の表現力のために複数のDEQを積み重ねる必要があるのか、あるいは有益なのか？

主な発見

DEQ は PTB および WikiText-103 において、同程度のサイズの最先端モデルと比較して競争力のあるまたはそれを上回るパープレキシティを達成できる。
DEQ は層ベースの同等モデルと比べて訓練時に80%以上のメモリ節約（最大88%）を提供し、勾配チェックポイントよりもメモリ使用量で優れる場合がある。
逆伝播は不動点形式を介して計算され、定常メモリバックプロパゲーションを可能にする。
DEQ-TrellisNet および DEQ-Transformer の2つの実装は、 convnet、RNN、トランスフォーマーのアーキテクチャと互換性を示しつつ、同等または少ないリソースで動作する。
前方・後方の伝搬は準ニュートン法で平衡点へ収束し、ランタイムは固定深度モデルよりやや高いが、メモリ効率は大幅に向上する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。