[論文レビュー] Trellis Networks for Sequence Modeling
TrellisNetは層間で重みを結びつけ、入力を各層に注入する新しいシーケンスモデルであり、再帰モデルと畳み込みモデルの橋渡しをする。複数の言語モデリングおよび長距離のベンチマークで最先端の結果を達成する。
We present trellis networks, a new architecture for sequence modeling. On the one hand, a trellis network is a temporal convolutional network with special structure, characterized by weight tying across depth and direct injection of the input into deep layers. On the other hand, we show that truncated recurrent networks are equivalent to trellis networks with special sparsity structure in their weight matrices. Thus trellis networks with general weight matrices generalize truncated recurrent networks. We leverage these connections to design high-performing trellis networks that absorb structural and algorithmic elements from both recurrent and convolutional models. Experiments demonstrate that trellis networks outperform the current state of the art methods on a variety of challenging benchmarks, including word-level language modeling and character-level language modeling tasks, and stress tests designed to evaluate long-term memory retention. The code is available at https://github.com/locuslab/trellisnet .
研究の動機と目的
- 再帰的アプローチと畳み込みアプローチを統一する新しいアーキテクチャ(TrellisNet)をシーケンスモデリングにおいて探索する。
- TrellisNetが切り捨てられたRNNを再現でき、標準ベンチマークでそれらを上回ることを示す。
- 語レベルおよび文字レベルの言語モデリングと長距離メモリタスクで経験的な向上を示す。
- TrellisNet、TCN、およびRNN間の関係を分析し、技術の横展開を可能にする。
提案手法
- TrellisNetを、層全体に入力注入を行う因果的で深い、重み結合型の1D畳み込みアーキテクチャとして定義する。
- M-truncated RNNと、疎な層間カーネルを持つTrellisNetの同値性を示す(Theorem 1)。
- RNNを模倣する疎な重み構造を実現するために混合グループ畳み込みを用いる。
- TrellisNet内でLSTMセルに触発されたゲート付き活性化を採用する。
- TrellisNetを強化するために、CNNの技法(膨張、補助損失、重み正規化)とRNNの技法(LSTMゲート、変分ドロップアウト)を組み合わせて活用する。
- PTB、WT103、PTB文字モデリング、長距離タスク(Sequential MNIST、Permuted MNIST、Sequential CIFAR-10)で評価する。
実験結果
リサーチクエスチョン
- RQ1TrellisNetは切り捨てられたRNNを一般化し、RNNとCNNの橋渡しになることができるか?
- RQ2深さをまたぐ重み結合と入力注入がシーケンスモデリングの性能を改善するか?
- RQ3TrellisNetは語レベルおよび文字レベルの言語モデリングで最先端のパープレキシティを達成できるか?
- RQ4長距離メモリベンチマークにおけるTrellisNetの性能は、再帰モデルと自己注意モデルと比べてどうか?
主な発見
| Model | Size | Test perplexity ℓ |
|---|---|---|
| Generic TCN (Bai et al., 2018) | 13M | 88.68 |
| Variational LSTM (Gal & Ghahramani, 2016) | 66M | 73.4 |
| NAS Cell (Zoph & Le, 2017) | 54M | 62.4 |
| AWD-LSTM (Merity et al., 2018b) | 24M | 58.8 |
| (Black-box tuned) NAS (Melis et al., 2018) | 24M | 59.7 |
| (Black-box tuned) LSTM + skip conn. (Melis et al., 2018) | 24M | 58.3 |
| AWD-LSTM-MoC (Yang et al., 2018) | 22M | 57.55 |
| AWD-LSTM-MoS (Yang et al., 2018) | 24M | 55.97 |
| ENAS (Pham et al., 2018) | 24M | 55.80 |
| Ours - TrellisNet | 24M | 56.97 |
| Ours - TrellisNet (1.4x larger) | 33M | 56.80 |
| Ours - TrellisNet-MoS | 25M | 54.67 |
| Ours - TrellisNet-MoS (1.4x larger) | 34M | 54.19 |
- TrellisNetはPenn Treebankの語レベルモデリングとWikiText-103で新しい最先端のパープレキシティを設定する。
- PTBでは、TrellisNetは24Mパラメータで56.97 perplexityを達成し、より大きな構成では54.19に達する。
- WT103では、TrellisNetは29.19 perplexityを達成し、Relational Memory CoreおよびMerityらの結果を上回る。
- PTBの文字レベルでは、TrellisNetは1.158 bits-per-characterを達成し、従来の最高記録を上回る。
- 長距離ベンチマークでは、報告された最高値を達成する: Seq MNIST 99.20, Permuted MNIST 98.13, Seq CIFAR-10 73.42。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。