[論文レビュー] Depthwise Separable Convolutions for Neural Machine Translation
SliceNetを紹介します。深度方向分離可能および超分離可能畳み込みを用いたニューラル機械翻訳モデルで、膨張を用いずにパラメータ数を削減し、最先端のBLEUを達成します。
Depthwise separable convolutions reduce the number of parameters and computation used in convolutional operations while increasing representational efficiency. They have been shown to be successful in image classification models, both in obtaining better models than previously possible for a given parameter count (the Xception architecture) and considerably reducing the number of parameters required to perform at a given level (the MobileNets family of architectures). Recently, convolutional sequence-to-sequence networks have been applied to machine translation tasks with good results. In this work, we study how depthwise separable convolutions can be applied to neural machine translation. We introduce a new architecture inspired by Xception and ByteNet, called SliceNet, which enables a significant reduction of the parameter count and amount of computation needed to obtain results like ByteNet, and, with a similar parameter count, achieves new state-of-the-art results. In addition to showing that depthwise separable convolutions perform well for machine translation, we investigate the architectural changes that they enable: we observe that thanks to depthwise separability, we can increase the length of convolution windows, removing the need for filter dilation. We also introduce a new "super-separable" convolution operation that further reduces the number of parameters and computational cost for obtaining state-of-the-art results.
研究の動機と目的
- 畳み込みNMTアーキテクチャにおけるパラメータ数と計算量の削減を動機づける。
- 系列対系列モデルへの深度方向分離可能およびグループ化畳み込みの適用を探究する。
- フィルタの膨張を大きな畳み込み窓で置換することの影響を評価する。
- 新しい超分離可能畳み込み演算の導入と評価を行う。
- 制約のあるリソース下でSliceNetが最先端の翻訳結果を示すことを示す。
提案手法
- SliceNetを提案する。残差接続と任意のグループ化および超分離可能畳み込みを含む深度方向分離可能畳み込み層のスタック。
- 従来の通常畳み込みを深度方向分離可能畳み込みに置換し、パラメータと計算量を削減。
- 入力と出力を別々のサブネットでエンコードし、自己回帰デコーダと注意機構の前で結合する。
- 畳み込みモジュール内で層正規化とReLU活性化を用いる。
- 受容野の成長には膨張と大きな畳み込み窓の比較を探究する。
- TensorFlow Tensor2Tensor実装へのコード参照を提供する。
実験結果
リサーチクエスチョン
- RQ1Depthwise separable畳み込みは ByteNet に類したアーキテクチャにおいて通常の畳み込みより翻訳品質を改善するか。
- RQ2膨張を取り除き、より大きな畳み込み窓に依存することでNMTの性能を維持または向上できるか。
- RQ3中間のグループ化(サブ分離可能)畳み込みと完全な深度方向分離可能畳み込みの影響はどうか。
- RQ4提案された超分離可能畳み込みは標準の深度方向分離可能畳み込みより追加の性能向上をもたらすか。
主な発見
| 畳み込みタイプ | 1位置あたりのパラメータ(概算) | 負の対数困惑度 | 精度 |
|---|---|---|---|
| 非埋め込み | k·c² | -1.92 | 62.41 |
| 全体 | k·c² | -1.83 | 63.87 |
| 全体 | k·7‑7‑7 | -1.80 | 64.37 |
| 全体 | k‑7‑15‑15 | -1.80 | 64.30 |
| 全体 | k‑7‑15‑31 | -1.80 | 64.36 |
| 16グループ | k·c²/g+c² | -1.86 | 63.46 |
| スーパ 2/3 | k·c+c²/g | -1.78 | 64.71 |
| 全体 (2048) | k·c+c²/g | -1.68 | 66.71 |
| スーパ 2/3 (3072) | k·c+c²/g | -1.64 | 67.27 |
- 深度方向分離可能畳み込みは、ByteNetに類したNMTモデルで通常の畳み込みより高い精度を、パラメータ数と計算コストを抑えつつ達成する。
- 深度方向分離可能畳み込みにおける膨張を大きな畳み込み窓で置換することで同等またはそれ以上の結果を得られ、膨張は必須ではない。
- グループ化畳み込み(16グループ)は完全な深度方向分離可能畳み込みより性能が劣る。高い分離性が有益であることを示唆。
- 超分離可能畳み込みは標準の深度方向分離可能畳み込みより追加の性能向上を提供する。
- より大きなSliceNetモデルで深度方向分離可能または超分離可能畳み込みを用いるとWMT EN-DEで最先端BLEUスコアを達成する。例としてlarger Super 2/3モデルのnewstest14で26.1、従来比較時にはnewstest14/2014で25.5–26.1。
- SliceNetモデルはByteNetより2倍超の非埋め込みパラメータとFLOPsを抑えつつ、より高い翻訳品質を実現する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。