QUICK REVIEW

[論文レビュー] Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-Sequence Prediction

Maha Elbayad, Laurent Besacier|arXiv (Cornell University)|Aug 11, 2018

Natural Language Processing Techniques参考文献 43被引用数 53

ひとこと要約

2D CNNモデルを提案し、ソースとターゲットのシーケンスをマスク付き畳み込みで同時にエンコードすることで、パラメータ数を抑えつつ、層間で組み込みのアテンション様の挙動を持つモデルで、Encoder-Decoderモデルと競合する翻訳品質を達成する。

ABSTRACT

Current state-of-the-art machine translation systems are based on encoder-decoder architectures, that first encode the input sequence, and then generate an output sequence based on the input encoding. Both are interfaced with an attention mechanism that recombines a fixed encoding of the source tokens based on the decoder state. We propose an alternative approach which instead relies on a single 2D convolutional neural network across both sequences. Each layer of our network re-codes source tokens on the basis of the output sequence produced so far. Attention-like properties are therefore pervasive throughout the network. Our model yields excellent results, outperforming state-of-the-art encoder-decoder systems, while being conceptually simpler and having fewer parameters.

研究の動機と目的

MTの従来のエンコーダ-デコーダアーキテクチャと注意機構を超える動機付け。
部分的なターゲットシーケンスを条件としてソースを再エンコードする自回帰的で完全畳み込みのモデルを各層で開発。
masking を用いた2D CNNが IWSLT’14 German–English および English–German のタスクで競争力のある翻訳品質を達成できることを実証。
パラメータを減らし並列訓練を可能にするプーリングと任意の注意機構を通じてモデルが暗黙的なアライメントを学習することを示す。

提案手法

ソースとターゲットのトークンを結合した2D グリッドとして埋め込みを表現し、形状が (|t|, |s|, f0) となるテンソル X を作成する。ここで f0 = ds + dt。
Masked畳み込みを用いたDenseNet風の2D畳み込みブロックを用いて、ターゲット系列に沿った自己回帰分解を保証する。
最終ブロックでソース次元上の最大プーリングを適用し、ターゲットごとの位置表現を得て、線形層とソフトマックスにより出力語彙へ射影する。
ソース次元上の自己注意機構を任意に付加したり、プーリング特徴と連結して性能を向上させる。
ラベル平滑化クロスエントロピーと Adam で学習し、長さペナルティとカバレッジペナルティを用いたビームサーチでデコードする。
Pooling と注意変種、埋め込みサイズ、深さ、成長率、受容野を IWSLT’14 De-En および En-De タスクで経験的に評価する。

実験結果

リサーチクエスチョン

RQ1結合ソース-ターゲットグリッド上で動作する2D CNN が、マスク付き畳み込みを用い、注意機構を持つエンコーダ-デコーダ MT モデルの競争力のある代替となり得るか。
RQ2プーリング戦略とネットワークの深さ/幅が、2D CNN MT モデルの翻訳品質と暗黙のアライメントにどのように影響するか。
RQ3埋め込みサイズ、ネットワーク深さ、カーネルサイズが、De-En および En-De の翻訳における BLEU スコアへどのような影響を与えるか（広範な注意機構を前提とする場合）。
RQ42D CNN ベースのアプローチと最先端の再帰型・Transformer モデルを、BLEU、パラメータ数、計算コストの観点でどう比較できるか。

主な発見

提案された pervasive attention 2D CNN モデルは、IWSLT’14 German–English および English–German 翻訳で競争力のある BLEU スコアを達成し、いくつかのベースラインよりもパラメータが少ない。
ソース次元に跨る最大プーリングは、この設定で平均プーリングおよび自己注意を著しく上回る（平均プーリングに対して約 +2.3 BLEU）。
より深いネットワーク（約24層まで）と適切な埋め込み/成長構成は BLEU の大幅な改善をもたらし、マスク付き2D畳み込みによる深い特徴階層の利点を示す。
モデルはアテンションマップに類似する暗黙的な文のアライメントを誘導し、定性的分析で確認でき、任意の自己注意と組み合わせることで僅かな利得をもたらす。
RNN ベースの注意モデルおよび ConvS2S と比較して、 pervasive attention アプローチは競争力があり、いくつかの設定では Transformer モデルに近い性能ながらパラメータ数を抑えられる。
著者はオープンソースの PyTorch 実装を提供し、ターゲットデータセット上でいくつかのベースラインに対して有利な BLEU 結果を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。