[論文レビュー] Are Pre-trained Convolutions Better than Pre-trained Transformers?
この論文は事前学習済みの畳み込み型 Seq2Seq モデルを、事前学習済みの Transformer と比較して 8 つの NLP タスクで実証的に評価し、CNN ベースのモデルが競争力を持ち、いくつかの設定で Transformer を上回ることがよくあり、事前学習の利点が Transformer と同様に CNN にも及ぶことを示しています。
In the era of pre-trained language models, Transformers are the de facto choice of model architectures. While recent research has shown promise in entirely convolutional, or CNN, architectures, they have not been explored using the pre-train-fine-tune paradigm. In the context of language models, are convolutional models competitive to Transformers when pre-trained? This paper investigates this research question and presents several interesting findings. Across an extensive set of experiments on 8 datasets/tasks, we find that CNN-based pre-trained models are competitive and outperform their Transformer counterpart in certain scenarios, albeit with caveats. Overall, the findings outlined in this paper suggest that conflating pre-training and architectural advances is misguided and that both advances should be considered independently. We believe our research paves the way for a healthy amount of optimism in alternative architectures.
研究の動機と目的
- 畳み込みアーキテクチャが pre-train–fine-tune パラダイムの下で Transformer ベースのモデルに匹敵するか、あるいはそれを上回るかを評価する。
- 軽量、拡張可能、動的など、複数の畳み込み Variants を多様な NLP タスクで評価する。
- CNN と Transformer の事前学習が、精度、速度、スケーラビリティの観点でどのような影響を与えるかを測定する。
提案手法
- T5 に触発された span ベースのシーケンス・ツー・シーケンス デノイジング目的を用いた事前学習済みの畳み込み Seq2Seq モデルを開発する。
- 軽量 Depthwise 畳み込み、動的畳み込み、ダイレイテッド畳み込みなど、いくつかの畳み込み Variants を調査する。
- CNN と Transformer の両方を大規模コーパス(C4)上で 524K ステップ、3 トークンスパンの破損を用いて事前学習し、その後下流タスクでファインチューニングする。
- 毒性検出、感情分析、ニュース分類、質問分類、組成的一般化を含む 8 データセットで評価する。
- 768 モデル次元と 12 ヘッドの 12 層エンコーダ-デコーダ アーキテクチャを使用し、同様の規模の Transformer ベースライン(T5)と比較する。
実験結果
リサーチクエスチョン
- RQ1畳み込みは Transformer と同様に事前学習の恩恵を受けるのか?
- RQ2事前学習済みの畳み込みモデルは事前学習済みの Transformer と競合可能で、どのタスクや設定で優れているか、または劣るか?
- RQ3実用的な利点として、速度、FLOP、スケーラビリティの観点で事前学習済みの畳み込みは Transformer より有利か?
- RQ4事前学習済みの畳み込みの注意点と失敗モードは何か、いつ避けるべきか?
- RQ5特定の畳み込み Variants(軽量、動的、ダイレイテッド)は、事前学習の下で一般的に他より優れているのか?
主な発見
| モデル | CivilComment 精度 | CivilComment F1 | WikiToxic 精度 | WikiToxic F1 | IMDb 精度 | SST-2 精度 | S140 精度 | TREC 精度 | ニュース 精度 |
|---|---|---|---|---|---|---|---|---|---|
| No pre-training Trans. | 77.22 | 85.09 | 91.93 | 95.45 | 84.81 | 78.44 | 58.84 | 78.00 | 84.25 |
| No pre-training Light | 78.58 | 85.82 | 91.05 | 94.65 | 85.88 | 81.65 | 60.64 | 82.20 | 87.22 |
| No pre-training Dilat. | 79.94 | 86.50 | 92.29 | 94.91 | 85.84 | 79.01 | 55.62 | 79.60 | 81.24 |
| No pre-training Dyna. | 78.49 | 84.71 | 90.06 | 95.66 | 85.69 | 82.80 | 60.84 | 80.20 | 85.13 |
| With pre-training Trans. | 81.16 | 86.56 | 91.46 | 95.12 | 94.16 | 92.09 | 61.65 | 93.60 | 93.54 |
| With pre-training Light | 81.47 | 87.58 | 93.61 | 96.48 | 93.60 | 92.20 | 61.65 | 93.60 | 93.63 |
| With pre-training Dilat. | 81.67 | 87.78 | 93.84 | 96.21 | 93.92 | 92.09 | 62.85 | 94.20 | 93.26 |
| With pre-training Dyna. | 81.83 | 87.71 | 93.76 | 96.53 | 93.35 | 91.59 | 62.45 | 92.40 | 93.93 |
| Gain from pre-training Trans. | +5.1% | +1.7% | -0.6% | -0.4% | +11.0% | +17.4% | +4.7% | +20.0% | +11.0% |
| Gain from pre-training Light | +3.7% | +2.1% | +2.8% | +1.9% | +9.0% | +13.0% | +1.7% | +14.0% | +7.3% |
| Gain from pre-training Dilat | +2.1% | +1.5% | +1.7% | +1.4% | +9.4% | +17.0% | +13.0% | +18.0% | +14.8% |
| Gain from pre-training Dyna | +4.3% | +3.5% | +4.1% | +1.0% | +8.9% | +10.6% | +2.6% | +15.2% | +10.4% |
- 事前学習済みの畳み込みは Transformer と競合可能であり、いくつかのタスクでそれを上回ることがある。
- 8 データセットにおいて、事前学習済み畳み込みは 7 タスク中 6 タスクで最先端の Transformer(T5)を上回り、いくつかの設定で顕著な利得を示す。
- 畳み込みは Transformer より高速で FLOP 効率が高く、長い系列へスケールする。
- 事前学習は CNN にも Transformer と同様の恩恵をもたらし、事前学習の利点は Transformer アーキテクチャに限定されないことを示す。
- 畳み込み Variants の中で、ダイレイテッドおよび動的畳み込みは、多くの設定で軽量畳み込みより一般的に優れている。
- CNN におけるクロス・アテンションの制限は、シーケンス間相互作用を必要とするタスクで障害となる可能性があるが、単一のクロスアテンション層でこのギャップの多くを回復できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。