QUICK REVIEW

[論文レビュー] Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks

Lichao Sun, Congying Xia|arXiv (Cornell University)|Oct 5, 2020

Multimodal Machine Learning Applications被引用数 23

ひとこと要約

本稿では、BERTのようなTransformerベースのモデルの隠れ表現レベルでミックスアップを適用する動的データ拡張手法であるMixup-Transformerを提案する。トレーニング中に最終隠れ状態と対応するラベルを線形補間することで、多様な自然言語処理（NLP）タスクで一貫した性能向上を達成し、特にリソースが限られた状況でも顕著な向上を示している。ミックスアップが事前学習済み言語モデルにおいてドメインに依存しない、エンドツーエンドで学習可能な手法であることが示された。

ABSTRACT

Mixup is the latest data augmentation technique that linearly interpolates input examples and the corresponding labels. It has shown strong effectiveness in image classification by interpolating images at the pixel level. Inspired by this line of research, in this paper, we explore i) how to apply mixup to natural language processing tasks since text data can hardly be mixed in the raw format; ii) if mixup is still effective in transformer-based learning models, e.g., BERT. To achieve the goal, we incorporate mixup to transformer-based pre-trained architecture, named "mixup-transformer", for a wide range of NLP tasks while keeping the whole end-to-end training system. We evaluate the proposed framework by running extensive experiments on the GLUE benchmark. Furthermore, we also examine the performance of mixup-transformer in low-resource scenarios by reducing the training data with a certain ratio. Our studies show that mixup is a domain-independent data augmentation technique to pre-trained language models, resulting in significant performance improvement for transformer-based models.

研究の動機と目的

画像認識で有効なミックスアップが、線形補間が困難な離散的・非連続的性質を持つテキストデータに対して適応可能かどうかを検討すること。
SOTAのTransformerベースのモデル（例：BERT）にミックスアップを適用した場合の性能向上の有効性を調査すること。
入力テキストや固定埋め込みではなく、表現レベルでミックスアップを適用するエンドツーエンドで学習可能なフレームワークを構築すること。
訓練データを削減した状況下でのMixup-Transformerの有効性を低リソース設定で評価すること。
ミックスアップが事前学習済み言語モデルに対してドメインに依存しないデータ拡張手法であることを示すこと。

提案手法

本手法は、事前学習済みTransformerの最終隠れ層にミックスアップを適用し、補間された表現 $\hat{x} = \lambda \cdot T(x_i) + (1-\lambda) \cdot T(x_j)$ を用いる。ここで $T(\cdot)$ はTransformerの出力である。
ラベルについても線形補間を行い、$\hat{y} = \lambda y_i + (1-\lambda) y_j$ と定義する。ここで $\lambda \sim \text{Beta}(\alpha, \alpha)$ または固定値 0.5 とする。
ミックスアップ層は微調整プロセスに統合され、外部パイプラインや補助モデルを必要とせず、エンドツーエンドの学習を維持する。
本手法は、テキスト分類や回帰を含む8つの多様なNLPタスクをカバーするGLUEベンチマークで評価された。
アブレーションスタディの結果、ハイパーパrameter $\lambda$ は感度が低く、0.5に設定された。トレーニングには標準的なBERTのハイパーパrameterを用い、3エポックで実行した。
本手法はBERT-baseおよびBERT-largeの両方に対して適用され、訓練データを10%から90%まで減少させた状況でもテストされた。

実験結果

リサーチクエスチョン

RQ1テキストデータの離散的・非連続的性質を考慮しても、ミックスアップがNLPタスクに効果的に適用可能か？
RQ2特に隠れ表現レベルで適用した場合、ミックスアップがTransformerベースのモデル（例：BERT）の性能向上に寄与するか？
RQ3アノテーションデータが限られた状況下でのリソースが限られたNLPシナリオにおいて、ミックスアップが有効か？
RQ4多様なNLPタスクにおいて、従来のデータ拡張手法と比較して、ミックスアップの性能と頑健性はどのように異なるか？
RQ5ミックスアップは、異なるNLPベンチマークやモデルアーキテクチャに一般化しやすいドメインに依存しない技術か？

主な発見

Mixup-Transformerは、GLUEベンチマークの16タスク中14タスクでBERT-baseの性能を向上させ、平均して約1%の精度向上を達成した。
最も顕著な向上はRTEタスクで観察され、BERT-baseでは正解率が68.23%から71.84%に上昇（+3.61%）した。
BERT-largeでは、CoLAのMatthew’s相関係数が59.71%から62.39%に上昇（+2.68%）した。
リソースが限られた状況では、訓練データを40%に制限したMRPCタスクで最大4.90%の向上を記録した。
完全な訓練データを用いても、MRPCタスクでBERT-largeに対して2.46%の向上を示し、データスケールにかかわらず一貫した向上が得られた。
タスク全体にわたり高い頑健性を示し、STS-Bと1つのMNLI設定でのわずかな性能低下の2例を除き、すべてのタスクで良好な一般化性能を確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。