[論文レビュー] Neural Data Augmentation via Example Extrapolation
Ex2 は、希少な事例から新しいラベル付きデータを合成する neural example extrapolator を訓練し、CLINC150、SNIPS、FewRel のベンチマークにおける few-shot パフォーマンスを向上させる。
In many applications of machine learning, certain categories of examples may be underrepresented in the training data, causing systems to underperform on such "few-shot" cases at test time. A common remedy is to perform data augmentation, such as by duplicating underrepresented examples, or heuristically synthesizing new examples. But these remedies often fail to cover the full diversity and complexity of real examples. We propose a data augmentation approach that performs neural Example Extrapolation (Ex2). Given a handful of exemplars sampled from some distribution, Ex2 synthesizes new examples that also belong to the same distribution. The Ex2 model is learned by simulating the example generation procedure on data-rich slices of the data, and it is applied to underrepresented, few-shot slices. We apply Ex2 to a range of language understanding tasks and significantly improve over state-of-the-art methods on multiple few-shot learning benchmarks, including for relation extraction (FewRel) and intent classification + slot filling (SNIPS).
研究の動機と目的
- NLP タスクにおける希少なスライスが原因で少数ショット性能が低下する問題を動機づける。
- 同じスライスからの少数の例から新しい例を生成する neural example extrapolator Ex2 を提案する。
- e1:K のサンプルから p(e|s) をモデル化するデータスライスと Ex2 の訓練目的を形式化する。
- テキスト分類、意図-スロットタスク、関係抽出に対する Ex2 データ拡張の実証的な改善を示す。
提案手法
- ユーザー定義のスライス関数を用いて訓練データをスライスに整理し、few-shot スライスと many-shot スライスを指定する。
- K 個の同一スライスの exemplars を用いてheld-out 例の尤度を最大化することでデータ豊富なスライスを用いてシーケンス対シーケンスの extrapolator(Ex2)を訓練する。
- exemplars と outputs を匿名化されたテキストとして表現し、スライス識別子の漏洩を防ぎ、真の分布学習を促進する。
- 訓練済みの Ex2 を用いて希少スライスのための合成ラベル付き例を生成し、下流モデルの訓練セットを拡張する。
- 下流モデルを T5 ベースの seq2seq 学習者として捉え、全体的な性能と few-shot 性能の両方を様々なタスクで評価する。
実験結果
リサーチクエスチョン
- RQ1Ex2 は、そのスライスの few-shot exemplars のみからでもスライス全体の分布を効果的に学習できるか?
- RQ2スライス識別子の匿名化は Ex2 の一般化を memorization 以上に促進するか?
- RQ3 exemplars の数 K は Ex2 が代表的な新しいデータをどの程度合成する能力に影響を与えるか?
- RQ4Ex2 データ拡張は、分類、スロット充填、関係抽出といった異なる出力空間を持つ多様な NLP タスクで有益か?
主な発見
- Ex2 はタスク全体で強い few-shot 利得を生む、例:CLINC150: 全体正解率 97.4%、macro F1 96.1、few-shot 正解率 95.6%、few-shot macro F1 80.4%。
- SNIPS では Ex2 が全体の意図正解率 97.8%、few-shot で 93.5 を達成;スロット F1 は few-shot スライスで 75.3 に上昇。
- FewRel-Open では Ex2 が全体正解率 78.0%、few-shot 正解率 70.7 を達成し、この設定でベースラインおよび以前の最先端の手法を上回る。
- アブレーションにより、より多くの exemplars(高い K)とスライスラベルの匿名化が few-shot 性能を改善する一方、world-knowledge 事前訓練(T5)は Ex2 の効果的な実装に不可欠である。
- 事前訓練済みの Ex2 モデル(例: T5-XL)は、ランダムに初期化されたものを大きく上回り、外挿における知識獲得には大規模事前訓練の重要性を強調する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。