[論文レビュー] Zero-shot Text Classification With Generative Language Models
本論文は、タスクを自然言語の多択問題として位置づけることによりゼロショットのテキスト分類を行う、生成型言語モデルベースのアプローチを示しており、タスク特化のヘッドを用意せず新規タスクへの適応を可能にし、6つのデータセットでベースラインを上回る改善を達成している。
This work investigates the use of natural language to enable zero-shot model adaptation to new tasks. We use text and metadata from social commenting platforms as a source for a simple pretraining task. We then provide the language model with natural language descriptions of classification tasks as input and train it to generate the correct answer in natural language via a language modeling objective. This allows the model to generalize to new classification tasks without the need for multiple multitask classification heads. We show the zero-shot performance of these generative language models, trained with weak supervision, on six benchmark text classification datasets from the torchtext library. Despite no access to training data, we achieve up to a 45% absolute improvement in classification accuracy over random or majority class baselines. These results show that natural language can serve as simple and powerful descriptors for task adaptation. We believe this points the way to new metalearning strategies for text problems.
研究の動機と目的
- 自然言語による記述で新しいテキスト分類タスクのゼロショットモデル適応を動機付ける。
- 多様で弱教師付きタスクで生成型言語モデルを事前訓練し、多くのN-way分類タスクを模倣する。
- モデルとデータの規模の影響を分析し、6つの標準的なテキスト分類ベンチマークへのゼロショット転移を評価する。
- クラス記述の品質が性能と制御性に与える影響を探り、限界と今後の方向性を論じる。
提案手法
- 自然言語のクラス記述を用いた多肢選択問題解答タスクとしてテキスト分類を再定式化する。
- 大規模な弱教師付きタスク(OpenWebText with title prediction)でGPT-2モデルを事前訓練し、自然言語オプションのセットから記述的ラベルを選択する方法を学習させる。
- 入力文書の先頭に選択したクラス記述のリストを付け、言語モデリング目的で正しいクラステキストを生成するようモデルを訓練する。
- 質問・テキスト・回答セグメントを区切るために学習済みの位置埋め込みと特別トークンを用い、次トークン予測損失で最適化する。
- 全クラスを自然言語で提供しモデルに正しいクラスを出力させることで、六つのTorchTextデータセットのゼロショット性能を評価する。
- モデルのサイズとデータ規模の効果を調査し、ランダム・多数派・ファインチューニングベースラインと比較する。
実験結果
リサーチクエスチョン
- RQ1単一の生成型言語モデルは自然言語タスク記述を用いて未見のテキスト分類タスクへ適応できるか。
- RQ2モデルサイズと事前訓練データ規模は、さまざまなデータセットに対するゼロショット分類精度にどのような影響を与えるか。
- RQ3クラス記述の品質がゼロショットの性能と出力の妥当性に与える影響はどの程度か。
- RQ4統一モデルはタスク特化ヘッドを避けつつ競争力のある精度を維持できるか。
- RQ5生成モデルを用いたゼロショットのテキスト分類にはどのような限界と今後の方向性があるか。
主な発見
| モデル | SST-2 | AGNews | DBPedia | Yahoo | Amazon-2 | Yelp-2 | 平均 | SOTA |
|---|---|---|---|---|---|---|---|---|
| Random Guess | ~50.6 | 27.4 | 7.27 | 10.2 | 52.9 | 50.4 | 33.1 | |
| Majority Class | ~49.9 | 25.3 | 7.6 | 9.9 | 49.3 | 49.2 | 31.9 | |
| 117M All Data | 51.8 / 0 | 40.2 / .00 | 39.6 / .25 | 26.1 / .97 | 50.3 / .001 | 50.1 / 0 | 43.0 / .202 | |
| 355M 1/4 Data | 61.7 / 0 | 68.3 / .51 | 52.5 / .03 | 52.2 / .64 | 64.5 / .001 | 58.5 / 0 | 59.6 / .197 | |
| 355M All Data | 62.5 / 0 | 65.5 / .01 | 44.8 / .62 | 49.5 / .30 | 80.2 / 0 | 74.7 / 0 | 62.9 / .176 | |
| 355M Finetuned | 93.23 | 94.87 | 99.0 | 72.79 | 97.115 | 94.479 | 91.91 | SOTA |
| SOTA | 96.8* | 95.51* | 99.38* | 76.26** | 97.6* | 98.45* | 94 |
- モデルサイズと事前訓練データの増加は、タスク間でゼロショットの性能を向上させる。
- DBPediaでは、355M GPT-2モデルがランダムベースラインに対して絶対的に最大45.2%の改善を達成。
- 複数のデータセット(DBPedia, AGNews, Yahoo Answers)で性能はランダムおよび多数派ベースラインを上回るが、ファインチューニングやSOTAレベルには及ばない。
- 記述子の品質は精度に大きく影響し、悪い記述子は最大で絶対値27%の低下や語彙外出力の増加を引き起こす。
- Greedyデコードはトップ-k/トップ-pのサンプリング法と比べて語彙外出力が少ない。
- まれな語彙外出力は通常、誤組み合わせや空文字列であり、より大きなモデルはそのような誤りを減らす。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。