[論文レビュー] Building Efficient Universal Classifiers with Natural Language Inference
本論文は Natural Language Inference (NLI) が普遍的で効率的な分類タスクとして機能できることを示し、実用的なパイプラインと、33 データセットで訓練され389クラスの普遍的分類器を提供し、zeroshot 性能を NLI のみのモデルより 9.4% 増加させている。
Generative Large Language Models (LLMs) have become the mainstream choice for fewshot and zeroshot learning thanks to the universality of text generation. Many users, however, do not need the broad capabilities of generative LLMs when they only want to automate a classification task. Smaller BERT-like models can also learn universal tasks, which allow them to do any text classification task without requiring fine-tuning (zeroshot classification) or to learn new tasks with only a few examples (fewshot), while being significantly more efficient than generative LLMs. This paper (1) explains how Natural Language Inference (NLI) can be used as a universal classification task that follows similar principles as instruction fine-tuning of generative LLMs, (2) provides a step-by-step guide with reusable Jupyter notebooks for building a universal classifier, and (3) shares the resulting universal classifier that is trained on 33 datasets with 389 diverse classes. Parts of the code we share has been used to train our older zeroshot classifiers that have been downloaded more than 55 million times via the Hugging Face Hub as of December 2023. Our new classifier improves zeroshot performance by 9.4%.
研究の動機と目的
- NLI がゼロショット・ few-shot 学習のための普遍的な分類タスクとして機能することを示す。
- NLIと非-NLIデータを組み合わせた普遍的分類器を構築する実用的で再現可能なパイプラインを提供する。
- 多様なデータセットで訓練された普遍的分類器を公開し、新しいタスクやドメインへの適用をガイドする。
提案手法
- 5つのNLIデータセットと28の非-NLIデータセットを単一の二値含意形式に調和させる。
- 非-NLIクラスを仮説文に変換し、評価のためにすべてのクラス仮説とテキストを対にする。
- 連結された仮説–前提データ上で、二値含意目的で encoder-only トランスフォーマー(DeBERTaV3)をファインチューニングする。
- 28個のheld-outタスクおよびインドメインタスクで、バランスの取れた精度を用いてモデルを評価する。
- 普遍的分類器を訓練・評価・適応するノートブックとツールを提供する; 推奨モデルとして deberta-v3-zeroshot-v1.1-all-33 をリリースする。

実験結果
リサーチクエスチョン
- RQ1NLI をタスク固有のファインチューニングなしに、さまざまなタスクを横断して zeroshot 分類を実行する普遍的タスクとして使用できるか?
- RQ2NLI データと非-NLI分類データを混ぜることで、NLI データのみと比べて zeroshot および few-shot の一般化は向上するか?
- RQ3多クラス分類の際に NLI を使用する際の計算コストのトレードオフは何であり、クラス数の増加とともにどう拡張するか?
主な発見
- NLI と非-NLI データを混在させた訓練セットは、NLI のみで訓練するより zeroshot 性能を高め、平均で 9.4% の改善を示した。
- 33データセット、389クラスで訓練された普遍的分類器は、タスクのカバー範囲が広く、保持データセットを含む一般化が向上している。
- deberta-v3-zeroshot-v1.1-all-33 は下流の zeroshot 分類タスクに推奨される。
- 1 回の実行あたり約900万の仮説–前提対を用いて訓練するには現代のGPUで数時間を要する。保持データセットの評価には複数の実行が必要。
- 混合タスクモデルが特定のデータセットで NLI のみモデルに比べて性能が劣る負の転移ケースがあるが、全体としては利得は堅牢である。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。