QUICK REVIEW

[論文レビュー] Meta-tuning Language Models to Answer Prompts Better.

Ruiqi Zhong, Kristy Lee|arXiv (Cornell University)|Apr 10, 2021

Topic Modeling参考文献 13被引用数 9

ひとこと要約

この論文は、一般化性能を損なわせることなく、ゼロショットプロンプトのパフォーマンスを向上させるために、大規模言語モデルの特化を図るメタチューニングを提案する。43のデータセットを質問・回答形式に統一し、441のラベル記述を用いて微調整することで、未知のタスクにおいて、同じサイズのタスク特化型QAモデルを上回る性能を示した。これは、プロンプト理解を標的的な事前学習によって体系的かつ効果的に向上させられることを示している。

ABSTRACT

Large pretrained language models like GPT-3 have acquired a surprising ability to perform zero-shot classification (ZSC). For example, to classify review sentiments, we can prompt the language model with the review and the question Is the review positive? as the context, and ask it to predict whether the next word is Yes or No. However, these models are not specialized for answering these prompts. To address this weakness, we propose meta-tuning, which trains the model to specialize in answering prompts but still generalize to unseen tasks. To create the training data, we aggregated 43 existing datasets, annotated 441 label descriptions in total, and unified them into the above question answering (QA) format. After meta-tuning, our model outperforms a same-sized QA model for most labels on unseen tasks, and we forecast that the performance would improve for even larger models. Therefore, measuring ZSC performance on non-specialized language models might underestimate their true capability, and community-wide efforts on aggregating datasets and unifying their formats can help build models that understand prompts better.

研究の動機と目的

大規模言語モデルが強力なゼロショット分類能力を有する一方で、プロンプトへの対応が特化されていないという限界を解消すること。
プロンプトベースの指示をよりよく理解・応答できるようにすることで、未知のタスクにおけるモデル性能を向上させること。
多様なデータセットを一貫した質問・回答形式に統一し、一貫したプロンプト学習を可能にすること。
メタチューニングが、未知のタスクにおいて標準的なゼロショットプロンプトより優れた一般化を実現できることを示すこと。
コミュニティ全体でのデータセットの集約とフォーマット統一が、LLMにおけるプロンプト理解の向上に顕著な効果をもたらすことを示すこと。

提案手法

著者らは43の既存データセットを収集し、それらのラベルを441の異なるラベル記述に変換した。
各例はプロンプトに変換された：入力文脈 + 質問（例：「このレビューは肯定的ですか？」）+ 目的の回答（はい／いいえ）。
標準的な言語モデリング目的を用いて、この統一されたプロンプトベースのデータセットでモデルを微調整した。
メタチューニングを適用し、プロンプト理解の特化を図るとともに、未知のタスクへの一般化能力を維持した。
訓練データはドメインやラベルタイプの整合性を確保するように構築され、広範な適用性を実現した。
アプローチはモデルのゼロショット能力を維持しつつ、プロンプトベース分類のパフォーマンスを向上させた。

実験結果

リサーチクエスチョン

RQ1大規模言語モデルを、ゼロショット一般化能力を損なわせることなく、プロンプト理解のための体系的改善は可能か？
RQ2統一されたプロンプトフォーマットデータでメタチューニングを施した場合、標準的なゼロショット推論と比較して、未知のタスクにおける性能にどのような影響を与えるか？
RQ3データセットの集約とフォーマット統一は、プロンプトベース分類におけるモデル性能をどの程度向上させるか？
RQ4メタチューニングは、同じサイズのタスク特化型QAモデルを学習させた場合に、より優れたパフォーマンスをもたらすか？
RQ5モデルスケールが増大するに従い、大規模モデルの性能はメタチューニングによってさらに向上するか？

主な発見

メタチューニング後、未知のタスクにおけるほとんどのラベルで、同サイズのタスク特化型QAモデルを上回った。
性能向上の兆候から、特化されていないモデルにおけるゼロショット分類性能は、その真の潜在能力を下回っている可能性がある。
メタチューニングにより、プロンプトベースの推論に特化することで、未知のタスクへの一般化が向上した。
著者らは、より大きなモデルでは性能がさらに向上すると予測しており、このアプローチのスケーラビリティを示している。
多様なデータセットを一貫したQA形式に統一することで、モデルのプロンプト理解・応答能力が顕著に向上した。
結果から、統一されたプロンプト最適化データに対する標的的な事前学習によって、プロンプト理解を体系的に向上させられることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。