[論文レビュー] What Makes Good In-Context Examples for GPT-$3$?
この論文は、意味的に似た文脈内の例を取得すること(KATEを介して)が、感情分析、表からテキスト生成、オープン領域のQAにおけるGPT-3のfew-shot性能を有意に向上させることを示しており、タスク関連の文埋め込み表現によって利得が強化される。
GPT-$3$ has attracted lots of attention due to its superior performance across a wide range of NLP tasks, especially with its powerful and versatile in-context few-shot learning ability. Despite its success, we found that the empirical results of GPT-$3$ depend heavily on the choice of in-context examples. In this work, we investigate whether there are more effective strategies for judiciously selecting in-context examples (relative to random sampling) that better leverage GPT-$3$'s few-shot capabilities. Inspired by the recent success of leveraging a retrieval module to augment large-scale neural network models, we propose to retrieve examples that are semantically-similar to a test sample to formulate its corresponding prompt. Intuitively, the in-context examples selected with such a strategy may serve as more informative inputs to unleash GPT-$3$'s extensive knowledge. We evaluate the proposed approach on several natural language understanding and generation benchmarks, where the retrieval-based prompt selection approach consistently outperforms the random baseline. Moreover, it is observed that the sentence encoders fine-tuned on task-related datasets yield even more helpful retrieval results. Notably, significant gains are observed on tasks such as table-to-text generation (41.9% on the ToTTo dataset) and open-domain question answering (45.5% on the NQ dataset). We hope our investigation could help understand the behaviors of GPT-$3$ and large-scale pre-trained LMs in general and enhance their few-shot capabilities.
研究の動機と目的
- GPT-3の文脈内例の選択に対する感度を動機づけ、理解する。
- 文脈内例の取得ベースの選択がランダムサンプリングより良い性能を生むかを調査する。
- タスク関連の文埋め込みが取得された例の質とGPT-3予測の品質にどのように影響するかを評価する。
- 複数のNLPタスクにおける非パラメトリックな取得拡張(KATE)の有効性を示す。
提案手法
- 文脈内学習を、k個の文脈例とそのラベルからなる文脈Cを条件としてのテキスト生成として定式化する。
- 文脈内のランダムサンプリングと、文埋め込み空間での最近傍検索を用いた取得ベースの選択を実証的に比較する。
- KATE(K nn- Augmented in-Context d E xample selection)を提案し、訓練集合からテストサンプルのk最近傍を取得し、それらをGPT-3プロンプトの文脈例として使用する。
- 取得埋め込みとして、SNLI/MNLIおよびSTS-BでファインチューニングされたRoBERTaベースのモデルを含む複数の文埋め込みモデルを評価する。
- 文脈例の数、取得の訓練集合サイズ、文脈例の順序が性能に与える影響を分析する。
実験結果
リサーチクエスチョン
- RQ1文脈内例の取得ベースの選択は、ランダムサンプリングと比較してGPT-3のfew-shot性能を向上させるか?
- RQ2文埋め込みで測定される取得例の意味的品質はGPT-3の結果にどのような影響を与えるか?
- RQ3タスク関連の文埋め込みとより大きな取得集合は、感情分析、表→テキスト生成、QAなどのタスクでより大きな利得を生むか?
- RQ4文脈内例の数と順序はKATEの有効性にどのように影響するか?
主な発見
- 取得ベースの文脈内例選択は、複数のタスクで一貫してランダムサンプリングより優れている。
- タスク関連データ(例:NLI、STS-B、SST-2)でファインチューニングされた文埋め込みは、取得結果を強化し、GPT-3の性能を高める。
- KATEはToTToの表→テキスト生成およびオープンドメインQAデータセットで顕著な利得を達成し、ベースラインよりも有意な改善を示す。
- 取得された例の数を増やすほど一般に性能は向上し、タスクに整合したエンコーダを使用すると更なる利得が得られる。
- 取得された例はGPT-3により詳細で関連性の高い文脈を提供し、幻像を減らし回答の忠実度を向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。