[論文レビュー] GPT-RE: In-context Learning for Relation Extraction using Large Language Models
GPT-RE はタスク認識デモンストレーション取得とゴールドラベル誘導推論を用いることで関係抽出の文脈内学習を強化し、SemevalとSciERCでSOTA、TACREDとACE05で競合的な結果を達成します。
In spite of the potential for ground-breaking achievements offered by large language models (LLMs) (e.g., GPT-3), they still lag significantly behind fully-supervised baselines (e.g., fine-tuned BERT) in relation extraction (RE). This is due to the two major shortcomings of LLMs in RE: (1) low relevance regarding entity and relation in retrieved demonstrations for in-context learning; and (2) the strong inclination to wrongly classify NULL examples into other pre-defined labels. In this paper, we propose GPT-RE to bridge the gap between LLMs and fully-supervised baselines. GPT-RE successfully addresses the aforementioned issues by (1) incorporating task-specific entity representations in demonstration retrieval; and (2) enriching the demonstrations with gold label-induced reasoning logic. We evaluate GPT-RE on four widely-used RE datasets, and observe that GPT-RE achieves improvements over not only existing GPT-3 baselines, but also fully-supervised baselines. Specifically, GPT-RE achieves SOTA performances on the Semeval and SciERC datasets, and competitive performances on the TACRED and ACE05 datasets.
研究の動機と目的
- ベースラインの GPT-3 アプローチを超えた関係抽出 (RE) の文脈内学習 (ICL) の改善を動機づける。
- RE の ICL の二つの主な限界に対処する:デモンストレーションの関連性が低いことと入力-ラベルの説明が欠如していること。
- デモンストレーションを豊かにするための二重戦略を提案する:タスク認識デモンストレーション取得とゴールドラベル誘導推論。
- タスク認識取得と推論が、GPT-3 のベースラインより改善をもたらし、複数のデータセットで完全監視ベースと競合または優位であることを示す。
提案手法
- RE を文脈内学習フレームワーク内の言語生成タスクとして定式化する。
- エンティティと関係を強調する表現を用いて高品質なデモンストレーションを選択するタスク認識取得を導入する(エンティティ誘導文embedding; 微調整された関係表現)。
- 各ラベル付き例を支持するチェーン・オブ・ソートのような手掛かりを提供するゴールドラベル誘導推論でデモンストレーションを豊かにする。
- GPT-3 に y_test を予測させるために、指示、タスク認識デモンストレーション (x_i, y_i, r_i)、および test 入力 x_test を含むプロンプトを構築する。
- 必要に応じて推論モジュールを組み込み、特に低ショット設定でデモンストレーション品質をさらに向上させる。
実験結果
リサーチクエスチョン
- RQ1タスク認識デモンストレーション取得は、文レベルまたはランダムなデモンストレーションと比較して GPT-3 ICL の関係抽出を改善できるか?
- RQ2デモンストレーションにゴールドラベル誘導推論を追加すると、入力とラベルの整合性を RE タスクで高めることができるか?
- RQ3GPT-RE の派生は、標準的な RE データセット全域で完全監視ベースのベースラインと比較してどのように推移するか?
- RQ4ヌル(関係なし)例の存在が GPT-3 RE に与える影響はどうか、タスク認識取得はヌル予測の過剰を緩和できるか?
- RQ5低リソース設定は、微調整済みモデルに対する GPT-RE の相対的利得にどのように影響するか?
主な発見
| 取得器 | Semeval 微F1 | TACRED 微F1 | SciERC 微F1 | ACE05 微F1 |
|---|---|---|---|---|
| GPT-Random | 70.04 | 32.49 | 17.92 | 9.04 |
| GPT-Sent (SimCSE) | 79.94 | 33.45 | 20.96 | 6.31 |
| GPT-RE_SimCSE | 81.02 | 37.44 | 26.46 | 8.67 |
| GPT-RE_SimCSE* | 77.49 | 31.58 | - | - |
| + Reasoning (GPT-RE_SimCSE) | 79.88 | 33.18 | - | - |
| GPT-RE_FT (PURE) | 91.90 | 72.14 | 69.00 | 68.73 |
| GPT-RE_FT* (PURE) | 91.11 | 70.38 | - | - |
| + Reasoning (PURE) | 91.82 | 70.97 | - | - |
| Fine-tuned RE Baselines (state-of-the-art) | 91.90 | - | - | - |
- GPT-RE 系は、ランダムまたは文レベルデモンストレーションに依存する GPT-3 のベースラインを上回る。
- タスク認識取得(エンティティ誘導埋め込みと微調整済み関係表現)は、データセットを跨いで GPT-Sent より高い Micro-F1 をもたらす。
- ゴールドラベル誘導推論は一貫して性能を向上させ、特にデモンストレーションが少ない場合に効果的。
- GPT-RE_FT(純粋な推論を含む微調整済み関係表現リトリーバ)は Semeval と SciERC で最先端の結果を達成し、TACRED と ACE05 で競合的な結果。
- 推論強化デモンストレーションは、一部の設定で GPT-3 の Micro-F1 を約2%向上させ、低ショット域でより大きな利得を生む。
- GPT-RE メソッドは vanilla GPT-3 ベースラインと比較してヌル例の過剰予測を緩和する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。