QUICK REVIEW

[論文レビュー] Revisiting Relation Extraction in the era of Large Language Models

Somin Wadhwa, Silvio Amir|arXiv (Cornell University)|May 8, 2023

Topic Modeling被引用数 12

ひとこと要約

この論文は、エンドツーエンドの関係抽出（RE）を生成を通じて評価するGPT-3とFlan-T5を検討し、GPT-3の少数ショットプロンプトがSOTAに近づくこと、GPT-3生成のチェーンオブ思考（CoT）説明を用いたFlan-T5がファインチューニング時にSOTAに到達することを示す。生成型REの評価課題にも対処する。

ABSTRACT

Relation extraction (RE) is the core NLP task of inferring semantic relationships between entities from text. Standard supervised RE techniques entail training modules to tag tokens comprising entity spans and then predict the relationship between them. Recent work has instead treated the problem as a \emph{sequence-to-sequence} task, linearizing relations between entities as target strings to be generated conditioned on the input. Here we push the limits of this approach, using larger language models (GPT-3 and Flan-T5 large) than considered in prior work and evaluating their performance on standard RE tasks under varying levels of supervision. We address issues inherent to evaluating generative approaches to RE by doing human evaluations, in lieu of relying on exact matching. Under this refined evaluation, we find that: (1) Few-shot prompting with GPT-3 achieves near SOTA performance, i.e., roughly equivalent to existing fully supervised models; (2) Flan-T5 is not as capable in the few-shot setting, but supervising and fine-tuning it with Chain-of-Thought (CoT) style explanations (generated via GPT-3) yields SOTA results. We release this model as a new baseline for RE tasks.

研究の動機と目的

非常に大規模な言語モデル（LLM）を用いたエンドツーエンドの関係抽出を生成を通じて評価する。
GPT-3を用いた少数ショットプロンプティングを評価し、標準REデータセット上の監督付きベースラインと比較する。
厳密一致に基づく評価の不安定さに対処するため、生成型REの評価課題を調査し、人間中心の評価を提案して厳密一致バイアスを是正する。
Flan-T5をCoT説明でファインチューニングし、SOTAを達成する訓練戦略を提案する。
GPT-3生成のCoT説明を用いたFlan-T5訓練で、REの実用的かつオープンモデルのベースラインを提供する。

提案手法

REを文脈Cと入力xから線形化した関係三つ組を出力する条件付きテキスト生成としてモデル化する。
プロンプトを工夫したGPT-3（text-davinci-002）を用いてADE、CoNLL04、NYTデータセット上でインコンテキスト学習を行う。
厳密な文字列一致の評価の脆弱性により、生成出力を金標準と比較するために人間の注釈を収集する。
標準のRE監視学習と合わせて、GPT-3生成のCoT説明を用いてFlan-T5 Largeをファインチューニングし性能を向上させる。
GPT-3を使ってCoT説明を生成し、それを監督信号としてFlan-T5訓練を行い、標準監督とCoT強化監督を比較する。
結果はmicro-F1スコアと、出力がターゲットスキーマにどれだけ適合するかの定性的分析で報告する。

Figure 2: Examples of misclassified FPs and FNs from GPT-3 (generated under few-shot in-context prompting scheme) under traditional evaluation of generative output. In each instance, the entity-type of subject and object was correctly identified.

実験結果

リサーチクエスチョン

RQ1GPT-3の少数ショットプロンプティングは標準データセット上でほぼSOTAのRE性能を達成できるか。
RQ2Flan-T5は少数ショット設定で監督付きREモデルに匹敵するか、あるいは上回るか、CoT説明は性能を向上させるか。
RQ3生成モデルのRE出力を非完全な出力形式としてどう評価すべきか、厳密一致に基づく評価から生じる偏見は何か。
RQ4Flan-T5をGPT-3生成のCoT説明で訓練すると、複数データセットに対して頑健でSOTA級のRE性能を生み出すか。
RQ5CoT情報に基づく監督で、より小さなオープンソースのREベースラインを構築して大規模モデルと対等または上回ることは現実的か。

主な発見

Dataset	Entity Types	Relation Types	# relation triplets	Train	Val	Test	Note
ADE	2	1	4,272	–	–	–	データセットの特徴
CoNLL04	4	5	922	231	288	–	データセットの特徴
NYT	4	24	56,196	5,000	5,000	–	データセットの特徴
DocRED	6	96	3,008	300	700	–	データセットの特徴

少数ショットのGPT-3はほぼSOTAの性能を達成し、完全に監督された最良モデルに匹敵する、数十の例で十分。
GPT-3のCoT説明は少数ショットの性能を改善し、非適合出力を減少させる。
Flan-T5（Large）は少数ショット設定ではGPT-3に及ばないが、CoT説明をGPT-3生成で追加するとSOTA結果に到達。
CoT説明を用いたFlan-T5のファインチューニングは、ADE、CoNLL、NYTデータセット全体で約5–10 micro-F1ポイントの大幅な改善をもたらし、従来の完全監督生成法を上回る。
Flan-T5のCoT生成監督を用いることで、GPT-3を推論時に必要とせず、REのSOTA達成への実用的で高速な道を提供する。
本研究は生成型REの評価課題を浮き彫りにし、慎重な人間注釈が報告された利得の信頼性を向上させることを示している。

Figure 3: We propose fine-tuning Flan-T5 (large) for relation extraction (RE) using standard supervision and Chain-of-Thought (CoT) reasoning elicited from GPT-3 for RE. This yields SOTA performance across all datasets considered, often by substantial margin ( $\sim$ 5 points absolute gain in F1).

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。