[論文レビュー] InstructUIE: Multi-task Instruction Tuning for Unified Information Extraction
InstructUIEは、タスク指示およびオプションに導かれた自然言語生成として情報抽出タスクを再定式化し、NER、RE、およびEEのベンチマーク全体で強力な監視付きおよびゼロショットの結果を達成する。
Large language models have unlocked strong multi-task capabilities from reading instructive prompts. However, recent studies have shown that existing large models still have difficulty with information extraction tasks. For example, gpt-3.5-turbo achieved an F1 score of 18.22 on the Ontonotes dataset, which is significantly lower than the state-of-the-art performance. In this paper, we propose InstructUIE, a unified information extraction framework based on instruction tuning, which can uniformly model various information extraction tasks and capture the inter-task dependency. To validate the proposed method, we introduce IE INSTRUCTIONS, a benchmark of 32 diverse information extraction datasets in a unified text-to-text format with expert-written instructions. Experimental results demonstrate that our method achieves comparable performance to Bert in supervised settings and significantly outperforms the state-of-the-art and gpt3.5 in zero-shot settings.
研究の動機と目的
- IEタスクのパフォーマンスギャップを埋めるために、指示調整済みLLMを用いた統一情報抽出(UIE)の推進。
- 記述的なタスク指示と出力制約を用いるマルチタスクの指示調整フレームワークを提案。
- 構造理解とタスク間一般化を深める補助タスクを導入。
- IE INSTRUCTIONSを作成、監督付きおよびゼロショットのシナリオでUIEを評価する統一32データセットベンチマーク。
提案手法
- IEタスクを4つの入力(タスク指示、オプション、テキスト、出力)を持つseq2seq設定に再定式化。
- 各タスクの候補ラベル(例:NERタグ、RE関係、EEイベントタイプ)に出力空間を制約するオプション機構を使用。
- 補助タスクを導入(NERのスパン抽出と型付け、REのエンティティ対抽出と関係分類、EEのトリガーと引数抽出)し、意味理解を深める。
- 32のIEデータセットをテキスト対テキスト形式(IE INSTRUCTIONS)に統一し、ラベル規約の正規化と自然言語ラベル表記を適用。
- 多様なIEタスクに対して指示調整を施した1つの11B Flan-T5モデルを訓練し、監督付きおよびゼロショット設定で評価。
実験結果
リサーチクエスチョン
- RQ1指示調整済みLLMは単一のフレームワーク内でNER、RE、EEを普遍的に扱えるか。
- RQ2タスク指示とラベル制約が、IEタスク全体の生成品質とタスク遵守にどう影響するか。
- RQ3補助タスクは低リソースまたはゼロショット設定でのタスク間一般化と性能を向上させるか。
- RQ4監督付きおよびゼロショット条件下で、InstructUIEは専用IEモデルや従来のUIE/USMアプローチと比べてどうか。
- RQ5ラベルスキーマの統一とテキスト対テキスト形式への変換が、データセット横断のIE性能に与える影響は何か。
主な発見
- InstructUIEは監督付きIEタスクでBERTに匹敵する性能を達成。
- ゼロショット設定では、InstructUIEは複数のIEタスクで最先端およびGPT-3.5を大きく上回る。
- NERで20データセットにわたり、InstructUIEは平均85.19% F1、BERTの80.09%を上回る。
- REで8データセット、平均67.98% F1、NYTで高い性能(90.47%)。
- EEでは平均Event Trigger F1が71.69%、Event Argument F1はベースラインを大幅に上回る。
- IE INSTRUCTIONSは32データセットのベンチマークで、科学、医療、ソーシャルメディアなどの分野を横断したUIEの標準化評価を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。