[論文レビュー] Evaluating ChatGPT's Information Extraction Capabilities: An Assessment of Performance, Explainability, Calibration, and Faithfulness
この論文は、14のデータセットにわたる7つの細分化された情報抽出タスクでChatGPTを体系的に評価し、Standard-IEの性能は乏しいがOpenIEの性能は高く、説明は高品質である一方、キャリブレーションは過信的であり、入力への忠実度が高いという結果を示している。
The capability of Large Language Models (LLMs) like ChatGPT to comprehend user intent and provide reasonable responses has made them extremely popular lately. In this paper, we focus on assessing the overall ability of ChatGPT using 7 fine-grained information extraction (IE) tasks. Specially, we present the systematically analysis by measuring ChatGPT's performance, explainability, calibration, and faithfulness, and resulting in 15 keys from either the ChatGPT or domain experts. Our findings reveal that ChatGPT's performance in Standard-IE setting is poor, but it surprisingly exhibits excellent performance in the OpenIE setting, as evidenced by human evaluation. In addition, our research indicates that ChatGPT provides high-quality and trustworthy explanations for its decisions. However, there is an issue of ChatGPT being overconfident in its predictions, which resulting in low calibration. Furthermore, ChatGPT demonstrates a high level of faithfulness to the original text in the majority of cases. We manually annotate and release the test sets of 7 fine-grained IE tasks contains 14 datasets to further promote the research. The datasets and code are available at https://github.com/pkuserc/ChatGPT_for_IE.
研究の動機と目的
- ChatGPT の総合能力を、14のデータセットにまたがる7つの細分化された IE タスクで評価する。
- Standard-IE と OpenIE の設定間での ChatGPT の性能を比較する。
- ChatGPT の説明、キャリブレーション、および予測の忠実度を評価する。
- LLM を用いた IE 研究の推進のため、手動で注釈付けされたテストセット、データセット、コードを公開する。
提案手法
- 4つの次元(性能、説明可能性、キャリブレーション、忠実度)にわたって、15の評価キーを収集する(ChatGPT 由来が10、手動注釈が5)。
- ET、NER、RC、RE、ED、EAE、EE の7つの細分化 IE タスクにまたがる14のデータセットを評価する。
- Standard-IE における BERT ベースのベースライン(BERT、RoBERTa)および SOTA と比較する;定義済みラベル集合を持たない OpenIE の予測を評価する。
- ほとんどのタスクで Micro-F1 を用いる;RE/EE はタスク固有の F1 指標を用いる;追加のオープンセットおよび top-k 分析を報告する。
- 自己検証および理由の人間による検証を通じた説明可能性を評価する;信頼度スコアと Expected Calibration Error (ECE) によるキャリブレーションを測定する;入力テキストに対する忠実度を評価する。
実験結果
リサーチクエスチョン
- RQ1Standard-IE と OpenIE の設定における7つの細分化 IE タスクで、ChatGPT はどのように性能を示すか?
- RQ2両方の設定で、ChatGPT は説明可能で合理的な正当化を予測に対して提供できるか?
- RQ3ChatGPT は適切にキャリブレーションされているか、または予測において過信を示しているか?
- RQ4タスクを跨いで、ChatGPT の説明は元の入力にどれだけ忠実か?
主な発見
- ChatGPT の Standard-IE における性能は一般にベースラインより劣るが、人間の評価によれば OpenIE では驚くほど高い。
- ChatGPT はタスクを跨いだ決定に対して高品質で信頼できる説明を提供する。
- ChatGPT は過信を示し、キャリブレーションが低い(予測の過信が高く、ベースラインよりキャリレーション誤差が高い)。
- ChatGPT の説明が入力に対する忠実度は高く、ほとんどのデータセットと設定で95%以上の忠実度を示す。
- Top-k recall は、ChatGPT が良い候補生成器となり得ることを示しており(いくつかのデータセットで top-5 recall は最大 94.9% )。
- 著者らは将来の IE 研究を支援するため、注釈付きテストセット(7 タスクにまたがる 14 データセット)とコードを公開する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。