QUICK REVIEW

[論文レビュー] Structured information extraction from complex scientific text with fine-tuned large language models

Alexander Dunn, John Dagdelen|arXiv (Cornell University)|Dec 10, 2022

Machine Learning in Materials Science被引用数 65

ひとこと要約

本論文は、約500の prompt–completion ペアで微調整した GPT-3 を用いる単純な seq2seq アプローチを導入し、科学的テキストの複雑な階層情報の文書レベルでのジョイント NER およびリレーション抽出を実行し、アブストラクトとパッセージから JSON のような構造化出力を可能にします。

ABSTRACT

Intelligently extracting and linking complex scientific information from unstructured text is a challenging endeavor particularly for those inexperienced with natural language processing. Here, we present a simple sequence-to-sequence approach to joint named entity recognition and relation extraction for complex hierarchical information in scientific text. The approach leverages a pre-trained large language model (LLM), GPT-3, that is fine-tuned on approximately 500 pairs of prompts (inputs) and completions (outputs). Information is extracted either from single sentences or across sentences in abstracts/passages, and the output can be returned as simple English sentences or a more structured format, such as a list of JSON objects. We demonstrate that LLMs trained in this way are capable of accurately extracting useful records of complex scientific knowledge for three representative tasks in materials chemistry: linking dopants with their host materials, cataloging metal-organic frameworks, and general chemistry/phase/morphology/application information extraction. This approach represents a simple, accessible, and highly-flexible route to obtaining large databases of structured knowledge extracted from unstructured text. An online demo is available at http://www.matscholar.com/info-extraction.

研究の動機と目的

材料科学における非構造化テキストから複雑な科学情報を抽出してリンクする必要性を動機づける。
階層的かつ多エンティティ関係を扱える柔軟なエンドツーエンド NERRE アプローチを開発する。
構造化された prompt–completion ペアの微調整が複数タスクに渡る正確な情報抽出をもたらすことを示す。
自然英語と構造化された JSON 形式の両方で出力をデモンストレーションし、データベースへの統合を容易にする。

提案手法

事前定義された出力スキーマを用いて約100–500 の document-completion 例で GPT-3 を微調整し、文書レベルの NERRE を実行する。
人間が介入するワークフローを用いて訓練データを迅速に拡張し、部分的に訓練されたモデルでアノテーションを事前入力する。
出力はタスクスキーマごとに、英語の文または構造化JSON（またはネストしたJSON）のいずれかとして提供する。
シーケンス再構成メトリクス（完全一致、Jaro-Winkler、パーサビリティ）と情報抽出指標（語彈レベルの厳密一致によるエンティティトリプレット）で評価する。
任意の後処理で完了を階層的な知識グラフへ変換できる。

実験結果

リサーチクエスチョン

RQ1微調整された LLM は複雑で階層的な科学情報に対して、共同 NER と関係抽出を実行できるか？
RQ2材料科学の異なるドメイン（ドーピング、MOF、一般材料）に対して、タスク固有のスキーマを用いてアプローチはどれくらい generalize できるか？
RQ3イン・ザ・ループ訓練ワークフローを用いた場合、アノテーション効率の実用的な向上はどの程度か？
RQ4抽出された情報の下流利用を最も支援する形式は何か（自然言語 vs JSON vs グラフ構造）？

主な発見

本手法は、アブストラクトとパッセージから複雑な知識を、材料科学の3つのタスク（固体状態のドーピング、MOF、一般材料情報）に跨って正確に抽出できる。
約100–500 の prompt–completion 例でGPT-3を微調整すると、JSON または英語の文で高品質な構造化出力を得られる。
イン・ザ・ループのアノテーション手法は、アブストラクトごとのアノテーション時間を約100秒から約40秒に短縮する。
seq2rel および MatBERT ベースラインと比較して、LLM-NERRE アプローチは、柔軟でスキーマ駆動の方法でエンティティとリレーションを捉える堅牢な能力を示す。
このフレームワークは階層的グラフへの下流デコードをサポートし、広いアクセス性のために公開APIとともに使用できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。